分类导航

HTML HTML5 JavaScript CSS jQuery Bootstrap Angularjs Vue Dojo Json Electron Node.js Express XML Ajax Unity React Flex Web前端微信小程序支付小程序百度小程序

上一篇: html – CSS 3列浮动(2个固定,1个... 下一篇:HTML – 如何在没有图像的情况下...

web-crawler – 网络爬虫http请求的正确礼仪

HTML 发布时间：2022-04-14 发布网站：大佬教程 code.js-code.com

大佬教程收集整理的这篇文章主要介绍了web-crawler – 网络爬虫http请求的正确礼仪，大佬教程大佬觉得挺不错的，现在分享给大家，也给大家做个参考。

我有一个简单的网络爬虫来请求网站的站点地图中我需要缓存和索引的所有页面.经过多次请求后,网站开始提供空白页面.

除了链接到他们的站点地图之外,他们的robots.txt中没有任何内容,因此我假设我没有违反他们的“规则”.我有一个描述性标题,链接到我的意图,我抓取的唯一页面来自他们的站点地图.

http状态代码仍然可以,所以我只能想象它们会在短时间内阻止大量的http请求.什么被认为是请求之间的合理延迟？

我是否忽略了可能导致此问题的任何其他考虑因素？

解决方法

每个网站都有不同的抓取和滥用特征.

任何爬虫的关键是模拟人类活动,并遵守robots.txt.

一次详尽的爬行会让一些网站绊倒,无论你走得多慢,它们都会让你失望,而一些主机并不介意爬行者一气呵成,一气呵成.

>一般情况下,您不希望以每分钟6次(约人速)的速度请求页面.
>按照网页上的可见性顺序,您将更安全地关注链接.
>尝试忽略网页上看不到的链接(很多人使用蜜罐).

如果所有其他方法都失败了,请不要超过每分钟一页的请求.如果某个网站以此费率阻止您,请直接与他们联系 – 他们显然不希望您以这种方式使用他们的内容.

大佬总结

以上是大佬教程为你收集整理的web-crawler – 网络爬虫http请求的正确礼仪全部内容，希望文章能够帮你解决web-crawler – 网络爬虫http请求的正确礼仪所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错，欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：crawler http web 正确爬虫礼仪网络请求

上一篇: html – CSS 3列浮动(2个固定,1个... 下一篇:HTML – 如何在没有图像的情况下...

猜你在找的HTML相关文章

html – 在不同的事件中CSS多重转换为相同的元素 2022-04-15
使用python绘制图形并使用HTML显示它 2019-10-08
使用JQuery很好地将DOM元素添加到DOM 2019-10-08
将值重新加载到数组中比javascript中的最后一个位置发生一个位置 2019-10-08
jquery – 在SELECT框中更改文本颜色 2019-10-08
Html表,使一行更大 2019-10-08
javascript – 使用Puppeteer,Mocha和Chai在html标记属性中断言文本的存在 2019-10-08
javascript – React：设置div的scrollTop属性不起作用 2019-10-08
html – 创建水平居中的背景图像渐变三角形 2019-10-08
javascript – 如何在Plyr JS的视频播放器中添加下载按钮？ 2019-10-08

其他相关热搜词更多

php Java Python 程序员 load 中如何 string 使用参数 jquery 开发安装 list linux ios android 工具 javascript cap