大佬教程收集整理的这篇文章主要介绍了使用robots.txt控制搜索引擎抓取,大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。
robots.txt 是一个标准文档,意在阻止搜索引擎的Spider(蜘蛛)从您的 Web 服务器下载某些或全部信息,控制Spider的搜索范围。robots.txt的设置很简单,只要用记事本或其他文本编辑器,依照自己的网站需求,设定一 系列选项,然后将其上传到网站根目录即可。robots.txt的设置如下:
如设定所有的spider都能够搜索及抓取整个网站。
如拒绝Google搜索及抓取整个网站,但允许其它的
如拒绝所有的Spider
如拒绝所有的Spider搜索及抓取protect目录及seo目录下abc.html文件
如拒绝google搜索及抓取protect目录及seo目录下abc.html文件,但允许其他的
很简单吧?另有一点请记住,搜索引擎不会立即对robots.txt 文件所作的更改作出反应,必须等到搜索引擎下一次读取该文件。这段时间,依搜索引擎及具体网站情况,从几小时到几天不等。
https://cn.js-code.com/res/2019/02-07/12/16d2c975605a780b83abea97e9c7fa2b.gif" alt="">https://cn.js-code.com/res/2019/02-07/12/16d2c975605a780b83abea97e9c7fa2b.gif" alt="">https://cn.js-code.com/res/2019/02-07/12/16d2c975605a780b83abea97e9c7fa2b.gif" alt="">https://cn.js-code.com/res/2019/02-07/12/16d2c975605a780b83abea97e9c7fa2b.gif" alt="">https://cn.js-code.com/res/2019/02-07/12/16d2c975605a780b83abea97e9c7fa2b.gif" alt="">https://cn.js-code.com/res/2019/02-07/12/16d2c975605a780b83abea97e9c7fa2b.gif" alt="">https://cn.js-code.com/res/2019/02-07/12/16d2c975605a780b83abea97e9c7fa2b.gif" alt="">https://cn.js-code.com/res/2019/02-07/12/16d2c975605a780b83abea97e9c7fa2b.gif" alt="">https://cn.js-code.com/res/2019/02-07/12/16d2c975605a780b83abea97e9c7fa2b.gif" alt="">
你好,我有一个关于robots.txt的问题,希望得到解答。
我想禁止所有的robot访问我网站根目录的go.php文件,一般这些文件是 go.php?q=…,这个文件的作用是根据q=的参数,从我的网站转到其他网站去。
我的robots.txt文件是如下所写:
User-agent: * Disallow: /go.php
我的这个文件是建站之时就存在的,是Windows下的文本文件。但是只有yahoo搜索引擎没有收录go.php,Google和MSN都收录和很多go.php?q=…的文件。按照道理来说,这些大的搜索引擎都会完全遵守robots.txt文件。
我在另一个网站下将此文件设置成了UNIX格式,但是依然如此,连yahoo也收录了一些这样的文件。
究竟什么原因造成的,我苦思不解。
https://cn.js-code.com/res/2019/02-07/12/16d2c975605a780b83abea97e9c7fa2b.gif" alt="">https://cn.js-code.com/res/2019/02-07/12/16d2c975605a780b83abea97e9c7fa2b.gif" alt="">https://cn.js-code.com/res/2019/02-07/12/16d2c975605a780b83abea97e9c7fa2b.gif" alt="">https://cn.js-code.com/res/2019/02-07/12/16d2c975605a780b83abea97e9c7fa2b.gif" alt="">https://cn.js-code.com/res/2019/02-07/12/16d2c975605a780b83abea97e9c7fa2b.gif" alt="">https://cn.js-code.com/res/2019/02-07/12/16d2c975605a780b83abea97e9c7fa2b.gif" alt="">https://cn.js-code.com/res/2019/02-07/12/16d2c975605a780b83abea97e9c7fa2b.gif" alt="">https://cn.js-code.com/res/2019/02-07/12/16d2c975605a780b83abea97e9c7fa2b.gif" alt="">https://cn.js-code.com/res/2019/02-07/12/16d2c975605a780b83abea97e9c7fa2b.gif" alt="">
相关知识点:html
以上是大佬教程为你收集整理的使用robots.txt控制搜索引擎抓取全部内容,希望文章能够帮你解决使用robots.txt控制搜索引擎抓取所遇到的程序开发问题。
如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。