HTML   发布时间:2022-04-14  发布网站:大佬教程  code.js-code.com
大佬教程收集整理的这篇文章主要介绍了web-crawler – 我应该在robots.txt中对不区分大小写的目录使用不同的大小写拼写吗?大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。
不幸的是,我有一些不区分大小写的服务器,短期内无法更换.某些目录需要从抓取中排除,因此我必须在robots.txt中禁止它们.我们以/ Img /为例.如果我把它全部保持小写……
User-agent: *
Disallow: /img/

…它没有映射到实际的物理路径,并且/ Img /或/ IMG /的地址未应用于Disallow指令. Crawlers会将这些变体视为不同的路径.

在这件事上看Microsoft’s robots.txt很有趣.他们可能使用IIS服务器,而SERP只是充满了不允许的地址 – 仅限于其他情况.

该怎么办?是否有效(并且有效)陈述以下内容?

User-agent: *
Disallow: /Img/
Disallow: /img/
Disallow: /IMG/

解决方法

原始的robots.txt规范没有说明文件路径中的typecase,但根据 Google’s robots.txt specification,文件路径肯定是区分大小写的.谷歌明确指出“Disallow:/ img /”只会阻止“/ img /”,而不是“/ Img /”或“/ IMG /”.您的解决方案绝对有效,并将解决问题.

这么说,如果我有理由相信备用案例URL实际被抓取,我只会求助于此解决方案,并且它们导致了问题.您可以轻松地将robots.txt文件转换为无法维护的混乱.

大佬总结

以上是大佬教程为你收集整理的web-crawler – 我应该在robots.txt中对不区分大小写的目录使用不同的大小写拼写吗?全部内容,希望文章能够帮你解决web-crawler – 我应该在robots.txt中对不区分大小写的目录使用不同的大小写拼写吗?所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。