大佬教程收集整理的这篇文章主要介绍了使用 Python 在网页抓取时绕过 cookie 协议页面,大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。
在抓取重定向 Google url 后,我遇到了 Google 协议页面 cookie 的问题。
我试图从 Google 新闻 uri 上的不同页面中抓取,但是当我运行此代码时:
req = requests.get(url,headers=headers)
with "headers" = {'User-Agent': 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_5_8; en-US) AppleWebKit/534.1 (KHTML,like Gecko) Chrome/6.0.422.0 Safari/534.1','upgrade-insecure-requests': '1','Accept': 'text/HTML,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','DNT': '1','Accept-EnCoding': 'gzip,deflate','Accept-Language': 'it-IT'}
and for example URL = https://news.Google.com/./articles/CAIIEMb3PYSjFFVbudiIDQPL79QqGQgEKhAIACoHCAow-ImTCzDRqagDMKiIvgY?hl=it&gl=IT&cEID=IT%3Ait
the "request.content" is the HTMLs code of agreement cookies page by Google.
我也尝试将重定向链接转换为普通链接,但响应为我提供了指向 this
的重定向链接我有与此问题 (How can I bypass a cookie agreement page while web scraping using Python?) 相关的相同问题。
无论如何,其中提出的解决方案仅适用于特定站点。
注意:直到几周前,整个代码才有效。
我通过添加行解决了问题
'Cookie':'CONSENT=YES+cb.20210418-17-p0.it+FX+917; '
到请求头。
虽然请求返回的页面仍然是 Google 页面,但该页面包含指向发起请求的站点的链接。
以上是大佬教程为你收集整理的使用 Python 在网页抓取时绕过 cookie 协议页面全部内容,希望文章能够帮你解决使用 Python 在网页抓取时绕过 cookie 协议页面所遇到的程序开发问题。
如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。