分类导航

程序问答发布时间：2022-06-01 发布网站：大佬教程 code.js-code.com

大佬教程收集整理的这篇文章主要介绍了使用 Python 在网页抓取时绕过 cookie 协议页面，大佬教程大佬觉得挺不错的，现在分享给大家，也给大家做个参考。

如何解决使用 Python 在网页抓取时绕过 cookie 协议页面？

开发过程中遇到使用 Python 在网页抓取时绕过 cookie 协议页面的问题如何解决？下面主要结合日常开发的经验，给出你关于使用 Python 在网页抓取时绕过 cookie 协议页面的解决方法建议，希望对你解决使用 Python 在网页抓取时绕过 cookie 协议页面有所启发或帮助；

在抓取重定向 Google url 后，我遇到了 Google 协议页面 cookie 的问题。

我试图从 Google 新闻 uri 上的不同页面中抓取，但是当我运行此代码时：

req = requests.get(url,headers=headers)

with "headers" = {'User-Agent': 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_5_8; en-US) AppleWebKit/534.1 (KHTML,like Gecko) Chrome/6.0.422.0 Safari/534.1','upgrade-insecure-requests': '1','Accept': 'text/HTML,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','DNT': '1','Accept-EnCoding': 'gzip,deflate','Accept-Language': 'it-IT'}
and for example URL = https://news.Google.com/./articles/CAIIEMb3PYSjFFVbudiIDQPL79QqGQgEKhAIACoHCAow-ImTCzDRqagDMKiIvgY?hl=it&gl=IT&cEID=IT%3Ait 

the "request.content" is the HTMLs code of agreement cookies page by Google.

我也尝试将重定向链接转换为普通链接，但响应为我提供了指向 this

的重定向链接

我有与此问题 (How can I bypass a cookie agreement page while web scraping using Python?) 相关的相同问题。

无论如何，其中提出的解决方案仅适用于特定站点。

注意：直到几周前，整个代码才有效。

解决方法

我通过添加行解决了问题

'Cookie':'CONSENT=YES+cb.20210418-17-p0.it+FX+917; '

到请求头。

虽然请求返回的页面仍然是 Google 页面，但该页面包含指向发起请求的站点的链接。

所以，一旦我获得了页面，我就进行了更多的抓取，以便获得链接并开始我想要的请求。

大佬总结

以上是大佬教程为你收集整理的使用 Python 在网页抓取时绕过 cookie 协议页面全部内容，希望文章能够帮你解决使用 Python 在网页抓取时绕过 cookie 协议页面所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错，欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：cookie Python 使用

上一篇: 为什么我的 AWS Lambda 节点 JS ... 下一篇:如何在 MeshLab 中展开垂直于其表...

猜你在找的程序问答相关文章

在烧瓶中重定向时发出POST请求 2022-06-02
从 CreateWindow() 返回的 HWND 的格式值是多少？ 2022-05-31
使用nodejs打印json对象内容 2022-05-31
useEffect 无限循环仅在测试时发生，否则不会发生 - 尽管使用 useReducer 2022-05-31
从雅虎财经检索 ESG 分数 2022-05-31
Gulp：获取“必须指定任务功能”错误，但我只有 1 个任务 2022-05-31
JavaScript 将平面数组转换为嵌套/分组和排序数组 2022-05-31
405 Method Not Allowed 当提交表单到 Flask 时，即使路由有 ['GET', 'PO... 2022-05-31
Mongodb 错误码和对应的 http 状态码 2022-05-31
连接到上游时 Nginx connect() 失败（111：连接被拒绝），客户端：192.168.128.1，服务... 2022-05-31