大佬教程收集整理的这篇文章主要介绍了scrapy的Pipeline类不可使用yield,大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。
业务需求在scarpy的pipeline中处理过数据后再生成新的request。但如果直接再Pipeline类的process_item方法中yield request,会导致爬虫执行直接跳过该Pipeline,连个报错都看不到。
排查发现是yield使该函数的调用的返回值成为生成器,而不是相关返回值。
之所以我会先入为主地认为可以在Pipeline中直接yield出新request,是因为之前使用过官方自带的MediaPipeline,改写其get_media_requests的方法,并可最终yield出新request。
则仿照MediaPipeline的process_item完成业务逻辑即可。
@H_716_2@mediaPipeline的process_item的主要逻辑如下 def process_item(self, item, spider):
info = self.spiderinfo
requests = arg_to_iter(self.get_media_requests(item, info))
dlist = [self._process_request(r, info) for r in requests]
dfd = DeferredList(dlist, consumeErrors=1)
return dfd.addCallBACk(self.item_completed, item, info)
可看出是调用了twisted的DeferredList来分发请求。
该方法参考scrapy在pipeline中重新生成request
显式调用crawler.ENGIne.crawl(),将新的request发送至执行引擎。
class MyPipeline(object):
def __init__(self, crawler):
self.crawler = crawler
@classmethod
def from_crawler(cls, crawler):
return cls(crawler)
def process_item(self, item, spider):
...
self.crawler.ENGIne.crawl(
request(
url='someurl',
callBACk=self.custom_callBACk,
),
spider,
)
# YES, you can define a method callBACk inside the same pipeline
def custom_callBACk(self, responsE):
...
yield item
以上是大佬教程为你收集整理的scrapy的Pipeline类不可使用yield全部内容,希望文章能够帮你解决scrapy的Pipeline类不可使用yield所遇到的程序开发问题。
如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。