scrapy的Pipeline类不可使用yield

业务需求在scarpy的pipeline中处理过数据后再生成新的request。但如果直接再Pipeline类的process_item方法中yield request，会导致爬虫执行直接跳过该Pipeline，连个报错都看不到。

排查发现是yield使该函数的调用的返回值成为生成器，而不是相关返回值。

如何在Pipeline中生成新请求

1.参照MediaPipeline。

之所以我会先入为主地认为可以在Pipeline中直接yield出新request，是因为之前使用过官方自带的MediaPipeline，改写其get_media_requests的方法，并可最终yield出新request。

则仿照MediaPipeline的process_item完成业务逻辑即可。

@H_716_2@mediaPipeline的process_item的主要逻辑如下

    def process_item(self, item, spider):
        info = self.spiderinfo
        requests = arg_to_iter(self.get_media_requests(item, info))
        dlist = [self._process_request(r, info) for r in requests]
        dfd = DeferredList(dlist, consumeErrors=1)
        return dfd.addCallBACk(self.item_completed, item, info)

可看出是调用了twisted的DeferredList来分发请求。

2.显式调用crawler.ENGIne.crawl()

该方法参考scrapy在pipeline中重新生成request

显式调用crawler.ENGIne.crawl()，将新的request发送至执行引擎。

class MyPipeline(object):

    def __init__(self, crawler):
        self.crawler = crawler

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler)

    def process_item(self, item, spider):
        ...
        self.crawler.ENGIne.crawl(
                    request(
                        url='someurl',
                        callBACk=self.custom_callBACk,
                    ),
                    spider,
                )

    # YES, you can define a method callBACk inside the same pipeline
    def custom_callBACk(self, responsE):
        ...
        yield item

大佬总结

以上是大佬教程为你收集整理的scrapy的Pipeline类不可使用yield全部内容，希望文章能够帮你解决scrapy的Pipeline类不可使用yield所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错，欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：list php scrapy 程序员

上一篇: Nginx-防盗链下一篇:剑指 Offer II 027. 回文链表

猜你在找的编程语言相关文章

IntelliJ IDEA2022.1.1永久破解教程永久激活码永久有效 2022-06-24
MySQL高级学习笔记 2022-06-22
圆环进度条两种实现方式 2022-06-22
今天公司来了个拿 30K 出来的测试，算是见识到了基础的天花板 2022-06-22
测试部门来了个00后卷王之王，老油条感叹真干不过，但是... 2022-06-22
九、忘记密码功能的实现 2022-06-22
基于 SpringBoot + MyBatis 的博客系统 2022-06-22
基于QT的超市信息管理系统 2022-06-22
Java实现贪吃蛇大作战小游戏（完整版） 2022-06-22
HCIP第三天学习笔记 2022-06-27