分类导航

程序问答发布时间：2022-06-02 发布网站：大佬教程 code.js-code.com

大佬教程收集整理的这篇文章主要介绍了Scrapy Images Downloading，大佬教程大佬觉得挺不错的，现在分享给大家，也给大家做个参考。

如何解决Scrapy Images Downloading？

开发过程中遇到Scrapy Images Downloading的问题如何解决？下面主要结合日常开发的经验，给出你关于Scrapy Images Downloading的解决方法建议，希望对你解决Scrapy Images Downloading有所启发或帮助；

我的工作最终结果是：

spIDer.py：

import scrapy
import re
import urlparse
from scrapy.spIDers import CrawlSpIDer, Rule
from scrapy.linkextractors import linkExtractor
from scrapy.loader.processors import Join, MapCompose, TakeFirst
from scrapy.pipelines.images import ImagesPipeline
from production.items import ProductionItem
from production.items import ImageItem

class productionSpIDer(scrapy.SpIDer):
    name = "production"
    allowed_domains = ["url"]
    start_urls = [
        "starTingurl.com"
    ]

def parse(self, responsE):
    for sel in response.xpath('//HTML/body'):
        item = ProductionItem()
        img_url = sel.xpath('//a[@IDd="followclaslink"]/@href').extract()[0]
        yIEld scrapy.request(urlparse.urljoin(response.url, img_url),callBACk=self.parseImages,  Meta={'item': item})

def parseImages(self, responsE):
    for elem in response.xpath("//img"):
        img_url = elem.xpath("@src").extract_first()
        yIEld ImageItem(image_urls=[img_url])

SetTings.py

BOt_name = 'production'

SPIDER_MODulES = ['production.spIDers']
NEWSPIDER_MODulE = 'production.spIDers'
DEFAulT_ITEM_CLASS = 'production.items'
ROBOTSTXT_OBEY = True
IMAGES_STORE = '/Users/home/images'

DOWNLOAD_DELAY = 2

ITEM_PIPElines = {'scrapy.pipelines.images.ImagesPipeline': 1}
# disable cookies (enabled by default)
items.py

# -*- Coding: utf-8 -*-
import scrapy

class ProductionItem(scrapy.Item):
    img_url = scrapy.FIEld()
# ScraPingList ResIDential & YIEld Estate for SALE
class ListResIDentialitem(scrapy.Item):
    image_urls = scrapy.FIEld()
    images = scrapy.FIEld()

class ImageItem(scrapy.Item):
    image_urls = scrapy.FIEld()
    images = scrapy.FIEld()

pipelines.py

import scrapy
from scrapy.pipelines.images import ImagesPipeline
from scrapy.exceptions import DropItem

class MyImagesPipeline(ImagesPipelinE):

    def get_media_requests(self, item, info):
        for image_url in item['image_urls']:
            yIEld scrapy.request(image_url)

    def item_completed(self, results, item, info):
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem("Item contains no images")
        item['image_paths'] = image_paths
        return item

解决方法

我的Spider运行时没有显示任何错误，但是图像未存储在文件夹中，这是我的抓取文件：

Spider.py：

import scrapy
import re
import os
import urlparse
from scrapy.spiders import CrawlSpider,Rule
from scrapy.linkextractors import LinkExtractor
from scrapy.loader.processors import Join,MapCompose,TakeFirst
from scrapy.pipelines.images import ImagesPipeline
from production.items import ProductionItem,ListResidentialItem

class productionSpider(scrapy.Spider):
    name = "production"
    allowed_domains = ["someurl.com"]
    start_urls = [
        "someurl.com"
]

def parse(self,responsE):
    for sel in response.xpath('//html/body'):
        item = ProductionItem()
        img_url = sel.xpath('//a[@data-tealium-id="detail_nav_showphotos"]/@href').extract()[0]
        yield scrapy.request(urlparse.urljoin(response.url,img_url),callBACk=self.parseBasicLisTingInfo,meta={'item': item})

def parseBasicLisTingInfo(item,responsE):
    item = response.request.meta['item']
    item = ListResidentialItem()
    try:
        image_urls = map(unicode.Strip,response.xpath('//a[@itemprop="contentUrl"]/@data-href').extract())
        item['image_urls'] = [ x for x in image_urls]
    except IndexError:
        item['image_urls'] = ''

    return item

setTings.py：

from scrapy.setTings.default_setTings import ITEM_PIPELInes
from scrapy.pipelines.images import ImagesPipeline

BOt_name = 'production'

SPIDER_MODULES = ['production.spiders']
NEWSPIDER_MODULE = 'production.spiders'
DEFAULT_ITEM_CLASS = 'production.items'

ROBOTSTXT_OBEY = True
DEPTH_PRIORITY = 1
IMAGE_STORE = '/images'

CONCURRENT_requESTS = 250

DOWNLOAD_DELAY = 2

ITEM_PIPELInes = {
    'scrapy.contrib.pipeline.images.ImagesPipeline': 300,}

items.py

# -*- coding: utf-8 -*-
import scrapy

class ProductionItem(scrapy.Item):
    img_url = scrapy.Field()

# ScrapingList Residential & Yield Estate for SALE
class ListResidentialItem(scrapy.Item):
    image_urls = scrapy.Field()
    images = scrapy.Field()

    pass

我的管道文件为空，我不确定应该添加到pipeline.py文件中。

大佬总结

以上是大佬教程为你收集整理的Scrapy Images Downloading全部内容，希望文章能够帮你解决Scrapy Images Downloading所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错，欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：Downloading

上一篇: 编译进入内核的驱动程序的init函... 下一篇:递归查找数组中的元素

猜你在找的程序问答相关文章

在烧瓶中重定向时发出POST请求 2022-06-02
从 CreateWindow() 返回的 HWND 的格式值是多少？ 2022-05-31
使用nodejs打印json对象内容 2022-05-31
useEffect 无限循环仅在测试时发生，否则不会发生 - 尽管使用 useReducer 2022-05-31
从雅虎财经检索 ESG 分数 2022-05-31
Gulp：获取“必须指定任务功能”错误，但我只有 1 个任务 2022-05-31
JavaScript 将平面数组转换为嵌套/分组和排序数组 2022-05-31
405 Method Not Allowed 当提交表单到 Flask 时，即使路由有 ['GET', 'PO... 2022-05-31
Mongodb 错误码和对应的 http 状态码 2022-05-31
连接到上游时 Nginx connect() 失败（111：连接被拒绝），客户端：192.168.128.1，服务... 2022-05-31