大佬教程收集整理的这篇文章主要介绍了Python Scrapy框架,大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。
在目录下进入命令行,输入以下安装Scrapy框架命令
pip install Scrapy
在所在文件夹的路径下进入命令行,输入以下命令
scrapy startproject 项目名称
import scrapy class DmozItem(scrapy.Item): # title = scrapy.Field() # link = scrapy.Field() # desc = scrapy.Field()
scrapy genspider 爬虫文件名称 爬虫的域名
进入项目的根目录,执行下列命令启动spider
scrapy crawl dmoz
这里给出XPath表达式的例子及对应的含义
/html/head/title: 选择HTML文档中 <head> 标签内的 <title> 元素 /html/head/title/text(): 选择上面提到的 <title> 元素的文字 //td: 选择所有的 <td> 元素 //div[@class="@H_302_62@mine"]: 选择所有具有 class="@H_302_62@mine" 属性的 div 元素
编辑爬虫脚本
import scrapy class DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/ProgrAMMing/Languages/Python/Books/", "http://www.dmoz.org/Computers/ProgrAMMing/Languages/Python/resources/" ] def parse(self, responsE): for sel in response.xpath('//ul/li'): title = sel.xpath('a/text()').extract() link = sel.xpath('a/@href').extract() desc = sel.xpath('text()').extract() print title, link, desc
scrapy保存信息的最简单的方法主要有四种,-o 输出指定格式的文件,命令如下:
scrapy crawl 爬虫名称 -o 生成的数据文件名称
scrapy crawl 爬虫名称 -o 生成的数据文件名称
csv 逗号表达式,可用excel打开
scrapy crawl 爬虫名称 -o 生成的数据文件名称
xml格式
scrapy crawl 爬虫名称 -o 生成的数据文件名称
以上是大佬教程为你收集整理的Python Scrapy框架全部内容,希望文章能够帮你解决Python Scrapy框架所遇到的程序开发问题。
如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。