作业①

要求：指定一个网站，爬取这个网站中的所有的所有图片，例如中国气象网（http://www.weather.com.cn）。分别使用单线程和多线程的方式爬取。(限定爬取图片数量为学号后3位)
输出信息:
将下载的Url信息在控制台输出，并将下载的图片存储在images子文件夹中，并给出截图。

解题步骤

单线程

STEP1 发出请求（通用模板）

def getHTML(url):
    try:
        header = {"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 6.0 x64; en-US; rv:1.9prE) Gecko/2008072421 Minefield/3.0.2pre"}
        resp = requests.get(url, headers=header)
        resp.raise_for_status()  # 200
        resp.encoding = resp.apparent_encoding
        return resp.text
    except Exception as err:
        print(err)

STEP2 因要更换页面，所以要获取不同页面的url，将其存入列表，用于爬取

def getURLs(html):
    Html =BeautifulSoup(html,'lxml')
    html_urls = Html.SELEct('li > a')
    url_list = []
    for url in html_urls:
        url = url['href']
        url_list.append(url)
    #print(url_list)
    return url_list

STEP3 利用正则爬取并下载图片

def getImages(url_list):
    Image_all = 1
    for urls in url_list:
        req = getHTML(urls)
        req = req.replace("n","")
        imagelist = re.findall(r'<img.*?src="(.*?)"', req, re.S | re.M)
        while "" in imagelist:
            imagelist.remove("")
        for img_url in imagelist:
            #print(img_url)
            if (img_url[0] == 'h'):
            #print(img_url[0])
                if (Image_all <= 129):
                    print("第"+str(Image_all)+"张爬取成功")
                    file = "D:/wea_img/" + "第"+ str(Image_all) + "张" + ".jpg"
                    urllib.request.urlretrieve(img_url, filename=filE)
                    Image_all += 1
                else:
                    break
            else:
                conTinue

STEP4 加一个时间函数计算时间，和接下来的多线程进行比较

start = time.time()
main()
end = time.time()
print(end-start)

运行结果@H_197_52@

代码地址：https://gitee.com/zhubeier/zhebeier/blob/master/第三次大作业/第一题单线程

多线程

引入threading

print("第"+str(Image_all)+"张爬取成功") file = "D:/weath/" + "第"+ str(Image_all) + "张" + ".jpg" urllib.request.urlretrieve(img_url, filename=filE) r = threading.Thread(target=download, args=(img_url, filE)) r.setDaemon(false) r.start() Image_all += 1

结果截图：
下载于文件夹图片截图：
代码地址：https://gitee.com/zhubeier/zhebeier/blob/master/第三次大作业/第一题多线程

实验心得 1.将单线程和多线程进行对比，发现多线程下载图片明显快于单线程。 2.更换页面让我更熟悉了找不具有规律的url的方法

作业二

要求：使用scrapy框架复现作业①。

输出信息：

同作业① 解题步骤 STEP1 创建好scrapy爬虫后，编写items文件

import scrapy class WeatherItem(scrapy.Item): urls_list = scrapy.Field()

STEP2 修改setTing文件中参数 ROBOTSTXT_OBEY = false

DEFAULT_requEST_HEADERS = { "User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 6.0 x64; en-US; rv:1.9prE) Gecko/2008072421 Minefield/3.0.2pre" }

ITEM_PIPELInes = { 'weather.pipelines.WeatherPipeline': 300, }

STEP3 编写爬虫文件spider parse模块，爬取页面

def parse(self, responsE): try: links = response.xpath('//a//@href').extract() yield scrapy.request(self.start_urls, callBACk=self.parse_for_pagE) for link in links: if link != 'javascript:void(0)':# 去除这样的链接 yield scrapy.request(link,callBACk=self.parse_for_pagE) except Exception as err: print(err)

STEP4 编写pipeline文件，用于存储下载爬取的文件

num = 1 class WeatherPipeline: def process_item(self, item, spider): global num if not os.path.exists('./images_scrapy/'): os.mkdir('./images_from_scrapy/') for url in item["urls_list"]: if num <= 129: print(url) image_name = './images_scrapy/'+'第'+str(num)+'张图片.jpg' print("成功使用scrapy下载第" + str(num) + "张图片") urllib.request.urlretrieve(url,image_Name) num += 1

STEP5 编写一个run.py文件用于启动爬虫

from scrapy import cmdline cmdline.execute("scrapy crawl Weather -s LOG_ENABLED=false".split())

运行结果：

实验心得熟悉了编写scrapy基本步骤，即items->setTings->爬虫文件->pipeline文件熟悉处理掉一些特殊的url链接代码地址：https://gitee.com/zhubeier/zhebeier/blob/master/第三次大作业/第二题

作业三

要求：爬取豆瓣电影数据使用scrapy和xpath，并将内容存储到数据库，同时将图片存储在

imgs路径下。

候选网站： https://movie.douban.com/top250

输出信息：
@H_952_197@

序号电影名称导演演员简介电影评分电影封面

1 肖申克的救赎弗兰克·德拉邦特蒂姆·罗宾斯希望让人自由 9.7 ./imgs/xsk.jpg

2....

解题步骤： STEP1 编写items文件，共计六个属性

class MovieItem(scrapy.Item): name = scrapy.Field() # 电影名 director = scrapy.Field() # 导演 actor = scrapy.Field() # 主演 statement = scrapy.Field() # 简介 rank = scrapy.Field() # 评分 image_urls = scrapy.Field() # 封面

STEP2 修改setTings文件，同作业二 STEP3 编写爬虫文件，利用Xpath提取所需信息

item["director"] = directors # 导演 item["actor"] = actors # 演员 item["statement"] = response.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/p[2]/span/text()').extract() item["rank"] = response.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/div/span[2]/text()').extract() item["image_urls"] = response.xpath('//*[@id="content"]/div/d

STEP4 编写PipeLines文件，将爬取下来的数据存入数据库

def openDB(self): self.con = sqlite3.connect("m.db") self.cursor = self.con.cursor() try: self.cursor.execute("create table movies(rank varchar(10),name VARCHAR(10),director varchar(10),actor varchar(10),state varchar(20),score varchar(10),surface varchar(50))") except: self.cursor.execute("delete from movies") def closeDB(self): self.con.commit() self.con.close()

运行结果：终端：
数据库：
封面文件下载查看：

作业心得更加熟悉了xpath提取信息以及感受到了scrapy的方便性代码地址：https://gitee.com/zhubeier/zhebeier/blob/master/第三次大作业/第三题

大佬总结

以上是大佬教程为你收集整理的数据采集第三次作业全部内容，希望文章能够帮你解决数据采集第三次作业所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错，欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

序号	电影名称	导演	演员	简介	电影评分	电影封面
1	肖申克的救赎	弗兰克·德拉邦特	蒂姆·罗宾斯	希望让人自由	9.7	./imgs/xsk.jpg
2....

标签：javascript list load master php scrapy sql while 参数数据库电影程序员

上一篇: 4 — jsr303检验下一篇:Day03：Hello World

猜你在找的程序笔记相关文章

You can't specify target table 'xxx' for update in FROM clause的解决 2022-07-21
【UNIAPP】上传视频，进度条的前台与后端 2022-07-21
十款代码表白特效，一个比一个浪漫！ 2022-07-04
作业3 2022-07-06
linux系统下部署项目访问报404错误的解决方法 2022-05-30
C++带有指针成员的类处理方式详解 2022-06-07
Linux——（1）基本命令 2022-07-21
JavaScript之正则表达式学习笔记 2019-11-07
Redux源码学习笔记 2019-11-07
Webpack学习笔记 2019-11-07

其他相关热搜词更多

php Java Python 程序员 load 中如何 string 使用参数 jquery 开发安装 list linux ios android 工具 javascript cap

最新程序笔记教程

Linux——（1）基本命令
【UNIAPP】上传视频，进度条的前台与后端
You can't specify target table 'xxx' for update in FROM clause的解决
jmeter压测，将jmeter返回数据，保存到表格
经典区间dp 【方块消除】
java-day02
【异常】 'ascii' codec can't decode byte 0xe8 in position 2: ordi...
Django后台admin常用设置
docker安装nacos单机版（无数据库）
Intel® RealSense™ LiDAR camera L515使用体验

热门程序笔记教程

media媒体查询，移动端适配尺寸大全
spring boot 跨域
Unity 3D物体跟随鼠标移动
ML strategy
golang 本地语言文档查看
获取页面所有元素盒模型并画到一个canvas上，getBoundingClientRect()获取一个元素在...
Sass学习笔记
mysql数据库设置创建时间和更新时间
《编写可维护的javascript》读书笔记（上）
《JavaScript高级教程》学习笔记一、变量和数据类型