程序笔记   发布时间:2022-07-05  发布网站:大佬教程  code.js-code.com
大佬教程收集整理的这篇文章主要介绍了爬虫知识超详细讲解(零基础入门,老年人都看的懂)大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。

1.爬虫是什么?

爬虫知识超详细讲解(零基础入门,老年人都看的懂)

 

网络爬虫是一种按照一定的规则、自动的抓取万维网信息的脚本或者程序

简单来说:爬虫是用事先写好的程序去抓取网络上的数据࿰c;这样的程序叫爬虫

2.爬虫的分类

按照使用场景来分࿰c;可以分为两类:通用爬虫 和 聚焦爬虫

通用爬虫:搜索引擎爬虫(百度)

聚焦爬虫:获取想要的数据

3.爬虫就是在模仿人类的操作

4.爬虫的知识体系和相关工具(必须掌握)

 1.概念
        利用http协议࿰c;从网站采集、提取数据的过程
    2.知识结构及路线图
        1)web前端
            (1)HTML
            (2)CSS  层级样式表
            (3)JS
        2)http超文本传输协议
        3)Python语言
        4)http编程
            (1)Python标准库:urllib
            (2)第三方库:requests(需要安装、下载)
        5)数据采集
            (1)文本类型
            (2)图片
            (3)媒体文件(e.g. :音乐、视频)
        6)数据提取
            (1)XPath
            (2)正则表达式
            (3)Beautiful Soup
        7)数据存储
            (1)文本文档
            (2)MySQL数据库
            (3)Excel
            (4)MongoBD数据库
            (5)redis数据库
        8)反爬虫技术应用
            (1)图片验证码
            (2)滑块验证码
            (3)IP代理池
            (4)封装请求头
            (5)动态内容处理
                1>Ajax
                2>SELEnium
            (6)JS加密
            (7)Cookie加密
            (8)CSS加密
            (9)Base64加密
        9)爬虫框架
            (1)Scrapy框架
                1>scrapy-redis分布式爬虫
            (2)pyspider框架
    3.工具
        1)环境
            (1)windows
            (2)Linux系统
        2)开发
            (1)Python
                1>pycharm
            (2)数据库
                1>MySQL
                2>MongolianDB
                3>redis
            (3)浏览器
                1>谷歌浏览器
                2>火狐浏览器

爬虫知识超详细讲解(零基础入门,老年人都看的懂)

5.http请求

客户端--发送请求(request)-->服务器
客户端<--返回响应(response)--服务器

请求方式:get请求/post请求

get请求:会将请求的参数放到地址栏(URL)/网址后面࿰c;不安全

post请求:不会将请求的参数放到网址后面࿰c;相对安全

爬虫知识超详细讲解(零基础入门,老年人都看的懂)

 

 

大佬总结

以上是大佬教程为你收集整理的爬虫知识超详细讲解(零基础入门,老年人都看的懂)全部内容,希望文章能够帮你解决爬虫知识超详细讲解(零基础入门,老年人都看的懂)所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。