使用chrome无头浏览器做爬虫 - 有什么拿什么

puppeteer

安装

registry=https://registry.npm.taobao.org
chromedriver_cdnurl=http://npm.taobao.org/mirrors/chromedriver
phantomjs_cdnurl=https://npm.taobao.org/dist/phantomjs
electron_mirror=https://npm.taobao.org/mirrors/electron/
sass_binary_site=https://npm.taobao.org/mirrors/node-sass/
puppeteer_download_host=https://cdn.npm.taobao.org/dist

官网的demo

const puppeteer = require('puppeteer');
(async () => {
  // 创建一个浏览器实例 Browser 对象
  const browser = await puppeteer.launch();
  // 通过浏览器实例 Browser 对象创建页面 Page 对象
  const page = await browser.newPage();
  // 通过url参数打开指定的页面
  await page.goto('https://example.com');
  // 对页面进行截图
  await page.screenshot({path: 'example.png'});
  // 关闭浏览器
  await browser.close();
})();

先来个最最基本的抓取

实战_抓取2345小说站任意书籍的章节列表

puppeteer的简单使用_爬取页面信息

上干货，都在注释里了

puppeteer的简单使用_爬取页面信息

抓取的结果

puppeteer的简单使用_爬取页面信息

完整代码

const puppeteer = require('puppeteer');
(async ()=>{
    try{
        // 创建一个浏览器实例 Browser 对象
        let browser = await puppeteer.launch({
            // 是否不显示浏览器， 为true则不显示
            'headless': false,});
        // 通过浏览器实例 Browser 对象创建页面 Page 对象
        let page = await browser.newPage();
        // 设置浏览器信息
        const UA = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML,like Gecko) Ubuntu Chromium/63.0.3239.84 Chrome/63.0.3239.84 Safari/537.36";
        await Promise.all([
            page.setUserAgent(UA),// 允许运行js
            page.setJavaScriptEnabled(true),// 设置页面视口的大小
            page.setViewport({width: 1100,height: 1080}),]);
        // 地址
        let chapter_list_url = `http://book.km.com/chapterlist/396353.html`
        // 打开章节列表
        await page.goto(chapter_list_url);
        // 使用css选择器的方式
        let content= await page.$eval('#xtopjsinfo > div.wrapper > div.container > div.catalog > div.catalog_bd',el => el.innerText);
        console.log(content);
    }catch(err){
        console.log(err)
    }
})()

大佬总结

以上是大佬教程为你收集整理的puppeteer的简单使用_爬取页面信息全部内容，希望文章能够帮你解决puppeteer的简单使用_爬取页面信息所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错，欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：puppeteer 使用信息取爬简单页面

上一篇: node.js中cookie数据丢失导致ses... 下一篇:NPM酷库：bluebird Promise工具库

猜你在找的Node.js相关文章

node.js – ‘现在无法切换到旧模式’Elasticdump中的错误 2022-04-24
node 使用 async 控制并发的方法 2019-10-11
node+koa2+mysql+bootstrap搭建一个前端论坛 2019-10-11
Node.js的Koa实现JWT用户认证方法 2019-10-11
node实现的爬虫功能示例 2019-10-11
Nodejs 和 Electron ubuntu下快速安装过程 2019-10-11
Node.Js中实现端口重用原理详解 2019-10-11
nodejs 日志模块winston的使用方法 2019-10-11
详解redis在nodejs中的应用 2019-10-11
Node.js文件编码格式的转换的方法 2019-10-11