分类导航

HTML5 发布时间：2022-04-27 发布网站：大佬教程 code.js-code.com

大佬教程收集整理的这篇文章主要介绍了pyspider爬取tripadvisor，大佬教程大佬觉得挺不错的，现在分享给大家，也给大家做个参考。

首先装pymongo,pyspider,具体安装方法不讲解，然后

命令行下执行

pyspider all

这句命令的意思是，运行 pyspider 并启动它的所有组件。

可以发现程序已经正常启动，并在 5000 这个端口运行。

下来在浏览器中输入 http://localhost:5000，可以看到 PySpider 的主界面，点击右下角的 Create，命名为 pyshiderlianxi，当然名称你可以随意取，继续点击 Create。

@H_801_27@

整个页面分为两栏，左边是爬取页面预览区域，右边是代码编写区域。下面对区块进行说明：

左侧绿色区域：这个请求对应的 JSON 变量，在 PySpider 中，其实每个请求都有与之对应的 JSON 变量，包括回调函数，方法名，请求链接，请求数据等等。

绿色区域右上角Run：点击右上角的 run 按钮，就会执行这个请求，可以在左边的白色区域出现请求的结果。

左侧 enable css SELEctor Helper: 抓取页面之后，点击此按钮，可以方便地获取页面中某个元素的 CSS 选择器。

左侧 web: 即抓取的页面的实时预览图。

左侧 html: 抓取页面的 HTML 代码。

左侧 follows: 如果当前抓取方法中又新建了爬取请求，那么接下来的请求就@R_772_11251@在 follows 里。

左侧 messages: 爬取过程中输出的一些信息。

右侧代码区域: 你可以在右侧区域书写代码，并点击右上角的 Save 按钮保存。

右侧 WebDAV Mode: 打开调试模式，左侧最大化，便于观察调试。

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2018-08-23 08:49:39
# Project: pyspiderlianxi

from pyspider.libs.base_handler import *
import pymongo


class Handler(BaseHandler):
    crawl_config = {
    }
    
    client = pymongo.MongoClient(host=‘localhost‘,port=27017)
    db = client[‘trip‘]


    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl(‘https://www.tripadvisor.cn/Attractions-g294211-Activities-c47-China.html‘,callBACk=self.index_page,validate_cert=falsE)
  
     #爬取索引页
    @config(age=10 * 24 * 60 * 60)
    def index_page(self,responsE):
        for each in response.doc(‘div.lisTing_info > div.lisTing_title > a‘).items():
            self.crawl(each.attr.href,callBACk=self.detail_page,validate_cert=falsE)
       
   
     爬取详情页#
    @config(priority=2)
    def detail_page(self,responsE):
        url = response.url,title = response.doc(‘title‘).text(),name = response.doc(‘#heading‘).text(),paiming = response.doc(‘span.header_rating > div > a > span‘).text(),phonenum = response.doc(‘div.blEntry.phone > span:nth-child(2)‘).text(),dizhi = response.doc(‘div.detail_section.address.xh-highlight‘).text(),youwanshijian = response.doc(‘#taplc_attraction_detail_lisTing_0 > div.section.hours > div‘).text() 
          
        return {
             "url":url,"title"@R_458_6964@,"name":name,"paiming":paiming,"@H_274_85@phonenum":phonenum,"dizhi":dizhi,"youwanshijian":youwanshijian
           
        }
    #结果存入数据库中
    def on_result(self,result):
        if result:
            self.save_to_mongo(result)
           
    def save_to_mongo(self,result):
        if self.db[‘chinaStrip‘].insert(result):
            print(‘save to mongo‘,result)

大佬总结

以上是大佬教程为你收集整理的pyspider爬取tripadvisor全部内容，希望文章能够帮你解决pyspider爬取tripadvisor所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错，欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：pyspider tripadvisor 取爬

上一篇: 在iPad中显示带自定义框架的模态... 下一篇:iphone – iOS 7中的slim系统字体...

猜你在找的HTML5相关文章

详解HTML5表单新增属性 2019-10-08
详解HTML5通讯录获取指定多个人的信息 2019-10-08
html5+css如何实现中间大两头小的轮播效果 2019-10-08
Html5 Canvas动画基础碰撞检测的实现 2019-10-08
使用HTML5捕捉音频与视频信息概述及实例 2019-10-08
详解HTML5中的<template>标签 2019-10-08
HTML5 Canvas实现玫瑰曲线和心形图案的代码实例 2019-10-08
HTML5应用之文件上传 2019-10-08
详解HTML5 LocalStorage 本地存储 2019-10-08
MPMoviePlayerController错误_itemFailedToPlayToEnd同时播放YouTube视频iOS 7 2022-04-27