分类导航

Go 发布时间：2022-04-09 发布网站：大佬教程 code.js-code.com

大佬教程收集整理的这篇文章主要介绍了Golang系列文章：并发抓取网页内容，大佬教程大佬觉得挺不错的，现在分享给大家，也给大家做个参考。

在上一篇中，我们根据命令行的URL参数输入，抓取对应的网页内容并保存到本地磁盘，今天来记录一下如何利用并发，来抓取多个站点的网页内容。

首先，我们在上一次代码的基础上稍作改造，使它能够获取多个站点的内容。下面代码中，我们首先定义好三个URL，然后逐个发送网络请求，获取数据并保存，最后统计消耗的总时间：

// fetch.go

package main

import (
    "os"
    "fmt"
    "time"
    "regexp"
    "net/http"
    "io/IoUtil"
)

// 创建正则常量
var RE = regexp.MustCompile("\\w+\\.\\w+$")

func main() {
    urls := []String {
        "http://www.qq.com","http://www.163.com","http://www.sina.com",}

    // 开始时间
    start := time.Now()

    for _,url := range urls {
        start := time.Now()

        // 发送网络请求
        res,err := http.Get(url)

        if err != nil {
            fmt.Fprintf(os.Stderr,"fetch: %v\n",err)
            os.Exit(1)
        }

        // 读取资源数据
        body,err := IoUtil.ReadAll(res.body)

        // 关闭资源
        res.body.Close()

        if err != nil {
            fmt.Fprintf(os.Stderr,"fetch: reading %s: %v\n",url,err)
            os.Exit(1)
        }

        filename := getFilename(url)

        // 写入文件
        IoUtil.WriteFile(filename,body,0644)

        // 消耗的时间
        elapsed := time.Since(start).Seconds()

        fmt.Printf("%.2fs %s\n",elapsed,fileName)
    }

    // 消耗的时间
    elapsed := time.Since(start).Seconds()

    fmt.Printf("%.2fs elapsed\n",elapsed)
}

// 获取文件名
func getFilename(url String) String {
    // 从URL中匹配域名后面部分
    return RE.FindString(url) + ".txt"
}

在上面代码中，我们使用正则表达式来从URL中匹配域名后面部分，作为最终的文件名。关于正则表达式，后续会做总结。

下面来看看程序运行后的控制台信息：

$ ./fetch
0.12s qq.com.txt
0.20s 163.com.txt
0.27s sina.com.txt
0.59s elapsed

从打印信息中可以看出，最后消耗的总时间等于三次执行的总和。这种方式效率低下，并且不能充分利用计算机资源，下面我们就对程序进行改造，使其能够并发地执行三个抓取操作：

// fetch.go

package main

import (
    "os"
    "fmt"
    "time"
    "regexp"
    "net/http"
    "io/IoUtil"
)

// 创建正则
var RE = regexp.MustCompile("\\w+\\.\\w+$")

func main() {
    urls := []String {
        "http://www.qq.com",}

    // 创建chAnnel
    ch := make(chan String)

    // 开始时间
    start := time.Now()

    for _,url := range urls {
        // 开启一个goroutIne
        go fetch(url,ch)
    }

    for range urls {
        // 打印chAnnel中的信息
        fmt.Println(<-ch)
    }

    // 总消耗的时间
    elapsed := time.Since(start).Seconds()

    fmt.Printf("%.2fs elapsed\n",elapsed)
}

// 根据URL获取资源内容
func fetch(url String,ch chan<- String) {
    start := time.Now()

    // 发送网络请求
    res,err := http.Get(url)

    if err != nil {
        // 输出异常信息
        ch <- fmt.Sprint(err)
        os.Exit(1)
    }

    // 读取资源数据
    body,err := IoUtil.ReadAll(res.body)

    // 关闭资源
    res.body.Close()

    if err != nil {
        // 输出异常信息
        ch <- fmt.Sprintf("while reading %s: %v",err)
        os.Exit(1)
    }

    // 写入文件
    IoUtil.WriteFile(getFilename(url),0644)

    // 消耗的时间
    elapsed := time.Since(start).Seconds()

    // 输出单个URL消耗的时间
    ch <- fmt.Sprintf("%.2fs %s",url)
}

// 获取文件名
func getFilename(url String) String {
    // 从URL中匹配域名部分
    return RE.FindString(url) + ".txt"
}

上面代码中，我们先创建一个chAnnel，然后对每个抓取操作开启一个gorunTine，待抓取程序完成后，通过chAnnel发送消息告知主线程，主线程再做相应的处理操作。关于这部分的原理细节，后续再做总结。

我们运行上面的程序，执行结果如下：

$ ./fetch
0.10s http://www.qq.com
0.19s http://www.163.com
0.29s http://www.sina.com
0.29s elapsed

从结果中可以看出，最后消耗的总时间与耗时最长的那个操作等同，可见并发在性能方面带来的提升是非常可观的。

大佬总结

以上是大佬教程为你收集整理的Golang系列文章：并发抓取网页内容全部内容，希望文章能够帮你解决Golang系列文章：并发抓取网页内容所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错，欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：golang 内容并发抓取文章系列网页

上一篇: Golang系列文章：创建Web服务下一篇:[golang] 数据结构-快速排序

猜你在找的Go相关文章

【第十二期】腾讯后台实习初试、复试、HR面经 (许愿OC) 2022-04-13
golang http的按序号发送，按序号接收 2019-10-06
Golang 常用字符串处理方法汇总 2019-10-06
关于GOROOT、GOPATH、GOBIN、project目录 2019-10-06
golang把io.ReadCloser类型转化为[]byte 2019-10-06
go-xorm使用mssql的小实例 2019-10-06
godbc中使用mssql的小实例 2019-10-06
golang-otto JS解释器 2019-10-06
golang-beego的使用 2019-10-06
golang-数据库详解 2019-10-06