go语言resty库并发爬取bing大图实战

前言

最近开始好好在看go语言,拖延很久终于把小伙伴给的《Go语言实战》书看完了,但是还没实际上手操作过,想着当年学python的时候也是从爬虫实战开始的,那就先写个go的并发爬虫来作为实战吧。

使用的爬虫库

我这里使用了restyhttp请求库,而非go语言内置的请求库,因为resty库封装更多,对参数设置和文件下载十分方便

使用的html解析

我习惯使用的xpath方式进行html解析,因此选择使用htmlquery库,如果你喜欢css解析方式也可以使用goquery

使用的并发控制

我这里使用的sync.WaitGroup进行的并发控制,也可以改造为channel的方式貌似更好?

爬取目标及思路

必应的每日一图很适合作为练手项目,涉及有分页、有html内容提取、有图片下载到本地,正好练手。本次爬虫目标是并发的方式抽取每页大图url地址,并且下载大图到本地。

  • 主页地址: https://bing.ioliu.cn/
  • 爬取思路解析
    本地爬取需要提取大图url地址和保存的文件名,通过后续分析,大图地址只需要将后缀改为?force=download即是直接下载的地址,因此后续需要处理一下抽取到的url。每个page页面的查询参数是?p=1结构。
    因此爬取思路很简单:请求每个page页面 -> 抽取该页面下所有大图下载url -> 请求每个下载url并将图片保存到本地
    image.png

代码部分

记录下代码的设计思路,由于是初学,有不足地方还属正常~
使用了waitGroup的方式控制并发同步,代码内对每一页的抽取及每个大图的下载都使用了goruntine并发的方式,但并没有对并发数量进行控制,容易被封ip~ 后续需要改进。
这里可以改造为使用channel通道进行并发控制貌似更好一些。

package main

import (
    "github.com/antchfx/htmlquery"
    "github.com/go-resty/resty/v2"
    "golang.org/x/net/html"
    "log"
    "strconv"
    "strings"
    "sync"
    "time"
)

// bing图片主页
const restyBaseUrl = "https://bing.ioliu.cn/"
// 下载目录
const restyDownloadPath = "/Users/my/go/src/goProjects/downloads"

func main() {
    // 使用waitGroup控制并发同步,需要在适宜的位置使用Add和Done方法
    var wg sync.WaitGroup
    // 爬取三页测试,多了要出事
    for page := 1; page <= 3; page++ {
        wg.Add(1)
        go getPageImage(page, &wg)
    }
    wg.Wait()
    log.Println("下载完成")
}

// 大图结构化信息:下载地址及保存文件名
type imageStruct struct{
    url string
    name string
}

// 大图结构绑定方法,下载到本地,使用resty包可以很简单的定义重试策略、文件下载目录及文件名,无需手动操作os,很棒
func (image imageStruct) download(waitGroup *sync.WaitGroup)  {
    defer waitGroup.Done()
    filename := image.name + ".jpg"
    client := resty.New()
    // set retry
    client.
        SetRetryCount(3).
        // Default is 100 milliseconds.
        SetRetryWaitTime(5 * time.Second).
        // Default is 2 seconds.
        SetRetryMaxWaitTime(20 * time.Second)
    // request and save file to path
    client.SetOutputDirectory(restyDownloadPath)
    _, err := client.R().
        SetHeader("Referer", "https://bing.ioliu.cn/").
        SetHeader("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36").
        SetOutput(filename).
        Get(image.url)
    if err != nil {
        log.Printf("下载图片失败:%s,err:%s", image.name, err)
        return
    }
    log.Printf("下载图片成功:%s", image.name)
}

func getPageImage(page int, waitGroup *sync.WaitGroup) {
    // 请求分页页面并解析出大图详情结构
    defer waitGroup.Done()
    
    // 使用resty包进行http请求,更方便的构造请求头参数和查询参数
    client := resty.New()
    resp, err := client.R().
        SetQueryParams(map[string]string{
            "p": strconv.Itoa(page),
        }).
        SetHeader("Referer", "https://bing.ioliu.cn/").
        SetHeader("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36").
        Get(restyBaseUrl)
    if err != nil {
        log.Fatal(err)
        return
    }
    // 使用htmlquery包进行html元素解析,使用xpath的方式抽取大图item信息
    doc, qErr := htmlquery.Parse(strings.NewReader(resp.String()))
    if qErr != nil {
        log.Fatal(qErr)
    }
    // xpath 匹配响应中所有图片元素,并逐个提取并发下载
    imageItems := htmlquery.Find(doc, "//div[@class='item']/div[@class='card progressive']")
    for _, item := range imageItems {
        filename, bigImageUrl := extractImageInfo(item)
        // 保存大图结构化信息
        img := imageStruct{
            url: bigImageUrl,
            name: filename,
        }
        log.Printf("开始下载:%s", img.name)
        // 并发下载图片,控制时间间隔
        waitGroup.Add(1)
        // 并发调用大图结构化方法,下载大图到本地并命名
        go img.download(waitGroup)
    }

}

// 从大图item元素中抽取下载地址及图片名
func extractImageInfo(item *html.Node) (string, string){
    //抽取图片信息
    extractImageUrlElem := htmlquery.FindOne(item, "./a")
    nameElem := htmlquery.FindOne(item, "./div[@class='description']/h3")
    name := htmlquery.InnerText(nameElem)
    extractImageUrl := htmlquery.SelectAttr(extractImageUrlElem, "href")

    filename := strings.Split(name, "(")[0]
    extractImageUrlRes := strings.Split(extractImageUrl, "?")[0]
    bigImageUrl := "https://bing.ioliu.cn/" + extractImageUrlRes + "?force=download"
    return filename, bigImageUrl
}

效果展示

我的该go文件名为crawl_bing.go
因此在当前目录下执行go run crawl_bing.go即可执行,执行效果如下:


image.png

我感觉代码里面有一些问题,因为实际文件目录很快就已经下载完成到本地了,但是日志却在缓慢打印,看起来就像下载耗时一样,后面再看看什么问题。。。

感受

真的学习新语言和框架要自己去实现去敲才行,只看是没有用的,加油。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容