半小时实现一个 go 爬虫

1、Quick Start

只需三步,你就可以部署一个爬取 gocn 网站的所有新闻的爬虫

第一步,你需要去 github 上生成一个自己的 token Settings ——> Developer settings ——> Personal access tokens ——> Generate new token

然后,配置自己的环境变量 export GITHUB_TOKEN=(第一步生成的 token),或者将代码中全局 Token 修改为自己 token

var Token = GetValueFromEnv("GITHUB_TOKEN")

第二步,需要在本地安装 redis,并且启动程序之前需要先启动本地 redis,端口使用默认端口 6379,因为程序默认使用 redis 进行去重。redis 的安装 可以参考 redis安装

第三步,git clone 代码仓库,并且在后台进程中运行爬虫,每 6 个小时爬取当天新闻并进行 github 推送。

git clone https://github.com/lubanproj/crawl.git
cd crawl
go build -v 
./crawl &

2、特性

  • 支持每天定时爬取
  • 支持分页爬取
  • 支持数据去重
  • 支持 github 推送

3、展示效果

在这里插入图片描述

详情效果可见:go_read

4、源码分析

(1)爬取网站

// Crawl all gocn topics
func Crawl(url string) {

    pattern := `/topics/\d+`

    collector := colly.NewCollector()
    collector.OnHTML("a[title]", func(e *colly.HTMLElement) {
        // regex match topic
        path := e.Attr("href")
        topic, ok := regexMatch(path, pattern)
        if ok {
            e.Request.Visit(fmt.Sprintf("https://gocn.vip%s",topic))
        }
    })

    redisAddr := ":6379"
    conn, err := redis.Dial("tcp",redisAddr)
    if err != nil {
        log.Fatalf("get redis conn error : %v", err)
    }
    defer conn.Close()

    collector.OnRequest(func(r *colly.Request) {
        topic, ok := regexMatch(r.URL.Path, pattern)
        if ok {
            r.Visit(fmt.Sprintf("https://gocn.vip%s",topic))
            // fmt.Println("content",r.URL)
        }

    })

    collector.OnResponse(func(r *colly.Response) {

        topic := strings.Replace(r.Request.URL.Path,"/topics/","", -1)
        isExist, err := existTopic(conn, topic)

        // the topic has had crawled
        if isExist == 1 || err != nil {
            return
        }

        title, content, ok := parseContent(string(r.Body))
        titleAndContent := fmt.Sprintf("<h3>%s</h3>%s<hr>", title, content)
        fmt.Println("titleAndContent : ", titleAndContent)

        date := getDate(title)
        if curDay := time.Now().Format("2006-01-02"); curDay != date {
            // just climb today's data
            return
        }

        if ok && content != "" && title != "" {
            pushToGithub(titleAndContent, Token)
        }

        saveDB(conn, topic, date)
    })

    collector.Visit(url)
}

(2)正则表达式解析内容

func parseContent(body string) (string, string, bool) {

    pattern := `<p>GoCN(.|\n|\t)*每日新闻(.*?)</p>`
    title, _ := regexMatch(body, pattern)
    if title == "" {
        pattern = `<h[0-9]>GoCN(.|\n|\t)*每日新闻(.|\n|\t)*</h[0-9]>?`
        title, _ = regexMatch(body, pattern)

        if title == "" {
            return "", "", false
        }
        pattern = `>(.|\n|\t)*每日新闻(.|\n|\t)*<`
        title, _ = regexMatch(title, pattern)
        title = strings.Replace(title, "<", "", 1)
        title = strings.Replace(title, ">", "", 1)
    }

    pattern = `<ol>(.|\n|\t)*</ol>`
    content, _ := regexMatch(body, pattern)

    return title, content, true
}

(3) 推送 github

func pushToGithub(data, token string) error {
    if data == "" {
        return errors.New("params error")
    }

    ctx := context.Background()
    ts := oauth2.StaticTokenSource(
        &oauth2.Token{AccessToken: token},
    )

    tc := oauth2.NewClient(ctx, ts)
    client := github.NewClient(tc)
    c := "feat: add gocn news, date : " + time.Now().Format("2006-01-02")
    sha := ""
    content := &github.RepositoryContentFileOptions{
        Message: &c,
        SHA:     &sha,
        Committer: &github.CommitAuthor{
            Name:  github.String("lubanproj"),
            Email: github.String("1811704358@qq.com"),
            Login: github.String("lubanproj"),
        },
        Author: &github.CommitAuthor{
            Name:  github.String("lubanproj"),
            Email: github.String("1811704358@qq.com"),
            Login: github.String("lubanproj"),
        },
        Branch: github.String("master"),
    }
    op := &github.RepositoryContentGetOptions{}

    repo, _, _, er := client.Repositories.GetContents(ctx, "lubanproj", "go_read", "README.md", op)
    if er != nil || repo == nil {
        fmt.Println("get github repositories error, date: ", time.Now())
        return er
    }

    content.SHA = repo.SHA
    decodeBytes, err := base64.StdEncoding.DecodeString(*repo.Content)
    if err != nil {
        fmt.Println("decode repo error, ",err)
        return err
    }


    oldContentList := strings.Split(string(decodeBytes), "<br>")
    if len(oldContentList) != 2 {
        fmt.Println("README.md format error")
    }

    content.Content = []byte(oldContentList[0] + "<br>" + data + oldContentList[1])

    _, _, err = client.Repositories.UpdateFile(ctx, "lubanproj", "go_read", "README.md", content)

    if err != nil {
        println(err)
        return err
    }

    return nil
}

具体代码可参考:crawl

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,383评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,522评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,852评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,621评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,741评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,929评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,076评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,803评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,265评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,582评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,716评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,395评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,039评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,027评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,488评论 2 361
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,612评论 2 350

推荐阅读更多精彩内容