Go小说爬虫实战

源码

https://github.com/huangzhenshi/goNovelSpider/tree/master

功能截图

进入主页面,查看已经下载好的章节


image

阅读章节


image

下载和更新最新的章节


image

功能描述

  1. 通过Goquery爬虫爬取https://www.booktxt.net/2_2219/ 这个网址的《圣墟》这篇连载的小说
  2. 多线程(100个Goruntie)并发下载相应的章节
  3. 把Book和Chapter分开存储在本地,实现离线、无广告观看
  4. 支持/download的功能,手动同步下载该小说最新更新的章节
  5. 支持断点下载(对篇章的URL做了校验,如果已经存在的话,不会重新下载)
  6. 对异常做了日志处理(经常会有超时的下载),下载失败会重试一次,仍然失败会记录在日志里面(如果重新下载成功的话,这个日志也会删除掉,日志中仅保留未下载成功的chapter)

框架

  • Beego框架(路由、配置文件、ORM、日志)
  • Goquery来爬取相应的内容
  • Goruntie实现并发爬取(开了100个线程并发的去下载)

支持的功能

  • 通过 localhost:8090/ 进入主页面,书名,已经成功下载的章节,点击已经下载的章节,会跳转到对应的内容页
  • 通过 localhost:8090/read?id=5366,也可以直接查看相关的章节
  • 支持 localhost:8090/download 重新下载未下载成功的章节

并发控制

  1. 通过指定大小为100的channel来实现并发控制:
  2. 每次开启一个线程的时候,往channel里面put一个空的对象,如果当前并发数已经达到100了,则主线程阻塞
  3. 每次执行完一个下载任务的时候,pull出这个空的对象
  4. 最后往channel里面连续put 100个空对象,从而确保所有的下载任务都已经结束了,避免下载未结束主线程就结束了,阻塞主线程等待下载结束
    //开启多线程 爬取各章节的小说内容
    channel := make(chan struct{}, 100)
    for _, chapter := range book.Chapters{
        channel <- struct{}{}
        go SpiderChapter(b.Id, chapter, channel)
    }

    for i := 0; i < 100; i++{
        channel <- struct{}{}
    }
    close(channel)

//如果失败下载,会重试一次
func SpiderChapter(bookid int, chapter *models.Chapter, c chan struct{}){
    defer func(){<- c}()
    err:= downloadChapter(bookid,chapter,false)
    if err!=nil {
        downloadChapter(bookid,chapter,true)
    }
}

解决下载失败的问题

因为网络问题无法保证每次下载都成功,而且经常因为超时而导致部分章节下载失败,所以

  1. 引入重试,每次下载失败会重试一下
  2. 重试仍然失败,则会记录在undownload表里面
  3. 重新下载的时候,会跳过已经下载过了的章节并且重新下载未下载的章节,下载成功后会删除掉在undownload表里的记录
    chapterUrl:= chapter.Url
    oldChapter,err := models.GetChapterByUrl(chapterUrl)
    //检查该chapter是否已经下载过了,避免重复下载
    if  oldChapter != nil{
        fmt.Println("this charpter exists before:" ,chapter.Title)
        return nil
    }else{
        fmt.Println("this charpter require added:" ,chapter.Title)
    }
    
    ...

    //这里没有添加事务,如果添加成功之后会check是否有undownload记录
    models.ChapterAdd(&ch)
    models.CheckAndDelete(chapter.Title)


func CheckAndDelete(title string){
    var undownload Undownload
    O.QueryTable("undownload").Filter("chapter_title", title).One(&undownload)
    if  undownload.Id >0{
        O.QueryTable("undownload").Filter("Id", undownload.Id).Delete()
    }
}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,492评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,048评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,927评论 0 358
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,293评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,309评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,024评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,638评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,546评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,073评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,188评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,321评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,998评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,678评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,186评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,303评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,663评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,330评论 2 358

推荐阅读更多精彩内容