爬取百度某贴吧的精品贴

思路

说实话,我一直都不喜欢贴吧,觉得鱼龙混杂。不过经过这次的抓取,我对它改观了不少,至少精品帖子还有一些值得一看的内容。

百度贴吧只是一些静态网页,我承认我是反复确认了很久才下这个结论的。静态网页的抓取很简单无非就是正则、css选择器、xpath选择器或bs4。

这里唯一一个注意点就是,在抓取请求索引页时返回的内容时,不知道为什么,描述帖子信息的HTML代码是被注释掉的,但实际上也确实出现在了网页里,我没追究其原理,这也是为什么我是用正则表达式抓取帖子ID的原因,bs4解析不出来。

我的代码爬取了复仇者联盟吧里所有的精品贴,URL是http://tieba.baidu.com/f?kw=复仇者联盟&ie=utf-8&tab=good&cid=0&pn=0,其中参数ie是编码,tab=good表示精品,album表示图片,video表示视频等等,cid不是必须的,pn是page number,一次加50。在页面下方,有一段文字可以用来获取精品贴的总数,这里是522个,因此pn的值就是0,50,100,...,400,450,500。然后依次解析每个页面中的每个帖子,分别获取每个贴子的ID。

贴子的URL是http://tieba.baidu.com/p/4567733972?see_lz=1&pn=2,其中4567733972是贴子的ID,see_lz是标识是否只看楼主,pn是页数,不过这次迭加值是1,同样在页面的下面有一段文字可以获取页面的总页数。另外,我也会抓取贴子的作者,作者的头像和帖子的名称,最后保存到4567733972.txt里,数字是贴子的ID。

还有几个小问题:

  • 有的帖子的楼层内容会包含编码为unicode的文字,写入文件时要先处理一下。
  • 有的帖子会被删除,但是它的请求的返回码仍然是200,只不过返回的是贴吧404需要额外判断一下。

题外话-性能

这个程序是单线程的,可以看的出来,它的效率很低,522个精品贴爬了一个多小时,准确的说,76分钟。

提升效率的方法无非就是多线程,异步,分布式,之后我会逐渐添加进来。当然优化代码也是不可缺少的一部分。

代码

有这个逻辑代码就很简单了,这里我用了三个函数,第一个用来获取索引页下精品贴的数量,第二个函数用来抓取所有精品贴的ID,第三个函数则是根据这个ID获取这个帖子所有的内容。其中,前两个使用正则过滤内容,第三个使用了BS4过滤。我只是熟练一下各种库的用法。

另外,关于贴吧里的图片,我这里只是把图片的路径都保存了下来,如果要进一步下载图片,主需要抓取文件里的http://(.*?).jpg并下载就行了。

不过代码虽然简单,差不多也用了我将近7个小时。

tieba.py

configure.py请参考拙作:爬取糗事百科的内容和图片并展示

import requests
import re
import json
import time
from random import choice
from bs4 import BeautifulSoup
import Configure

header = {'user-agent': choice(Configure.FakeUserAgents)}

cookies = {}
cookiestr = '''
            BAIDUID=42F6DD1CC8665CEF88C2A26C1F0F504C:FG=1; 
            BIDUPSID=42F6DD1CC8665CEF88C2A26C1F0F504C; 
            PSTM=1524011246; TIEBA_USERTYPE=18f315073eddae18a6dfa5f6; 
            bdshare_firstime=1524016473188; 
            Hm_lvt_287705c8d9e2073d13275b18dbd746dc=1524016474,1524173313,1524593010; 
            FP_UID=2143bdc5c13bdcf8b476c96453c42b93; 
            pgv_pvi=7109722112; 
            BDUSS=1lzbm12RGVHOTF5emNMOVRTVnY1VHlydlNUR0QtS29hZ0h0S0RhY1dhaFNhQTliQVFBQUFBJCQAAAAAAAAAAAEA
                AABo44AfWmlvbjEyMAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
                AAAAFLb51pS2-daY; 
            cflag=15%3A3; 
            TIEBAUID=08df9b3ba5f5e5335cf67ff4; 
            STOKEN=a97aaf8a8e0724638e351933aaeed3bd4edf2dad29bc8f83a88e94b4738958ee; 
            wise_device=0; 
            Hm_lvt_98b9d8c2fd6608d564bf2ac2ae642948=1525205956,1525334517,1525371306,1525372116; 
            528540520_FRSVideoUploadTip=1; 
            Hm_lpvt_98b9d8c2fd6608d564bf2ac2ae642948=1525372413
            '''

for cookie in cookiestr.split(';'):
    name,value=cookie.strip().split('=',1)  
    cookies[name]=value

# 获取精品帖子的页数
def getGoodCount():
    url = "http://tieba.baidu.com/f"
    payload = {
        'kw':'复仇者联盟',
        'ie':'utf-8',
        'tab':'good'
    }
    try:
        response = requests.get(url, headers=header, params=payload, cookies=cookies)
        content = None

        if response.status_code == requests.codes.ok:
            content = response.text
            
    except Exception as e:
            print (e)

    pattern_next = re.compile('共有精品数.*?(\d+).*?个', re.S)
    data = pattern_next.findall(content)

    return (int(data[0]))

# 获取每页中帖子的ID
def getOnePageList(pn):
    url = "http://tieba.baidu.com/f"
    payload = {
        'kw':'复仇者联盟',
        'ie':'utf-8',
        'tab':'good',
        'pn':pn
    }
    try:
        response = requests.get(url, headers=header, params=payload, cookies=cookies)
        content = None

        if response.status_code == requests.codes.ok:
            content = response.text
            
    except Exception as e:
            print (e)

    pattern = re.compile('/p/(\d+)', re.S)
    data = pattern.findall(content)

    return data

# 获取每个帖子的内容,只看楼主
def getDetail(tid):
    url = "http://tieba.baidu.com/p/{0:s}".format(tid)
    payload = {
        'see_lz':1
    }
    try:
        response = requests.get(url, headers=header, params=payload, cookies=cookies)
        content = None

        if response.status_code == requests.codes.ok:
            content = response.text
        else:
            return
            
    except Exception as e:
        print (e)

    soup = BeautifulSoup(content,'lxml')

    # 帖子不存在,但是请求的返回码是200
    print ("标题:" + soup.head.title.text)
    if soup.head.title.text == '贴吧404':
        print ("跳过。")
        return

    file = open("Download/{0:s}.txt".format(tid),'w',encoding = 'utf-8')
    
    file.write("Title: "+ soup.head.title.text + "\n")

    author = soup.find_all('div', class_='d_author')
    file.write("Author: " + author[0].img.get('username') + "\n")
    file.write("Avatar: " + author[0].img.get('src') + "\n")
    file.write("\n")

    # 获得页数
    pageCnt = soup.find('div', class_='pb_footer').find_all('span', class_='red')[1].text

    # 开始抓取所有的页数
    for i in range(1,int(pageCnt)+1):
        payload = {
            'see_lz':1,
            'pn':i
        }

        try:
            response = requests.get(url, headers=header, params=payload, cookies=cookies)
            content = None

            if response.status_code == requests.codes.ok:
                content = response.text
            
        except Exception as e:
            print (e)
            continue

        soup = BeautifulSoup(content,'lxml')
        details = soup.find_all('cc')

        for detail in details:
            file.write(detail.text.strip() + "\n")

            imgs = detail.find_all('img')
            if imgs:
                for img in imgs:
                    file.write(img.get('src') + "\n")

            file.write("\n")

        time.sleep(0.25)

    file.close()
    print ("创建 {0:s}.txt 成功。".format(tid))


if __name__ == '__main__':
    cnt = getGoodCount()

    tidlist = []
    for i in range(0, cnt,50):
        tidlist += getOnePageList(i)
        time.sleep(0.25)

    print ("抓取到{0:d}个帖子。".format(len(tidlist)))

    for tid in tidlist:
        getDetail(tid)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,544评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,430评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,764评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,193评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,216评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,182评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,063评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,917评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,329评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,543评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,722评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,425评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,019评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,671评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,825评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,729评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,614评论 2 353

推荐阅读更多精彩内容