python爬取糗事百科段子

最近在学习python爬虫,看到了崔大神的博客,由于他使用的python2.x,于是自己就想用python3实现一下,练练手。有哪些可以改进的地方,望指正。谢谢!

本篇目标

1.抓取糗事百科中24小时栏目的段子

2.过滤有图片的段子(毕竟在终端中显示图片不太现实)

3.实现显示段子的发布者、段子内容、好笑值和评论数

分析站点并抓取页面代码

1.页面的url是https://www.qiushibaike.com/hot/page/1/,其中数字1代表的是页码,通过站点分析,24小时栏目下的页面总共有13页,所以爬取是就直接在1-13页中,无需单独获取最大的页码数(其实主要是因为懒,能省一步是一步:happy:)

2.经测试该网站没有反爬虫措施,所以可以肆无忌惮的爬,连请求头都不用加,开不开心。

代码奉上:

import requests
from requests.exceptions import RequestException

def get_page(page):
    '''获取网页源代码'''

    try:
        url = "https://www.qiushibaike.com/hot/page/" + str(page)
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        else:
            return None
    except RequestException:
        return None
 
def main(page):
  '''主函数'''
  
    html = get_page(page)
    if html:
        print(html)
    else:
        print('请求网页失败!')

if __name__ == '__main__':
  '''程序入口'''
  
    map(main, [i for i in range(1,14)])

抓取某页中所以的段子

获取页面的HTML代码后,就需要分析该页面具体每个段子的结构了,先上图:


单个段子代码详情

经分析,可知:

1.每个<div class="article block untagged……" 标签都包含一个段子,结构很清晰

2.发布者在<h2></h2> 标签中,段子内容在<div class="content"> 下的<span> 标签中,好笑值和评论数在上图中都标明了位置(请自行查看)

3.带图片对待段子在 标签下多一个<div> 标签,如下:

带图片段子详情

代码奉上:

pattern = re.compile(
  '<div.*?article block.*?<h2>(.*?)</h2>.*?content.*?<span>(.*?)</span>.*?' +
  '<!--.*?或gif.*?>(.*?)<div class="stats".*?<span.*?number">(\d+)</i>.*?' +
  '</span>.*?<a.*?>.*?number">(\d+)</i>.*?</div>',re.S)
items = re.findall(pattern, html)
    for item in items:
        if not item[2].split():
            print(item[0], item[1], "好笑值:" + item[3], "评论数:" + item[4])

代码说明:

1).*? 是一个固定的搭配,.和*代表可以匹配任意无限多个字符,加上?表示使用非贪婪模式进行匹配,也就是会尽可能短地做匹配,以后我们还会大量用到 .*? 的搭配。

2)(.*?)表示一个分组,就是我们需要匹配的内容。

3)re.S表示点(.)可以匹配换行符

4)没有图片的段子,item[2] 匹配的内容为几个换行符,所以可以用split() 方法去除换行符,再加 if 判断过滤有图片的段子

输出结果:


输出结果

总结

1.整个项目比较简单,主要就是正则匹配部分

2.由于能力有限,所以没办法做到和崔大神的一样回车一下显示一个段子

3.本来想再用BeautifulSoup实现下的,后来发现比较麻烦就中断了,还不如正则简单

完整代码和输出文件请访问:https://github.com/xieys 欢迎Follow和star

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,590评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,808评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,151评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,779评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,773评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,656评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,022评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,678评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,038评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,756评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,411评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,005评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,973评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,053评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,495评论 2 343

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,438评论 25 707
  • 这是Python爬虫系列的第一篇文章。之前学了一段时间的Python,在网上搜到爬虫系列的教程,但是由于网站更新可...
    DamienXiong阅读 672评论 0 0
  • 大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需...
    追不到的那缕风阅读 547评论 0 0
  • 又到了007作业雨时间,最近从北方跑回南方工作,接连不断的材料上报以及搬家等杂事堆在一起,总觉得自己少了些动力,多...
    童言AND无忌阅读 392评论 4 2
  • 佛洛依德——名言 1、笑话给予我们快感,是通过把一个充满能量和紧张度的有意识过程转化为一个轻松的无意识过程。 2、...
    文藝聯盟阅读 454评论 2 3