Python 爬虫零基础教程(5):糗事百科爬虫



爬取糗事百科热门段子

效果图:


代码:

# python2
# -*- coding: utf-8 -*-
# Filename: qiushibaike_hot.py
"""
糗事百科爬虫
爬取24小时热门笑话第一页
过滤掉“图片”和“查看全文”
输出到屏幕
"""

import requests
import re

user_agent = ''
headers = {'User-Agent':user_agent}

# 读取网页上的数据
def download_data(url):
    url = url
    data = requests.get(url, headers = headers).content
    return data

# 用正则得到正文数据,返回列表
def get_text(data):
    data = data
    text_list = re.findall('<div class="content">(.+?)</span>', data, re.S)
    return text_list

# 去掉数据中的空格、<p>、</p>
def remove_str(text):
    text = text
    # 去掉 <p>、</p>
    text1 = re.sub('<.+?>', '', text)
    # 去掉空格和空行
    text2 = text1.replace(" ", "").replace('\n', '')
    return text2

# 去掉过短的(一般是图片)和过长的(查看全文)段子
def remove_long(text):
    text = text
    if len(text) > 111 and len(text) < 600:
        return text
    
def start(url):
    url = url
    data = download_data(url)
    text_list = get_text(data)
    for text in text_list:
        text1 = remove_str(text)
        # 去掉过短的(一般是图片)和过长的(查看全文)段子
        if len(text1) > 111 and len(text1) < 600:
            print( text1 + '\n')
    
url = 'https://www.qiushibaike.com/hot/'
start(url)
print 'over'


知识点:


正则表达式

我们前面介绍过 re.findall ,接下来继续

本例的网页源代码是

我们用的正则表达式是 '<div class="content">(.+?)</span>' ,说白了就是选取能把目标文本包起来的唯一的字符串。


贪婪匹配与非贪婪匹配

.* 为贪婪匹配,.*? 为非贪婪匹配

先看示例:

源字符串:aa<div>test1</div>bb<div>test2</div>cc 

正则表达式一:<div>.*</div> 

匹配结果一:<div>test1</div>bb<div>test2</div> 

正则表达式二:<div>.*?</div> 

匹配结果二:<div>test1</div>(这里指的是一次匹配结果,所以没包括<div>test2</div>)

简单说,贪婪匹配就是匹配尽量长的结果,非贪婪匹配就是匹配尽量短的结果

我们通常用的都是非贪婪匹配


re.sub 方法

re.sub 用于替换字符串中的匹配项,返回替换后的字符串。

语法:

re.sub(pattern, repl, string, count=0, flags=0)
# pattern : 正则中的模式字符串。
# repl : 替换的字符串,也可为一个函数。
# string : 要被查找替换的原始字符串。
# count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。
# flags:标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
# 参数 count 和 flags 有默认值,可不写

示例:

str_1 = "hello 123 world 456"
# 想把123和456,都换成222
str_2 = re.sub("\d+", "222", str_1)


Python 正则表达式详细语法说明


flags 标志位说明
标志位 描述
re.I 使匹配对大小写不敏感
re.L 做本地化识别(locale-aware)匹配
re.M 多行匹配,影响 ^ 和 $
re.S 使 . 匹配包括换行在内的所有字符
re.U 根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X 该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。


replace() 方法

把字符串中的 old(旧字符串) 替换成 new(新字符串),如果指定第三个参数max,则替换不超过 max 次。 返回生成的新字符串。

语法

str.replace(old, new, max)
# old -- 将被替换的子字符串。 
# new -- 新字符串,用于替换old子字符串。 
# max -- 可选字符串, 替换不超过 max 次 

示例:

str = "this is string example....wow!!! this is really string";
print str.replace("is", "was");
print str.replace("is", "was", 3);

# 输出结果: 
thwas was string example....wow!!! thwas was really string
thwas was string example....wow!!! thwas is really string

replace() 还可以连用,例如:

text.replace('/p',' ').replace('p', ' ')


len() 函数

返回字符串和序列的长度。示例:

>>> len("aab")
3
>>> len([1,2])
2


if 语句

if 语句的基本形式:

if <判断语句1>:
    <执行1>
elif <判断语句2>:
    <执行2>
elif <判断语句3>:
    <执行3>
else:
    <执行4>

if 语句是从上往下运行判断语句,如果某个判断语句结果是True,则运行其对应的缩进块,忽略掉剩下的elif和else。

如果 if 和 elif 的判断语句都为 False,则执行 else 后面的缩进块。

注意:

1.else 后面没有条件判断。
2.if语句 可以只有 if ,没有后面的 elif 、else
3.Python 中任何非 0 和非空(null)值为都为 True,0 或者空值(null)为 False。

示例:

num = 5     
if num == 3:
    print 'boss'        
elif num == 2:
    print 'user'
elif num == 1:
    print 'worker'
elif num < 0:
    print 'error'
else:
    print 'roadman'


比较运算符


逻辑运算符


代码解释

if len(text1) > 111 and len(text1) < 600:
    print( text1 + '\n')
# len(text1) 计算 text1 的长度
# 判断 len(text1) > 111 的结果是 True 还是 False
# 判断 len(text1) < 600 的结果是 True 还是 False
# 把上面两项的结果取 逻辑与
# if 语句,如果 len(text1) > 111 and len(text1) < 600 为 True,则运行下面 print 语句
# 如果为 False ,则跳过下面 print 语句,进行下一轮循环

教程目录:
0.《简介及准备》
1.《爬单个图片》
2.《下载一组网页上的图片》
3.《输出一个网页上的文字》
4.《获取电影天堂最新电影名称》
5.《糗事百科爬虫》

20181203

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容

  • 一、快捷键 ctr+b 执行ctr+/ 单行注释ctr+c ...
    o_8319阅读 5,795评论 2 16
  • python的re模块--细说正则表达式 可能是东半球最详细最全面的re教程,翻译自官方文档,因为官方文档写的是真...
    立而人阅读 22,850评论 4 46
  • 类 !/usr/bin/python -- coding: UTF-8 -- class Employee:'所有...
    SkTj阅读 948评论 0 0
  • 8.5到达曲阜-8.6 8.6晚到达日照 8.7晚到达烟台 8.8日到家 8.11日返程 8.12日晚到家
    许艺xuyi谈茶阅读 180评论 0 0
  • 今天在简书看到一篇分享#别学东学西了,先建立自己的知识体系吧#,貌似有了点感悟,所以我也来试下分享囖,不过文笔真的...
    Addfish阅读 222评论 0 0