正则匹配(爬取糗图百科)

概述

当查找不是固定的一个,而是一类字符串(得有规律),字符串的函数实现不了,引入了正则表达式。不分语言,js就有正则表达式
正则肯定有自己的规则,学习这些规则,写出一个正则匹配那一类字符串

规则

1)单字符匹配 
 \d 0-9 digit 
 \D 除了\d 
 \w 小写字母、大写字母、数字、下划线,一个中文 word 
 \W 除了\w  
\s 所有的空白字符,空格、\t space 
 \S 除了\s  
. 任意字符,除了 \n  
[aeiou] 匹配中括号里面任意一个字符
  [a-z](#)  [0-9](#)  


(2)和数量相关的  
a{3,}  
aaaaaaaaaa  
{m} 修饰前面的一个字符出现m次 
 {m,n} 修饰前面的字符出现最少m次,最多n次,贪婪的,能多匹配就多匹配 
 {m,} 修饰前面的字符出现最少m次  
{0,} 任意多次 * 
 {1,} 至少1次 +  
{0,1} 可有可无 ?  
(3)边界相关  
  ^ 以某某开头
 $以某某结尾

(4)贪婪和非贪婪
        .*   贪婪的
        .*?  非贪婪
        .+   贪婪的
        .+?  非贪婪

5)分组
        12(ab){2}cd
        用一个小括号将正则括起来
        1、视为一个整体
        2、子模式、分组
            给需要使用的正则两边添加小括号,然后后面使用 \1 \2 表示第一个小括号匹配的内容,第二个小括号匹配的内容

re模块
        re.match()     从字符串的开头开始匹配,匹配成功立即返回,返回一个对象
        re.search()    从字符串任意位置开始匹配,匹配成功立即返回,返回一个对象
        re.findall()  匹配字符串所有符合要求的,返回一个列表
        re.compile()   生成一个正则对象
        re.sub()      正则替换
         pattern.sub('固定字符串', 字符串)
         pattern.sub(函数, 字符串)   用函数的返回值替换正则匹配的内容

(6)模式修饰
        re.I    忽略大小写
string = 'i love you baby'
pattern = re.compile(r'LOVE', re.I)
ret = pattern.search(string)
print(ret.group())

        re.S    视为单行模式

string = '''<div>
    细思极恐
你的对手在看书
你的敌人在磨刀
你的闺蜜在减肥
隔壁老王在炼腰
</div>'''
pattern = re.compile(r'<div>(.*?)</div>', re.S)
ret = pattern.search(string)
print(ret.group(1))
        re.M    视为多行模式
string = '''有关爱情的歌曲
爱情36计
爱是一道光
爱我别走
爱情买卖
爱如潮水
'''
pattern = re.compile(r'^爱', re.M)
ret = pattern.findall(string)
print(ret)

sub替换

# 将正则匹配的内容替换掉
str = '男生喜欢123的女孩子'
pat = re.compile(r'\d+')
lala = pat.sub('60',str)
print(lala)

#通过函数返回值替换
def fn(ret):
    # print(ret)
    age = int(ret.group())
    age += 1
    return str(age)

string = '男生都喜欢18岁的女孩'
pattern = re.compile(r'\d+')
# lala = pattern.sub('60', string)
# print(lala)

lala = pattern.sub(fn, string)
print(lala)

糗事百科实例

import urllib.request
import re
import time
import os

def handle_request(url, page):
    # 拼接url
    url_page = url.format(page)
    # print(url_page)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
    }
    # 构建请求对象
    request = urllib.request.Request(url=url_page, headers=headers)
    return request

def parse_content(content):
    # 正则解析
    # 这种写法范围太广,匹配的不精确
    # pattern = re.compile(r'<img src="(.*?)" .*?>')
    # 分析网页结构,首先先找到class是thumb的div,然后再去div里面找img
    # pattern = re.compile(r'<div class="thumb">.*?</div>', re.S)
    pattern = re.compile(r'<div class="thumb">.*?<img src="(.*?)" alt="(.*?)" />.*?</div>', re.S)
    ret = pattern.findall(content)
    # print(ret)
    # print(len(ret))
    # 遍历这个列表,依次下载图片
    dirname = 'qiutu'
    for info in ret:
        # 获取图片的链接
        img_src = 'https:' + info[0]
        # 拼接得到图片的名字
        img_name = info[1] + '.' + img_src.split('.')[-1]
        print('正在下载--%s--' % img_name)
        filepath = os.path.join(dirname, img_name)
        try:
            urllib.request.urlretrieve(img_src, filepath)
        except:
            print('二货,没有这个图片')
        
        print('结束下载--%s--' % img_name)
        time.sleep(2)


def main():
    # 让用户输入起始页码和结束页码
    start_page = int(input('请输入起始页码-'))
    end_page = int(input('请输入结束页码-'))
    url = 'https://www.qiushibaike.com/pic/page/{}/'

    # 搞个循环,依次向每个页面的url发送请求
    for page in range(start_page, end_page + 1):
        print('正在下载--第%s页--......' % page)
        # 拼接url,生成请求对象
        request = handle_request(url, page)
        # 发送请求,获得响应
        response = urllib.request.urlopen(request)
        # 获得响应内容字符串格式
        content = response.read().decode('utf8')
        # 解析网页内容,提取图片链接,下载图片
        parse_content(content)
        print('结束下载--第%s页--...' % page)
        time.sleep(2)
        

if __name__ == '__main__':
    main()
gfg.jpeg
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,372评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,368评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,415评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,157评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,171评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,125评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,028评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,887评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,310评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,533评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,690评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,411评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,004评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,812评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,693评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,577评论 2 353

推荐阅读更多精彩内容