正则匹配(爬取糗图百科)

概述

当查找不是固定的一个，而是一类字符串（得有规律），字符串的函数实现不了，引入了正则表达式。不分语言，js就有正则表达式
正则肯定有自己的规则，学习这些规则，写出一个正则匹配那一类字符串

规则

1）单字符匹配 
 \d 0-9 digit 
 \D 除了\d 
 \w 小写字母、大写字母、数字、下划线，一个中文 word 
 \W 除了\w  
\s 所有的空白字符，空格、\t space 
 \S 除了\s  
. 任意字符，除了 \n  
[aeiou] 匹配中括号里面任意一个字符
  [a-z](#)  [0-9](#)  


（2）和数量相关的  
a{3,}  
aaaaaaaaaa  
{m} 修饰前面的一个字符出现m次 
 {m,n} 修饰前面的字符出现最少m次，最多n次，贪婪的，能多匹配就多匹配 
 {m,} 修饰前面的字符出现最少m次  
{0,} 任意多次 * 
 {1,} 至少1次 +  
{0,1} 可有可无 ?  
（3）边界相关  
  ^ 以某某开头
 $以某某结尾

（4）贪婪和非贪婪
        .*   贪婪的
        .*?  非贪婪
        .+   贪婪的
        .+?  非贪婪

5）分组
        12(ab){2}cd
        用一个小括号将正则括起来
        1、视为一个整体
        2、子模式、分组
            给需要使用的正则两边添加小括号，然后后面使用 \1 \2 表示第一个小括号匹配的内容，第二个小括号匹配的内容

re模块
        re.match()     从字符串的开头开始匹配，匹配成功立即返回，返回一个对象
        re.search()    从字符串任意位置开始匹配，匹配成功立即返回，返回一个对象
        re.findall()  匹配字符串所有符合要求的，返回一个列表
        re.compile()   生成一个正则对象
        re.sub()      正则替换
         pattern.sub('固定字符串', 字符串)
         pattern.sub(函数, 字符串)   用函数的返回值替换正则匹配的内容

（6）模式修饰
        re.I    忽略大小写
string = 'i love you baby'
pattern = re.compile(r'LOVE', re.I)
ret = pattern.search(string)
print(ret.group())

        re.S    视为单行模式

string = '''<div>
    细思极恐
你的对手在看书
你的敌人在磨刀
你的闺蜜在减肥
隔壁老王在炼腰
</div>'''
pattern = re.compile(r'<div>(.*?)</div>', re.S)
ret = pattern.search(string)
print(ret.group(1))
        re.M    视为多行模式
string = '''有关爱情的歌曲
爱情36计
爱是一道光
爱我别走
爱情买卖
爱如潮水
'''
pattern = re.compile(r'^爱', re.M)
ret = pattern.findall(string)
print(ret)

sub替换

# 将正则匹配的内容替换掉
str = '男生喜欢123的女孩子'
pat = re.compile(r'\d+')
lala = pat.sub('60',str)
print(lala)

#通过函数返回值替换
def fn(ret):
    # print(ret)
    age = int(ret.group())
    age += 1
    return str(age)

string = '男生都喜欢18岁的女孩'
pattern = re.compile(r'\d+')
# lala = pattern.sub('60', string)
# print(lala)

lala = pattern.sub(fn, string)
print(lala)

糗事百科实例

import urllib.request
import re
import time
import os

def handle_request(url, page):
    # 拼接url
    url_page = url.format(page)
    # print(url_page)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
    }
    # 构建请求对象
    request = urllib.request.Request(url=url_page, headers=headers)
    return request

def parse_content(content):
    # 正则解析
    # 这种写法范围太广，匹配的不精确
    # pattern = re.compile(r'<img src="(.*?)" .*?>')
    # 分析网页结构，首先先找到class是thumb的div，然后再去div里面找img
    # pattern = re.compile(r'<div class="thumb">.*?</div>', re.S)
    pattern = re.compile(r'<div class="thumb">.*?<img src="(.*?)" alt="(.*?)" />.*?</div>', re.S)
    ret = pattern.findall(content)
    # print(ret)
    # print(len(ret))
    # 遍历这个列表，依次下载图片
    dirname = 'qiutu'
    for info in ret:
        # 获取图片的链接
        img_src = 'https:' + info[0]
        # 拼接得到图片的名字
        img_name = info[1] + '.' + img_src.split('.')[-1]
        print('正在下载--%s--' % img_name)
        filepath = os.path.join(dirname, img_name)
        try:
            urllib.request.urlretrieve(img_src, filepath)
        except:
            print('二货，没有这个图片')
        
        print('结束下载--%s--' % img_name)
        time.sleep(2)


def main():
    # 让用户输入起始页码和结束页码
    start_page = int(input('请输入起始页码-'))
    end_page = int(input('请输入结束页码-'))
    url = 'https://www.qiushibaike.com/pic/page/{}/'

    # 搞个循环，依次向每个页面的url发送请求
    for page in range(start_page, end_page + 1):
        print('正在下载--第%s页--......' % page)
        # 拼接url，生成请求对象
        request = handle_request(url, page)
        # 发送请求，获得响应
        response = urllib.request.urlopen(request)
        # 获得响应内容字符串格式
        content = response.read().decode('utf8')
        # 解析网页内容，提取图片链接，下载图片
        parse_content(content)
        print('结束下载--第%s页--...' % page)
        time.sleep(2)
        

if __name__ == '__main__':
    main()

gfg.jpeg

正则匹配(爬取糗图百科)

正则匹配(爬取糗图百科)

概述

规则

sub替换

糗事百科实例

相关阅读更多精彩内容

友情链接更多精彩内容