概述
当查找不是固定的一个,而是一类字符串(得有规律),字符串的函数实现不了,引入了正则表达式。不分语言,js就有正则表达式
正则肯定有自己的规则,学习这些规则,写出一个正则匹配那一类字符串
规则
1)单字符匹配
\d 0-9 digit
\D 除了\d
\w 小写字母、大写字母、数字、下划线,一个中文 word
\W 除了\w
\s 所有的空白字符,空格、\t space
\S 除了\s
. 任意字符,除了 \n
[aeiou] 匹配中括号里面任意一个字符
[a-z](#) [0-9](#)
(2)和数量相关的
a{3,}
aaaaaaaaaa
{m} 修饰前面的一个字符出现m次
{m,n} 修饰前面的字符出现最少m次,最多n次,贪婪的,能多匹配就多匹配
{m,} 修饰前面的字符出现最少m次
{0,} 任意多次 *
{1,} 至少1次 +
{0,1} 可有可无 ?
(3)边界相关
^ 以某某开头
$以某某结尾
(4)贪婪和非贪婪
.* 贪婪的
.*? 非贪婪
.+ 贪婪的
.+? 非贪婪
5)分组
12(ab){2}cd
用一个小括号将正则括起来
1、视为一个整体
2、子模式、分组
给需要使用的正则两边添加小括号,然后后面使用 \1 \2 表示第一个小括号匹配的内容,第二个小括号匹配的内容
re模块
re.match() 从字符串的开头开始匹配,匹配成功立即返回,返回一个对象
re.search() 从字符串任意位置开始匹配,匹配成功立即返回,返回一个对象
re.findall() 匹配字符串所有符合要求的,返回一个列表
re.compile() 生成一个正则对象
re.sub() 正则替换
pattern.sub('固定字符串', 字符串)
pattern.sub(函数, 字符串) 用函数的返回值替换正则匹配的内容
(6)模式修饰
re.I 忽略大小写
string = 'i love you baby'
pattern = re.compile(r'LOVE', re.I)
ret = pattern.search(string)
print(ret.group())
re.S 视为单行模式
string = '''<div>
细思极恐
你的对手在看书
你的敌人在磨刀
你的闺蜜在减肥
隔壁老王在炼腰
</div>'''
pattern = re.compile(r'<div>(.*?)</div>', re.S)
ret = pattern.search(string)
print(ret.group(1))
re.M 视为多行模式
string = '''有关爱情的歌曲
爱情36计
爱是一道光
爱我别走
爱情买卖
爱如潮水
'''
pattern = re.compile(r'^爱', re.M)
ret = pattern.findall(string)
print(ret)
sub替换
# 将正则匹配的内容替换掉
str = '男生喜欢123的女孩子'
pat = re.compile(r'\d+')
lala = pat.sub('60',str)
print(lala)
#通过函数返回值替换
def fn(ret):
# print(ret)
age = int(ret.group())
age += 1
return str(age)
string = '男生都喜欢18岁的女孩'
pattern = re.compile(r'\d+')
# lala = pattern.sub('60', string)
# print(lala)
lala = pattern.sub(fn, string)
print(lala)
糗事百科实例
import urllib.request
import re
import time
import os
def handle_request(url, page):
# 拼接url
url_page = url.format(page)
# print(url_page)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
}
# 构建请求对象
request = urllib.request.Request(url=url_page, headers=headers)
return request
def parse_content(content):
# 正则解析
# 这种写法范围太广,匹配的不精确
# pattern = re.compile(r'<img src="(.*?)" .*?>')
# 分析网页结构,首先先找到class是thumb的div,然后再去div里面找img
# pattern = re.compile(r'<div class="thumb">.*?</div>', re.S)
pattern = re.compile(r'<div class="thumb">.*?<img src="(.*?)" alt="(.*?)" />.*?</div>', re.S)
ret = pattern.findall(content)
# print(ret)
# print(len(ret))
# 遍历这个列表,依次下载图片
dirname = 'qiutu'
for info in ret:
# 获取图片的链接
img_src = 'https:' + info[0]
# 拼接得到图片的名字
img_name = info[1] + '.' + img_src.split('.')[-1]
print('正在下载--%s--' % img_name)
filepath = os.path.join(dirname, img_name)
try:
urllib.request.urlretrieve(img_src, filepath)
except:
print('二货,没有这个图片')
print('结束下载--%s--' % img_name)
time.sleep(2)
def main():
# 让用户输入起始页码和结束页码
start_page = int(input('请输入起始页码-'))
end_page = int(input('请输入结束页码-'))
url = 'https://www.qiushibaike.com/pic/page/{}/'
# 搞个循环,依次向每个页面的url发送请求
for page in range(start_page, end_page + 1):
print('正在下载--第%s页--......' % page)
# 拼接url,生成请求对象
request = handle_request(url, page)
# 发送请求,获得响应
response = urllib.request.urlopen(request)
# 获得响应内容字符串格式
content = response.read().decode('utf8')
# 解析网页内容,提取图片链接,下载图片
parse_content(content)
print('结束下载--第%s页--...' % page)
time.sleep(2)
if __name__ == '__main__':
main()