Python中的正则表达式

写在前面

正则表达式，又称规则表达式，可用单个字符串来描述、匹配某个句法规则的字符串，常被用来检索、替换哪些符合某个模式的文本(不理解匹配规则的同学可以参考：正则表达式)。Python中的正则表达式可通过re模块中的match、search、findall三个方法来实现

-re.match(匹配规则, 被匹配字符串)
匹配成功则返回匹配对象，匹配不成功则返回空。re.match默认从头部匹配，若头部不匹配，则后面的内容不参与匹配

re.search
检索整个字符串，找出匹配的，匹配一次后即停止检索。
re.findall
检索整个字符串，并返回所有匹配结果(值的list)

一、简单演示

# re.match

# 默认从头部匹配，若头部不匹配，则后面的内容不参与匹配
import re
match_res = re.match('Biomamba','I am Biomamba')
print(match_res)
# 可以看出虽然我们后面的话中包含"Biomamba"，但是结果并没有返回。
## None

# 我们把单词的顺序换一下
match_res = re.match('Biomamba','Biomamba is me')
print(match_res)
# 可以看到返回了字符串对应的坐标
## <_sre.SRE_Match object; span=(0, 8), match='Biomamba'>

# match_res中的信息可以被分别取出：
print(match_res.span())
## (0, 8)

print(match_res.start())
## 0

print(match_res.end())
## 8

# re.search 
# 检索整个字符串，找出匹配的，匹配一次后即停止检索
import re
search_res = re.search('Biomamba','I am Biomamba. Biomamba is me.')
print(search_res)
# 可以看出只返回了第一个"Biomamba"的坐标。
## <_sre.SRE_Match object; span=(5, 13), match='Biomamba'>

# re.findall
# 检索整个字符串，并返回所有匹配结果(值的list)
import re
findall_res = re.findall('Biomamba','I am Biomamba. Biomamba is me.')
print(findall_res)
# 可以看出返回了所有值
## ['Biomamba', 'Biomamba']

print(type(findall_res))
# 返回的对象是一个list
## <class 'list'>

二、元字符

元字符指一类具有特定功能，用于匹配特定字符串的字符。

18.2.1 字符匹配

.
匹配任意1个字符，除了换行符\n和.本身\.
[]
匹配[]中列举的字符
br> 匹配数字字符，即0-9
匹配非数字的字符
匹配空白，包括空格、tab键
匹配非空白
匹配单词字符，即a-z、A-Z、0-9、_

# 简单的举几个例子：
import re
my_word = 'I am Biomamba.This year is 2023 . Biomamba is me.'
# 找出这句话中所有的数字
re.findall('[0-9]',my_word) 
# 可见匹配到的所有数字被列出：
## ['2', '0', '2', '3']

# 或者我们换个写法依旧可以匹配到所有的数字
import re
my_word = 'I am Biomamba.This year is 2023 . Biomamba is me.'
# 找出这句话中所有的数字
re.findall('\d',my_word) 
# 可见匹配到的所有数字被列出：
## ['2', '0', '2', '3']

# 找出所有的大写字母
import re
my_word = 'I am Biomamba.This year is 2023 . Biomamba is me.'

re.findall('[A-Z]',my_word) 
# 可见匹配到的所有的大写字母被列出：
## ['I', 'B', 'T', 'B']

# 找出所有字母
import re
my_word = 'I am Biomamba.This year is 2023 . Biomamba is me.'

re.findall('[A-z]',my_word) 
# 可见匹配到的所有字母被列出：
## ['I', 'a', 'm', 'B', 'i', 'o', 'm', 'a', 'm', 'b', 'a', 'T', 'h', 'i', 's', 'y', 'e', 'a', 'r', 'i', 's', 'B', 'i', 'o', 'm', 'a', 'm', 'b', 'a', 'i', 's', 'm', 'e']

# 找出所有空格及其前面的一个字符
my_word = 'I am Biomamba.This year is 2023 . Biomamba is me.'

re.findall('.\s',my_word)
## ['I ', 'm ', 's ', 'r ', 's ', '3 ', '. ', 'a ', 's ']

# 找出所有空格及其前面的一个字符
my_word = 'I am Biomamba.This year is 2023 . Biomamba is me.'

re.findall('.\s',my_word)
## ['I ', 'm ', 's ', 'r ', 's ', '3 ', '. ', 'a ', 's ']

# 匹配任意字符任意次
re.findall('.*',my_word) 
# 可以看到完整的内容被匹配与打出
## ['I am Biomamba.This year is 2023 . Biomamba is me.', '']

18.2.2 数量匹配：

匹配前一个规则的字符任意次(0次至无数次)
匹配前一个规则的字符1至无数次
?
匹配前一个规则的字符0次或1次
{m}
匹配前一个规则的字符m次
{m,}
匹配前一个字符最少m次
{m,n}
匹配前一个字符m到n次

import re
my_word = 'I am Biomamba.BBBiomamba. iomamba.This year is 2023 . Biomamba is me.'

# 匹配B字符任意次及后接iomamba字符
re.findall('B*iomamba',my_word)
# 可以看出 Biomamba 、iomamba 和 BBBiomamba 均可以被打印出
## ['Biomamba', 'BBBiomamba', 'iomamba', 'Biomamba']

# 匹配B字符一次及后接iomamba字符
re.findall('B+iomamba',my_word)
# 可以看出iomamba无法被打印出
## ['Biomamba', 'BBBiomamba', 'Biomamba']

# 匹配最少三次B后接iomamba
my_word = 'I am Biomamba. BBiomamba.BBBiomamba. BBBBiomamba .iomamba.This year is 2023 . Biomamba is me.'
re.findall('B{3,}iomamba',my_word)
# 可以看到只有三个及以上的B被输出
## ['BBBiomamba', 'BBBBiomamba']

# 匹配二至三次B后接iomamba
re.findall('B{2,3}iomamba',my_word)
## ['BBiomamba', 'BBBiomamba', 'BBBiomamba']

18.2.3 边界匹配

^
匹配字符串开头
$
匹配字符串结尾
br> 匹配一个单词的边界
匹配一个非单词的边界

import re
my_word = 'I am Biomamba.This year is 2023 . Biomamba is me.'

# 匹配字符串开头和之后的一个字符
re.findall('^.',my_word)
## ['I']

# 匹配字符串结尾和之前的两个字符
re.findall('.{2}$',my_word)
## ['e.']

# 匹配字符串中单词非边界前为a的单词
re.findall('a\B',my_word)
## ['a', 'a', 'a', 'a']

其它匹配依次类推，正则表达式在所有平台与语言中几乎都是通用的，详情可见我们的Linux课程生信小白的Linux保姆级教程。

往期回顾

生信Python速查手册

Python安装(Windows+Linux)

Python的"Rstudio"——Pycharm

码Python神器：jupyter notebook

一文了解Python基础：字面量、注释、变量、类型、运算符

Python数据可视化案例:pyecharts

Python类与对象

Python多线程编程

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,544评论 6赞 501
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,430评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,764评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,193评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,216评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,182评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,063评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,917评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,329评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,543评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,722评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,425评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,019评论 3赞 326
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,671评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,825评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,729评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,614评论 2赞 353