写在前面
练习写作是我们学习知识有效的一种方式,通过写作可以检验你对知识点的掌握,是一种对自己内心世界的推演,因此你也会得到一些结论。而这些结论正是你身体力行、复盘总结、升华提炼后的结果。你把文字写出来的时候,也许你会想,又或者会有告诉你,某本书上早写了这些。于是你可能会茫然,想着既然书上早就写了,那我折腾的意义在哪里?
意义很明显。二者的区别在于,你自己想明白的,就是你的;书上的只是书上的,终究不是你的。就像高中的时候学习数学,老师在黑板上仔细的推演一道题目的解题步骤,当时你顺着老师的思路听得很明白,但是课后如果自己不再复盘一遍,那还是不能掌握知识。
所以,自己想明白的,是从你的体系中萌芽生长出来的;而从书上看到的,非常容易偷留在做个笔记画个线,涂个手绘画个圈,自以为懂了的层面。
正文
正则表达式是一个特殊的字符序列,一个字符串是否与我们所设定的字符序列相匹配。用正则表达式可以快速检索文本,实现一些替换文本的操作。比如说:
例1
import re
# a = 'c|c++|Java|Python|Javascript'
a= 'c0c++7Java8Python6Javascript'
# for in循环找出数字
r= re.findall('Python',a)#一个简单的正则表达式
print(r)#结果以列表形式出现 规则
if len(r)> 0:
print('字符串中包含Python')
else:
print('No')
print(a.index('Python')>-1)
print('Python' in a)# 内置函数
(1)检查一串数字是否是电话号码
(2)检查一个字符串是否符合email
(3)一个文本里的单词替换成另一个单词
在上述代码中,从给定的字符串中快速检索出要求的字符。既可以用Python的内置函数检验字符串中是否有要求的字符,当然最好的方法就是正则表达式,从结果可以看出,用正则表达式给出的结果会以列表的形式呈现出来。
例2
#字符集[]表示或,^表示取反;c-f(2)
import re
s= 'abc, acc, adc, aec, afc, ahc'
r= re.findall('a[^cfd]c',s)#单词中间一个字母是c或f或d的单词 a和c定界c-f
print(r)
字符集[],从给定的字符串序列中检索中中间字母是c或f的单词,将c或f填入[],并给出定界,如果需要检索出中间字母不是c或f的单词,只用在前面加「^」就可以实现;如果考虑中间字母不止一个,比如c到f,那么可以这样表示[c-f]
例3
#概括字符集 比如,\d可以用0-9表示,\D取反就行;既匹配数字又匹配字母,\w(小写)只能匹配单一字符
#.匹配除换行符\n之外其他所有字符
import re
a= 'python1111java&678php'
r= re.findall('\w',a)#\w([A-Za-z0-9_])不能匹配&;可以匹配下划线
print(r)
概括字符集,种类很多,大家有兴趣可以网上搜索一下,总结几个常用的概括字符集。
\d可以用0-9表示;
\D表示匹配出非数字的字符,所以只用给\d取反就可以;
\w(小写)既能匹配数字又能匹配字母,也能匹配下划线「_」但只能匹配单一字符;
\W匹配非单词符号&,包括空格、\n、\r、\t统称为空白字符;
\s可以匹配空白字符,但不能盘匹配&,因为它们不属于一类;
\S可以匹配非空白字符;
「.」匹配除换行符\n之外其他所有字符。
例4:数量词
import re
a= 'python 1111java678php'
# r = re.findall('[a-z][a-z][a-z]',a) #匹配出单词,方法1
r= re.findall('[a-z]{3,6}',a)#方法2
print(r)
从给定的字符串中检索出单词。代码中给出了两种方法,但方法1得到的结果显然不是我们想要的,因此我们用方法二可以得到结果。其中{3,6}就是数量词,从给定的字符串中检索单词的次数。
数量词的贪婪与非贪婪
在上述例子中,本来Python匹配到3就可以了,但是由于贪婪,还会继续匹配,直到出现空格才算完成,其他单词的匹配都可以用这种思想来解释。
非贪婪只用在贪婪的数量词后加「?」取反,例4中加入?后,与{3}是一样的,大家可以动手验证一下。