字符串和文本(cookbook笔记)

字符串和文本

针对任意多的分隔符拆分字符串

  • 字符串中由多种不同的分隔符,也包括空格
>>> import re
>>> line = 'asdf fjdk; afed, fjek,asdf, foo'
#[]匹配其中的任意一个字符,*(匹配前面的子表达式0次或1次)
>>> re.split(r'[;,\s]*', line)

字符串开头或结尾文本匹配

  • 使用endswith和startswith做匹配
>>> filename = 'spam.txt'
>>> filename.endswith('.txt')
True
>>> filename.startswith('file:')
False
>>> url = 'http://www.python.org'
>>> url.startswith('http:')
True
>>>
  • 对多个选项做匹配,只需要将匹配条件放在tuple中即可, 必须使用tuple
  • any 表示有任意一个成立即返回true
>>> import os
>>> filenames = os.listdir('.')
>>> filenames
[ 'Makefile', 'foo.c', 'bar.py', 'spam.c', 'spam.h' ]
>>> [name for name in filenames if name.endswith(('.c', '.h')) ]
['foo.c', 'spam.c', 'spam.h'
#可以用于检查某个文件夹下是否存在某种类型的文件
>>> any(name.endswith('.py') for name in filenames)
True
>>>
  • 也可以使用正则表达式实现
>>> import re
>>> url = 'http://www.python.org'
>>> re.match('http:|https:|ftp:', url)
<_sre.SRE_Match object at 0x101253098>
>>>

用Shell通配符匹配字符串

  • 使用 Unix Shell 中常用的通配符(比如 .py , Dat[0-9].csv 等)去匹配文本字符串
  • 使用 fnmatch 模块提供了两个函数—— fnmatch() 和 fnmatchcase() 实现通配符匹配
>>> from fnmatch import fnmatch, fnmatchcase
>>> fnmatch('foo.txt', '*.txt')
True
>>> fnmatch('foo.txt', '?oo.txt')
True
>>> fnmatch('Dat45.csv', 'Dat[0-9]*')
True
>>> names = ['Dat1.csv', 'Dat2.csv', 'config.ini', 'foo.py']
>>> [name for name in names if fnmatch(name, 'Dat*.csv')]
['Dat1.csv', 'Dat2.csv']
>>>
  • 可以使用fnmatchcase()来实现大小写的完全匹配
>>> fnmatchcase('foo.txt', '*.TXT')
False
>>>

字符串匹配和搜索

  • 简单的匹配使用find, endswith, startswith实现即可
  • 复杂的匹配需要正则表达式
  • 正则匹配核心步骤就是先使用 re.compile() 编译正则表达式字符串, 然后使用 match() , findall() 或者 finditer() 等方法。
>>> text1 = '11/27/2012'
>>> import re
>>> if re.match(r'\d+/\d+/\d+', text1):
... print('yes')
... else:
... print('no')
yes
  • 使用编译模式,用同一个正则规则去做多次匹配
>>> datepat = re.compile(r'\d+/\d+/\d+')
>>> if datepat.match(text1):
... print('yes')
... else:
... print('no')
...
yes
  • match()总是从字符串开始去匹配,一旦匹配到就结束。如果你想查找字符串任意部分的模式出现位置, 使用 findall() 方法去代替。
>>> text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'
>>> datepat.findall(text)
['11/27/2012', '3/13/2013']
>>>
  • 使用括号去捕获分组
datepat = re.compile(r'(\d+)/(\d+)/(\d+)')
>>> m = datepat.match('11/27/2012')
>>> m
<_sre.SRE_Match object at 0x1005d2750>
>>> # Extract the contents of each group
>>> m.group(0)
'11/27/2012'
>>> m.group(1)
'11'
>>> m.group(2)
'27'
>>> m.group(3)
'2012'
>>> m.groups()
('11', '27', '2012')
>>> month, day, year = m.groups()
>>> text
'Today is 11/27/2012. PyCon starts 3/13/2013.'
#在正则中使用了捕获分组以后,就会在findall中匹配到数据时按照规则组成元组
>>> datepat.findall(text)
[('11', '27', '2012'), ('3', '13', '2013')]
>>> for month, day, year in datepat.findall(text):
... print('{}-{}-{}'.format(year, month, day))
  • 如果想使用精确匹配,在正则表达式中使用$结尾
>>> datepat = re.compile(r'(\d+)/(\d+)/(\d+)$')
>>> datepat.match('11/27/2012abcdef')
>>> datepat.match('11/27/2012')
<_sre.SRE_Match object at 0x1005d2750>

字符串搜索和替换

  • 简单的替换使用replace即可
  • 对于复杂的替换,使用正则和sub()函数即可
  • sub() 函数中的第一个参数正则,第二个参数是替换模式。反斜杠数字比如\3指捕获到的分组,可以任意改变顺序。
>>> import re
>>> datepat = re.compile(r'(\d+)/(\d+)/(\d+)')
>>> datepat.sub(r'\3-\1-\2', text)

字符串忽略大小写的搜索替换

  • re 模块的时候给这些操作提供 re.IGNORECASE
>>> text = 'UPPER PYTHON, lower python, Mixed Python'
>>> re.findall('python', text, flags=re.IGNORECASE)
['PYTHON', 'python', 'Python']
>>> re.sub('python', 'snake', text, flags=re.IGNORECASE)
'UPPER snake, lower snake, Mixed snake'

最短匹配模式(?非贪婪模式)

  • * 号的贪婪的会尽可能多的匹配
>>> str_pat = re.compile(r'\"(.*)\"')
>>> text1 = 'Computer says "no."'
>>> str_pat.findall(text1)
['no.']
>>> text2 = 'Computer says "no." Phone says "yes."'
>>> str_pat.findall(text2)
['no." Phone says "yes.']
>>>
  • 使用非贪婪模式
>>> str_pat = re.compile(r'\"(.*?)\"')
>>> str_pat.findall(text2)
['no.', 'yes.']
>>>

多行匹配模式

  • re.compile() 函数接受一个标志参数叫 re.DOTALL ,在这里非常有用。 它可以让正则表达式中的点(.)匹配包括换行符在内的任意字符
>>> text2 = '''/* this is a
... multiline comment */
... '''
>>> comment = re.compile(r'/\*(.*?)\*/', re.DOTALL)
>>> comment.findall(text2)
[' this is a\n multiline comment ']

删除字符串中不需要的字符

  • strip() 方法能用于删除开始或结尾的字符。 lstrip() 和 rstrip() 分别从左和从右执行删除操作。 默认情况下,这些方法会去除空白字符,但是你也可以指定其他字符
>>> s = ' hello world \n'
>>> s.strip()
'hello world'
>>> s.lstrip()
'hello world \n'
>>> s.rstrip()
' hello world'
>>> t = '-----hello====='
>>> t.lstrip('-')
'hello====='
>>> t.strip('-=')
'hello'
  • 在删除操作中strip()不会对中间的文本产生影响
>>> s = ' hello     world \n'
>>> s = s.strip()
>>> s
'hello     world'
>>>
  • 借助replace或者sub可疑实现空格的全部删除
>>> s.replace(' ', '')
'helloworld'
>>> import re
>>> re.sub('\s+', ' ', s)
'hello world'
>>>
  • 通常情况下你想将字符串 strip 操作和其他迭代操作相结合,比如从文件中读取多行数据。在这里,表达式 lines = (line.strip() for line in f) 执行数据转换操作。 这种方式非常高效,因为它不需要预先读取所有数据放到一个临时的列表中去。 它仅仅只是创建一个生成器,并且每次返回行之前会先执行 strip 操作
def open_file(filename):
    with open(filename) as f:
        lines = (line.strip() for line in f)
        for line in lines:
            print (line)

字符串对齐

  • 函数 format() 可以用来很容易的对齐字符串
>>> text = 'Hello World'
#右对齐20宽度
>>> format(text, '>20')
'         Hello World'
#左对齐20宽度
>>> format(text, '<20')
'Hello World         '
#中间对齐20宽度
>>> format(text, '^20')
'    Hello World     '
#指定填充字符串
>>> format(text, '=>20')
'=========Hello World'
>>> format(text, '*^20')
'****Hello World*****'
#格式化多个值
>>> '{:>10} {:>10}'.format('Hello', 'World')
'     Hello      World'
#格式化数字
>>> x = 1.2345
>>> format(x, '>10')
'    1.2345'
#保留2位小数
>>> format(x, '^10.2f')
'   1.23   '

合并拼接字符串

  • 如果你想要合并的字符串是在一个序列或者 iterable 中,那么最快的方式就是使用 join() 方法。
>>> parts = ['Is', 'Chicago', 'Not', 'Chicago?']
>>> ' '.join(parts)
'Is Chicago Not Chicago?'
>>> ','.join(parts)
'Is,Chicago,Not,Chicago?'
>>> ''.join(parts)
'IsChicagoNotChicago?'
>>> data = ['ACME', 50, 91.1]
#有非str类型的值,使用生成器表达式
>>> ','.join(str(d) for d in data)
'ACME,50,91.1'
  • 准备编写构建大量小字符串的输出代码, 你最好考虑下使用生成器函数,利用yield语句产生输出片段
def sample():
    yield 'Is'
    yield 'Chicago'
    yield 'Not'
    yield 'Chicago?'
if __name__ == '__main__':
    text = ''.join(sample())
    for part in sample():
        f.write(part)

字符串中插入变量

  • 使用format方法
>>> s = '{name} has {n} messages.'
>>> s.format(name='Guido', n=37)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350

推荐阅读更多精彩内容