这部分代码
2.1使用多个界定符分割字符串
你需要一个字符串分隔为多个字符串,但是分隔符意境周围的空格并不是固定的。
String
对象的split()
方法只适用于非常简单的字符串分隔清醒,它并不允许有多个分隔符或者是分隔符周围不确定的空格。当你需要更加灵活的切割字符串的时候,最好使用 re.split()
方法(即正则):
2.2字符串开头或结尾匹配
你需要通过指定的文本模式去检查字符串的开头或者结尾,比如文件名后缀,URL Scheme等等。
检查字符串开头或结尾的一个最简单方法是使用str.startswith()
或str.endswith()
filename = 'spam.txt'
print(filename.endswith('.txt'))
print(filename.startswith('file:'))
url = 'http://www.python.org'
print(url.startswith('http:'))
True
False
True
如果你想检查多种匹配可能,只需要将所有的匹配项放入到一个元组
中去,然后传给startswith
或者endswith()
方法:
import os
filenames = os.listdir('.')
print(filenames)
[print(name) for name in filenames if name.startswith(('day01','tk1'))]
['.idea', 'day01.py', 'day03.py', 'decorator.py', 'net.py', 'singleton.py', 'test.db', 'tk1.py', 'tk2.py', 'tk_entry.py', 'tk_tag.py']
day01.py
tk1.py
注意,('day01','tk1')
是元组的形式
import requests
def read_data(name):
if name.startswith(('http:','https','ftp')):
return requests.get(name).text
else:
with open(name) as f:
return f.read()
print(read_data('day01.py'))
print(read_data('http://www.baidu.com'))
注意:这个方法中需要的是元组作为参数。如果你有一个list
或者set
类型的选择项,要确保传递参数前先调用tuple()
将其转换为元组类型。
2.3用shell通配符匹配字符串
你想使用Unix Shell中常用的通配符,比如*.py
,Dat[0-9]*.csv
等,去匹配文本字符串
fnmatch
模块提供了两个函数 fnmatch()
和fnmatchcase()
,可以用来实现这样的匹配。用法如下:
from fnmatch import fnmatch,fnmatchcase
import os
print(fnmatch('foo.txt','*.txt'))
print(fnmatch('foo.txt','?oo.txt'))
filenames = os.listdir()
print(filenames)
[print(name) for name in filenames if fnmatch(name,'day*.py')]
fnmatch()
函数使用底层操作系统的大小写敏感规则来匹配模式(不同的操作系统,结果不一样)。如果你非常在意这个区别,你可以使用fnmatchcase()
来代替。它完全使用你的模式大小写匹配。
这两个函数在处理非文件名的字符串的时候它们是很有用的。比如你有一个街道地址的列表数据:
addresses = [
'安徽南京',
'安徽北京',
'54安徽天津',
'554安徽深圳',
'安徽广州',
]
from fnmatch import fnmatch,fnmatchcase
[print(name) for name in addresses if fnmatch(name,'安徽*')]
print()
[print(name) for name in addresses if fnmatch(name,'*京')]
print()
[print(name) for name in addresses if fnmatch(name,'5[0-9]安*')]
安徽南京
安徽北京
安徽广州
安徽南京
安徽北京
54安徽天津
fnmatch()
函数匹配能力介于简单的字符串方法和强大的正则表达式之间。如果在数据处理操作中只需要简单的通配符就能完成的时候,这通常是一个比较合理的方案。
如果你的代码需要做文件名的匹配,最好使用glob
模块。
2.4字符串匹配和搜索(关于正则模块待补充
)
如果你想匹配的是字面字符串,那么你通常只需要调用基本字符串方法就行,比如str.find()
,str.endswith()
,str.startswith()
或者类似的方法。
text = 'yeah ,no,ha,no'
print(text.find('no'))
6
2.5字符串搜索和替换
想在字符串中搜索和匹配指定的文本模式.
对于简单的字面模式,直接使用str.replace()
方法即可,
text = '你好 安徽'
text2 = text.replace('安徽','世界')
print(text2)
你好 世界
对于复杂的模式,请使用re
模块中的sub()
函数。比如,你想将形式为7/6/2017
的日期字符串改成2017-7-6
,如下:
text = '今天是7/6/2017,下周一是7/10/2017'
import re
res = re.sub(r'(\d+)/(\d+)/(\d+)',r'\3-\1-\2',text)
print(res)
今天是2017-7-6,下周一是2017-7-10
sub()
函数中的第一个参数是被匹配的模式,第二个参数是替换模式。反斜杠数字比如\3
指向前面模式的捕获组号,分别是1,2,3 现在需要的是 3 1 2
2.6字符串忽略大小写的搜索替换
你需要以忽略大小写的方式搜索与替换文本字符串。
为了在文本操作时忽略大小写,你需要在使用re
模块的时候给这些操作提供re.IGNORECASE
标志参数。例:
text = 'UPPER PYTHON,lower python,Mixed Python'
res = re.findall('python',text,flags=re.IGNORECASE)
print(res)
res2 = re.sub('python','snake',text,flags=re.IGNORECASE)
print(res2)
['PYTHON', 'python', 'Python']
UPPER snake,lower snake,Mixed snake
但是替换的这个例子,替换字符串并不会自动跟匹配字符串的大小保持一致。为了修复这个问题,需要一个如下的辅助函数:
def matchcase(word):
def replace(m):
text = m.group()
if text.isupper():
return word.upper();
elif text.islower():
return word.lower();
elif text[0].isupper():
return word.capitalize()
else:
return word
return replace#将这个函数返回
当调用上述函数的时候
res3 = re.sub('python',matchcase('snake'),text,flags=re.IGNORECASE)
print(res3)
UPPER SNAKE,lower snake,Mixed Snake