python 食谱-day03

这部分代码

2.1使用多个界定符分割字符串

你需要一个字符串分隔为多个字符串，但是分隔符意境周围的空格并不是固定的。
String对象的split()方法只适用于非常简单的字符串分隔清醒，它并不允许有多个分隔符或者是分隔符周围不确定的空格。当你需要更加灵活的切割字符串的时候，最好使用 re.split()方法(即正则)：

2.2字符串开头或结尾匹配

你需要通过指定的文本模式去检查字符串的开头或者结尾，比如文件名后缀，URL Scheme等等。
检查字符串开头或结尾的一个最简单方法是使用str.startswith()或str.endswith()

filename = 'spam.txt'
print(filename.endswith('.txt'))
print(filename.startswith('file:'))
url = 'http://www.python.org'
print(url.startswith('http:'))

True
False
True

如果你想检查多种匹配可能，只需要将所有的匹配项放入到一个元组中去，然后传给startswith或者endswith()方法：

import os
filenames = os.listdir('.')
print(filenames)
[print(name) for name in filenames if name.startswith(('day01','tk1'))]

['.idea', 'day01.py', 'day03.py', 'decorator.py', 'net.py', 'singleton.py', 'test.db', 'tk1.py', 'tk2.py', 'tk_entry.py', 'tk_tag.py']
day01.py
tk1.py

注意，('day01','tk1')是元组的形式

import requests

def read_data(name):
    if name.startswith(('http:','https','ftp')):
        return requests.get(name).text
    else:
        with open(name) as f:
            return f.read()

print(read_data('day01.py'))
print(read_data('http://www.baidu.com'))

注意：这个方法中需要的是元组作为参数。如果你有一个list或者set类型的选择项，要确保传递参数前先调用tuple()将其转换为元组类型。

2.3用shell通配符匹配字符串

你想使用Unix Shell中常用的通配符，比如*.py,Dat[0-9]*.csv等，去匹配文本字符串
fnmatch模块提供了两个函数 fnmatch()和fnmatchcase(),可以用来实现这样的匹配。用法如下：

from fnmatch import fnmatch,fnmatchcase
import os

print(fnmatch('foo.txt','*.txt'))
print(fnmatch('foo.txt','?oo.txt'))
filenames = os.listdir()
print(filenames)
[print(name) for name in filenames if fnmatch(name,'day*.py')]

fnmatch()函数使用底层操作系统的大小写敏感规则来匹配模式(不同的操作系统，结果不一样)。如果你非常在意这个区别，你可以使用fnmatchcase()来代替。它完全使用你的模式大小写匹配。

这两个函数在处理非文件名的字符串的时候它们是很有用的。比如你有一个街道地址的列表数据：

addresses = [
    '安徽南京',
    '安徽北京',
    '54安徽天津',
    '554安徽深圳',
    '安徽广州',
]

from fnmatch import fnmatch,fnmatchcase

[print(name) for name in addresses if fnmatch(name,'安徽*')]
print()
[print(name) for name in addresses if fnmatch(name,'*京')]
print()
[print(name) for name in addresses if fnmatch(name,'5[0-9]安*')]

安徽南京
安徽北京
安徽广州

安徽南京
安徽北京

54安徽天津

fnmatch()函数匹配能力介于简单的字符串方法和强大的正则表达式之间。如果在数据处理操作中只需要简单的通配符就能完成的时候，这通常是一个比较合理的方案。
如果你的代码需要做文件名的匹配，最好使用glob模块。

2.4字符串匹配和搜索(`关于正则模块待补充`)

如果你想匹配的是字面字符串，那么你通常只需要调用基本字符串方法就行，比如str.find(),str.endswith(),str.startswith()或者类似的方法。

text = 'yeah ,no,ha,no'
print(text.find('no'))

6

2.5字符串搜索和替换

想在字符串中搜索和匹配指定的文本模式.
对于简单的字面模式，直接使用str.replace()方法即可，

text = '你好 安徽'
text2 = text.replace('安徽','世界')
print(text2)

你好世界

对于复杂的模式，请使用re模块中的sub()函数。比如，你想将形式为7/6/2017的日期字符串改成2017-7-6,如下：

text = '今天是7/6/2017，下周一是7/10/2017'
import re
res = re.sub(r'(\d+)/(\d+)/(\d+)',r'\3-\1-\2',text)
print(res)

今天是2017-7-6，下周一是2017-7-10

sub()函数中的第一个参数是被匹配的模式，第二个参数是替换模式。反斜杠数字比如\3指向前面模式的捕获组号，分别是1，2，3 现在需要的是 3 1 2

2.6字符串忽略大小写的搜索替换

你需要以忽略大小写的方式搜索与替换文本字符串。
为了在文本操作时忽略大小写，你需要在使用re模块的时候给这些操作提供re.IGNORECASE标志参数。例：

text = 'UPPER PYTHON,lower python,Mixed Python'
res = re.findall('python',text,flags=re.IGNORECASE)
print(res)
res2 = re.sub('python','snake',text,flags=re.IGNORECASE)
print(res2)

['PYTHON', 'python', 'Python']
UPPER snake,lower snake,Mixed snake

但是替换的这个例子，替换字符串并不会自动跟匹配字符串的大小保持一致。为了修复这个问题，需要一个如下的辅助函数:

def matchcase(word):
    def replace(m):
        text = m.group()
        if text.isupper():
            return word.upper();
        elif text.islower():
            return word.lower();
        elif text[0].isupper():
            return word.capitalize()
        else:
            return word
    return replace#将这个函数返回

当调用上述函数的时候

res3 = re.sub('python',matchcase('snake'),text,flags=re.IGNORECASE)
print(res3)

UPPER SNAKE,lower snake,Mixed Snake