python 食谱-day03

这部分代码

2.1使用多个界定符分割字符串

你需要一个字符串分隔为多个字符串,但是分隔符意境周围的空格并不是固定的。
  String对象的split()方法只适用于非常简单的字符串分隔清醒,它并不允许有多个分隔符或者是分隔符周围不确定的空格。当你需要更加灵活的切割字符串的时候,最好使用 re.split()方法(即正则):

2.2字符串开头或结尾匹配

你需要通过指定的文本模式去检查字符串的开头或者结尾,比如文件名后缀,URL Scheme等等。
  检查字符串开头或结尾的一个最简单方法是使用str.startswith()str.endswith()

filename = 'spam.txt'
print(filename.endswith('.txt'))
print(filename.startswith('file:'))
url = 'http://www.python.org'
print(url.startswith('http:'))

True
False
True

如果你想检查多种匹配可能,只需要将所有的匹配项放入到一个元组中去,然后传给startswith或者endswith()方法:

import os
filenames = os.listdir('.')
print(filenames)
[print(name) for name in filenames if name.startswith(('day01','tk1'))]

['.idea', 'day01.py', 'day03.py', 'decorator.py', 'net.py', 'singleton.py', 'test.db', 'tk1.py', 'tk2.py', 'tk_entry.py', 'tk_tag.py']
day01.py
tk1.py

注意,('day01','tk1')是元组的形式

import requests

def read_data(name):
    if name.startswith(('http:','https','ftp')):
        return requests.get(name).text
    else:
        with open(name) as f:
            return f.read()

print(read_data('day01.py'))
print(read_data('http://www.baidu.com'))

注意:这个方法中需要的是元组作为参数。如果你有一个list或者set类型的选择项,要确保传递参数前先调用tuple()将其转换为元组类型。

2.3用shell通配符匹配字符串

你想使用Unix Shell中常用的通配符,比如*.py,Dat[0-9]*.csv等,去匹配文本字符串
  fnmatch模块提供了两个函数 fnmatch()fnmatchcase(),可以用来实现这样的匹配。用法如下:

from fnmatch import fnmatch,fnmatchcase
import os

print(fnmatch('foo.txt','*.txt'))
print(fnmatch('foo.txt','?oo.txt'))
filenames = os.listdir()
print(filenames)
[print(name) for name in filenames if fnmatch(name,'day*.py')]

fnmatch()函数使用底层操作系统的大小写敏感规则来匹配模式(不同的操作系统,结果不一样)。如果你非常在意这个区别,你可以使用fnmatchcase()来代替。它完全使用你的模式大小写匹配。

这两个函数在处理非文件名的字符串的时候它们是很有用的。比如你有一个街道地址的列表数据:

addresses = [
    '安徽南京',
    '安徽北京',
    '54安徽天津',
    '554安徽深圳',
    '安徽广州',
]

from fnmatch import fnmatch,fnmatchcase

[print(name) for name in addresses if fnmatch(name,'安徽*')]
print()
[print(name) for name in addresses if fnmatch(name,'*京')]
print()
[print(name) for name in addresses if fnmatch(name,'5[0-9]安*')]

安徽南京
安徽北京
安徽广州

安徽南京
安徽北京

54安徽天津

fnmatch()函数匹配能力介于简单的字符串方法和强大的正则表达式之间。如果在数据处理操作中只需要简单的通配符就能完成的时候,这通常是一个比较合理的方案。
如果你的代码需要做文件名的匹配,最好使用glob模块。

2.4字符串匹配和搜索(关于正则模块待补充)

如果你想匹配的是字面字符串,那么你通常只需要调用基本字符串方法就行,比如str.find(),str.endswith(),str.startswith()或者类似的方法。

text = 'yeah ,no,ha,no'
print(text.find('no'))

6

2.5字符串搜索和替换

想在字符串中搜索和匹配指定的文本模式.
  对于简单的字面模式,直接使用str.replace()方法即可,

text = '你好 安徽'
text2 = text.replace('安徽','世界')
print(text2)

你好 世界

对于复杂的模式,请使用re模块中的sub()函数。比如,你想将形式为7/6/2017的日期字符串改成2017-7-6,如下:

text = '今天是7/6/2017,下周一是7/10/2017'
import re
res = re.sub(r'(\d+)/(\d+)/(\d+)',r'\3-\1-\2',text)
print(res)

今天是2017-7-6,下周一是2017-7-10

sub()函数中的第一个参数是被匹配的模式,第二个参数是替换模式。反斜杠数字比如\3指向前面模式的捕获组号,分别是1,2,3 现在需要的是 3 1 2

2.6字符串忽略大小写的搜索替换

你需要以忽略大小写的方式搜索与替换文本字符串。
为了在文本操作时忽略大小写,你需要在使用re模块的时候给这些操作提供re.IGNORECASE标志参数。例:

text = 'UPPER PYTHON,lower python,Mixed Python'
res = re.findall('python',text,flags=re.IGNORECASE)
print(res)
res2 = re.sub('python','snake',text,flags=re.IGNORECASE)
print(res2)

['PYTHON', 'python', 'Python']
UPPER snake,lower snake,Mixed snake

但是替换的这个例子,替换字符串并不会自动跟匹配字符串的大小保持一致。为了修复这个问题,需要一个如下的辅助函数:

def matchcase(word):
    def replace(m):
        text = m.group()
        if text.isupper():
            return word.upper();
        elif text.islower():
            return word.lower();
        elif text[0].isupper():
            return word.capitalize()
        else:
            return word
    return replace#将这个函数返回

当调用上述函数的时候

res3 = re.sub('python',matchcase('snake'),text,flags=re.IGNORECASE)
print(res3)

UPPER SNAKE,lower snake,Mixed Snake

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容