在python3中你是如何处理字符串的?也许有你用的到的(一)

文本和字符串(一)


更新信息
2018-11-19 更新 re.split()


分割

split
通过 URL 地址,得到主机名和域名

In [41]: url = 'www.sharkyun.com'

In [42]: host, domain = url.split('.', 1)

In [43]: host
Out[43]: 'www'

In [44]: domain
Out[44]: 'sharkyun.com'

把下面的模块路径分隔开来,分别得到包和模块名

# 下面是目录结构
mod
└── plugins
    └── cpu.py

cpu.py 中有一个类

class CPU:
    def __init__(self):
        pass

我们可以这样分隔它

plugin_path = 'mod.plugins.cpu'

mod_path, cls_name = plugin.rsplit('.', 1)

输出

In [59]: mod_path
Out[59]: 'mod.plugins'

In [60]: cls_name
Out[60]: 'cpu'

也许你会遇到更为复杂的情况, 如:

In [1]: s = 'hello xiguatian;  vars, id,def, foo'

想得到所于的英文字符,之用字符串的 split() 方法是不够的,正确的是使用 re.split()

In [2]: import re

In [3]: re.split(r'[\s;,]+', s)
Out[3]: ['hello', 'xiguatian', 'vars', 'id', 'def', 'foo']

用Shell通配符匹配字符串

如何利用 shell 里的通配符去匹配字符串,比如用 *.log 去匹配 access.log 等。
fnmatch 模块提供了两个函数—— fnmatch()fnmatchcase() ,可以用来实现这样的匹配。
用法如下:

In [3]: fnmatch('cpu.py', '*.py')
Out[3]: True

In [4]: fnmatch('cpu.py', '?pu.py')
Out[4]: True

In [5]: fnmatch('data10.py', 'data[0-9][0-9].py')
Out[5]: True

fnmatch() 函数在类 linux 平台中是区分大小写的,而在 Windows 下是不区分的.

# On OS X (Mac)
In [6]: ffnmatch('foo.txt', '*.TXT')
Out[6]: False
# On Windows
In [7]: ffnmatch('foo.txt', '*.TXT')
Out[7]: True

fnmatchcase() 函数可以绝对的区分大小写

In [14]: fnmatchcase('foo.txt', '*.TXT')
Out[14]: False

注意:上面的第一个参数,对于这两个函数只是字符串而已,python 不会判断是否是文件名。所以你若是相对文件名做匹配,请使用 glob 模块。

假如有如下大学信息

star_rating = [
    "北京大学 8星级",
    "清华大学 8星级",
    "中国人民大学 8星级",
    "北京师范大学 6星级",
    "北京航空航天大学 6星级",
    "北京理工大学 5星级",
    "中国农业大学 6星级",
    "北京交通大学 4星级",
    "北京科技大学 4星级",
    "北京协和医学院 6星级"
]

找到 6 到 8 星级的大学

university = [star for star in star_rating if fnmatchcase(star, '*[6-8]星级') ]

print(university)

输出结果

['北京大学 8星级', 
 '清华大学 8星级', 
'中国人民大学 8星级',
 '北京师范大学 6星级', 
'北京航空航天大学 6星级',
 '中国农业大学 6星级', 
'北京协和医学院 6星级'
]

搜索替换

replace()

s = "shark www.sharkyun.com"

# 把 shark 换成 xiguatian
s = s.replace('shark', 'xiguatian')

输入结果

print(s)
xiguatian www.xiguatianyun.com

当然,事情往往不总是都是那么多称心如意。比如:
将形式为 11/16/2018 的日期字符串改成 2018-11-16
这时候,就要使用杀手锏正则模块 re
re 模块中的 sub() 函数可以为我们办的。代码如下:

import re

text = 'Today is 11/16/2018.'

re.sub(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text)

输出结果

'Today is 2018-11-16.'

\1 \2 \3 是对前面小括号内模式的匹配结果的都捕获,就是分组。

如果有个正则的模式可能需要多次使用,那就要考虑先编译它来提升性能。

import re

datepat = re.compile(r'(\d+)/(\d+)/(\d+)')
datepat.sub(r'\3-\1-\2', text)

假如,想知道有多少替换发生了,可以使用 re.subn() 来代替。比如:

In [31]: text = 'Today is 11/16/2018.'

In [32]: new_text, n = re.subn(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text)

In [33]: new_text
Out[33]: 'Today is 2018-11-16.'

In [34]: n
Out[34]: 1

更加复杂的替换需求:把其中的月份 11 改为 Nov
预备知识:

In [47]: from calendar import month_abbr

In [48]: month_abbr[1]
Out[48]: 'Jan'

In [49]: month_abbr[11]
Out[49]: 'Nov'

month_abbr 是一个可被迭代对对象,里面存放了 12 个月份的英文3个字母的缩写, 第一个位置为空的字符串 '', 我们可以通过索引号1-12进行分别取值。

开始正题:
更加复杂的替换,可以传递一个替换回调函数给 sub() 函数。

import re
from calendar import month_abbr

text = 'Today is 11/16/2018.'

def change_date(m):
    mon_name = month_abbr[int(m.group(1))]
    return '{} {} {}'.format(m.group(2), mon_name, m.group(3))

new_text = re.sub(r'(\d+)/(\d+)/(\d+)', change_date, text)

输出结果

print(new_text)
Today is 16 Nov 2018.

替换回调函数的参数是一个 match 对象,也就是 match()返回的对象。
这里我接着使用 group() 方法来提取特定的匹配部分。
回调函数最后返回替换后的字符串。

欢迎购买我的基础全套视频微我 y86000153优惠100 点我

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,875评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,569评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,475评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,459评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,537评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,563评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,580评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,326评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,773评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,086评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,252评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,921评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,566评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,190评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,435评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,129评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,125评论 2 352

推荐阅读更多精彩内容