登录注册写文章

08-数据提取-正则表达式

08-数据提取-正则表达式

re模块的常见方法

原始字符串r

匹配中文

re模块的常见方法

re.match()从头找一个
re.search()找一个
re.findal()找所有
返回一个列表，没有就是空表

ret = re.findall("\d","chuan1zhi2")
>>['1', '2']

re.sub()替换

re.sub("\d","_","wu1xuan2")
>>wu_xuan_

re.compile()编译
返回一个模型P，具有和re一样的方法，但是传递的参数不同
匹配模式需要传到compile中

p = re.compile("\d",re.S)
p.findall("chuan1zhi2")

python中原始字符串r的用法

原始字符串(raw string)：保持原先字符串中所有的字符
如：“\n”的原始字符串就是“\\n”

len("\n")
>>1
len(r"\n")
>>2

正则中使用原始字符串r忽略转义符号带来的影响

匹配中文

中文 unicode 编码范围：[u4e00-u9fa5]（不包含中文标点）
注意：汉字和正则表达式都需要是unicode字符操作
【练习】提取中文

# coding:utf-8
import re

title="<p>Look out your window and I`ll be gone</p> <p>看向你的窗外我早已离开</p> <p>You`re the reason I`m traveling on</p> <p>因为你我才四处漂泊</p> "

p = re.findall(r"[\u4E00-\u9FA5]+",title)
print(p)
>>['看向你的窗外我早已离开', '因为你我才四处漂泊']

最后编辑于：2019.03.06 18:39:38

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

Python中的正则表达式(re)
Python中的正则表达式(re) import rere.match #从开始位置开始匹配，如果开头没有则无re...
BigJeffWang阅读 7,624评论 0赞 99
Python正则表达式re模块手册
re模块手册本模块提供了和Perl里的正则表达式类似的功能，不关是正则表达式本身还是被搜索的字符串，都可以...
喜欢吃栗子阅读 4,218评论 0赞 13

Python正则表达式用法详解
搞懂Python 正则表达式用法 Python 正则表达式正则表达式是一个特殊的字符序列，它能帮助你方便的检查一...
厦热阅读 1,806评论 0赞 2
来日无多，毫无用处？
来日无多，便是毫无价值？一个重病老人一位年富力强的精英一堂人生课课本：老人口述地点:老人家中时间：每周...
我是柳如是阅读 543评论 1赞 4
2018-11-27[书影剧评]黑洞
重温旧剧第一、二集龙腾集团是天都市的纳税大户，重点企业，也是代理市长聂大海的儿子聂明宇的摇钱树。龙腾集团不仅涉嫌...
张雷_淄博阅读 3,208评论 0赞 3

友情链接更多精彩内容

赞1赞

赞赏

手机看全文