登录注册写文章

文本预处理总结

文本预处理总结

由于工作需要对大量文本进行预处理，需要一套的预处理流程，现对相关知识做笔记：

python正则测试：
最常用的是去掉http之类的url，下面这个很好用

line = re.sub('(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]','',line)

正则知识补充：

表达式	意义
\d=[0-9]	匹配任意数字
\D=[^0-9]	匹配非数字
\s=[\f\n\r\t\v]	匹配空白字符
\w=[A-Za-z0-9_]	匹配包含下划线的任意单词

遗留问题待解决：

怎么匹配两个在一起的字符串

str1 = 'httpfshttpshttphttpwe'
#目的：匹配httpfs或者http,并不能使用http(fs)?

现在查找是使用findall，替换是使用sub，其他的方法都在什么情景下使用，match或者find或者group之类的
断言怎么使用
目前总结的预处理的正则表达式如下

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

python正则表达式详解
#首先，python中的正则表达式大致分为以下几部分：元字符模式函数 re 内置对象用法分组用法环视用法...
mapuboy阅读 5,543评论 0赞 51
Python中的正则表达式(re)
Python中的正则表达式(re) import rere.match #从开始位置开始匹配，如果开头没有则无re...
BigJeffWang阅读 12,008评论 0赞 99

Python正则表达式re模块手册
re模块手册本模块提供了和Perl里的正则表达式类似的功能，不关是正则表达式本身还是被搜索的字符串，都可以...
喜欢吃栗子阅读 9,473评论 0赞 13
“清欢”小栈
๑ 嘿，你好呀！这儿可不是一般的小栈，而是一个特别的小栈，小栈除了我，没有一个人，甚至偶尔我也不是“人”。我...
初时w阅读 3,408评论 0赞 1
晚来风急，那早上呢
冷风一个人吹就好不是每个清晨都要被提醒有些朝阳湮灭了过晚的秋风剩下那些细碎的清凉留给冬天凌冽偷时光的人 ...
要多帅气的昵称呢阅读 1,150评论 0赞 0

赞1赞

赞赏

手机看全文