文本预处理总结

由于工作需要对大量文本进行预处理,需要一套的预处理流程,现对相关知识做笔记:

python正则测试:
最常用的是去掉http之类的url,下面这个很好用

line = re.sub('(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]','',line)

正则知识补充:

表达式 意义
\d=[0-9] 匹配任意数字
\D=[^0-9] 匹配非数字
\s=[\f\n\r\t\v] 匹配空白字符
\w=[A-Za-z0-9_] 匹配包含下划线的任意单词

遗留问题待解决:

  • 怎么匹配两个在一起的字符串
str1 = 'httpfshttpshttphttpwe'
#目的:匹配httpfs或者http,并不能使用http(fs)?
  • 现在查找是使用findall,替换是使用sub,其他的方法都在什么情景下使用,match或者find或者group之类的
  • 断言怎么使用
    目前总结的预处理的正则表达式如下

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • #首先,python中的正则表达式大致分为以下几部分: 元字符 模式 函数 re 内置对象用法 分组用法 环视用法...
    mapuboy阅读 1,669评论 0 51
  • Python中的正则表达式(re) import rere.match #从开始位置开始匹配,如果开头没有则无re...
    BigJeffWang阅读 7,230评论 0 99
  • re模块手册 本模块提供了和Perl里的正则表达式类似的功能,不关是正则表达式本身还是被搜索的字符串,都可以...
    喜欢吃栗子阅读 4,087评论 0 13
  • ๑ 嘿,你好呀! 这儿可不是一般的小栈,而是一个特别的小栈,小栈除了我,没有一个人,甚至偶尔我也不是“人”。 我...
    初时w阅读 517评论 0 1
  • 冷风一个人吹就好 不是每个清晨都要被提醒 有些朝阳 湮灭了过晚的秋风 剩下那些细碎的清凉 留给冬天凌冽偷时光的人 ...
    要多帅气的昵称呢阅读 177评论 0 0