预处理

stopwords = nltk.corpus.stopwords.words("english")
eng_stopwords = set(stopwords)
def clean_text(text):
    text = BeautifulSoup(text, 'html.parser').get_text()
    text = re.sub(r'[^a-zA-Z]', ' ', text)
    words = text.lower().split()
    words = [w for w in words if w not in eng_stopwords]
    return ' '.join(words)

最后编辑于：2017.12.10 02:34:54

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

PHP中MySQL的预处理(预编译)执行方式
MySQL的预编译是指在创建数据库对象时就将指定的SQL语句编译完成，这时SQL语句已经被MySQL解析、审查，所...
kangyiii阅读 3,287评论 0赞 3
在Xcode 查看预处理及预编译阶段“宏”Marcos
本文摘自ReactiveCocoa 中奇妙无比的“宏”魔法对于编译语言来说，所有的宏都是在预编译的时候被展开的，...
Jacob_LJ阅读 5,215评论 0赞 2

(大)数据处理：从txt到MySql的数据预处理迁徙
Python 2.7IDE Pycharm 5.0.3MySQL 5.7MySQL Workbench 6.3 前...
mrlevo520阅读 1,236评论 1赞 8
使用Aspect来对访问方法进行预处理和后处理
例子摘自李刚老师的《JavaEE企业应用实战（第四版）》661页使用aspect中的@Around、@Befor...
Slience无言阅读 6,334评论 0赞 0
[css]后处理器vs预处理器
专有名词 css AST css 抽象语法树(abstract-syntax-tree) 。An AST is u...
清水芦苇阅读 546评论 0赞 0

友情链接更多精彩内容

赞1赞

赞赏

手机看全文