Python学习笔记-3群18组-杜杜狼-2017.8.2

Lesson 6 词频统计 - 中文分词

中文分词（Chinese Word Segmentation）：将一个汉子序列切分成一个一个单独的词
停用词(Stop Words)：数据处理时，需要过滤调某些词或字

#分词方法
jieba.cut(content)
#优化分词效果: 增加自定义分词
jieba.add(word)
#优化分词效果: 导入自定义词典
jieba.load_userdict(filePath)

如何找相关领域的词库？

Term frequency 某个词在该文档中出现的次数

分组统计函数
DataFrame.groupby(
by=列名数组
)[统计列名数组].agg({
'统计项名称'：统计函数
})

列表包含
DataFrame.Column_name.isin(数组)

取反
df[~df.列名.isin(数组)]

最后编辑于：2017.12.09 16:49:08

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

赞1赞

赞赏

手机看全文