Python学习笔记-3群18组-杜杜狼-2017.8.2

Lesson 6 词频统计 - 中文分词

中文分词(Chinese Word Segmentation):将一个汉子序列切分成一个一个单独的词
停用词(Stop Words):数据处理时,需要过滤调某些词或字

  • 泛滥的词,如web, 网站
  • 语气助词,副词,介词,连接词
#分词方法
jieba.cut(content)
#优化分词效果: 增加自定义分词
jieba.add(word)
#优化分词效果: 导入自定义词典
jieba.load_userdict(filePath)

如何找相关领域的词库?

Lesson 7 词频统计-实现

Term frequency 某个词在该文档中出现的次数

分组统计函数
DataFrame.groupby(
by=列名数组
)[统计列名数组].agg({
'统计项名称':统计函数
})

列表包含
DataFrame.Column_name.isin(数组)

取反
df[~df.列名.isin(数组)]

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容