【需求】
小陈同学想知道30篇文档里,出现频次最高的关键词有哪些?
【环境】
Mac python3.6
用Anaconda配置的环境
【开始】
Step1
- 安装要用到的库:结巴分词
pip install jieba
Step2
- 终端里输入
jupyter notebook
- 打开jupyter (用完觉得可以一行一行执行好适合初学者,可以发现哪里有bug,比sublime里写完整体执行再回去找bug要友善
Step3 - 准备要分析的文本,这时候有个巨坑就是编码问题,之前直接在写,就遇到了编码问题,也不知道怎么解决。
- 因而,正确的使用中文文本数据方式,是你在Jupyter Notebook里面,新建一个文本文件。
-
把文本复制进去,修改文件名,按File里的保存,就可以返回上一个菜单。
-
返回后,同样新建一个python3文件,开始写提取关键词的代码。
-
用了2种方式提取关键词,个人觉得第二种更准确一些,代码如下:
- 如果你需要修改关键词数量,就需要指定topK参数。例如你要输出10个关键词,可以这样执行:
for keyword, weight in extract_tags(data, topK=10, withWeight=True):
print('%s %s' % (keyword, weight))
【参考】
这篇是根据这篇教程 做的,感谢分享者,靠谱!