登录注册写文章

【python学习手册】02|使用Python提取中文关键词？

【python学习手册】02|使用Python提取中文关键词？

【需求】
小陈同学想知道30篇文档里，出现频次最高的关键词有哪些？
【环境】
Mac python3.6
用Anaconda配置的环境
【开始】
Step1

安装要用到的库：结巴分词

pip install jieba

Step2

终端里输入

jupyter notebook

打开jupyter (用完觉得可以一行一行执行好适合初学者，可以发现哪里有bug，比sublime里写完整体执行再回去找bug要友善
Step3
准备要分析的文本，这时候有个巨坑就是编码问题，之前直接在写，就遇到了编码问题，也不知道怎么解决。
因而，正确的使用中文文本数据方式，是你在Jupyter Notebook里面，新建一个文本文件。

把文本复制进去，修改文件名，按File里的保存，就可以返回上一个菜单。
返回后，同样新建一个python3文件，开始写提取关键词的代码。
用了2种方式提取关键词，个人觉得第二种更准确一些，代码如下：
如果你需要修改关键词数量，就需要指定topK参数。例如你要输出10个关键词，可以这样执行：

for keyword, weight in extract_tags(data, topK=10, withWeight=True):
    print('%s %s' % (keyword, weight))

【参考】
这篇是根据这篇教程做的，感谢分享者，靠谱！

最后编辑于：2018.04.20 12:49:14

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

赞1赞

赞赏

手机看全文