突然拿到了用户需求,想起是不是能用次词频的方式来统计用户关注的热点,通过数据客观反应。
想起以前了解过一点的python的一个包jieba分词,苦于不知道怎么把文件作为输入来进行分词,于是又发现了一个好物python-docx,下载尝试果然可用。
pip install python-docx失败
于是在github上下载了python-docx的源码,python setup.py install完成安装lmx依赖包不知什么时候安装成功了
参考链接
官网:https://python-docx.readthedocs.io/en/latest/
github:https://github.com/python-openxml/python-docx
参考:http://blog.csdn.net/qianchenglenger/article/details/51582005
安装完成后尝试读取一个自己写的docx文件
在windows编译环境下注意路径应当用 “/”,linux下还没尝试回头实验下再说。
通过paragraphs获取段落:ps = document.paragraphs
len(ps)获取文档组成部分,因为测试文档简单因此len出来结果只有1
ps[0].text为从word文档里读取出来的文本内容
传递给jieba 进行分词即可。
下一篇实验一篇更加复杂的文档,按段落传送给jieba进行分词,并按段落统计词频
PS: 一个git的在线学习网站,http://pcottle.github.io/learnGitBranching/