python处理文字


突然拿到了用户需求,想起是不是能用次词频的方式来统计用户关注的热点,通过数据客观反应。

想起以前了解过一点的python的一个包jieba分词,苦于不知道怎么把文件作为输入来进行分词,于是又发现了一个好物python-docx,下载尝试果然可用。

pip install python-docx失败

于是在github上下载了python-docx的源码,python setup.py install完成安装lmx依赖包不知什么时候安装成功了

参考链接

官网:https://python-docx.readthedocs.io/en/latest/

github:https://github.com/python-openxml/python-docx

参考:http://blog.csdn.net/qianchenglenger/article/details/51582005

安装完成后尝试读取一个自己写的docx文件

在windows编译环境下注意路径应当用 “/”,linux下还没尝试回头实验下再说。

通过paragraphs获取段落:ps = document.paragraphs

len(ps)获取文档组成部分,因为测试文档简单因此len出来结果只有1

ps[0].text为从word文档里读取出来的文本内容

传递给jieba 进行分词即可。

下一篇实验一篇更加复杂的文档,按段落传送给jieba进行分词,并按段落统计词频


PS:  一个git的在线学习网站,http://pcottle.github.io/learnGitBranching/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容