登录注册写文章

python处理文字

python处理文字

突然拿到了用户需求，想起是不是能用次词频的方式来统计用户关注的热点，通过数据客观反应。

想起以前了解过一点的python的一个包jieba分词，苦于不知道怎么把文件作为输入来进行分词，于是又发现了一个好物python-docx，下载尝试果然可用。

pip install python-docx失败

于是在github上下载了python-docx的源码，python setup.py install完成安装lmx依赖包不知什么时候安装成功了

参考链接

官网：https://python-docx.readthedocs.io/en/latest/

github：https://github.com/python-openxml/python-docx

参考：http://blog.csdn.net/qianchenglenger/article/details/51582005

安装完成后尝试读取一个自己写的docx文件

在windows编译环境下注意路径应当用 “/”，linux下还没尝试回头实验下再说。

通过paragraphs获取段落：ps = document.paragraphs

len(ps)获取文档组成部分，因为测试文档简单因此len出来结果只有1

ps[0].text为从word文档里读取出来的文本内容

传递给jieba 进行分词即可。

下一篇实验一篇更加复杂的文档，按段落传送给jieba进行分词，并按段落统计词频

PS: 一个git的在线学习网站，http://pcottle.github.io/learnGitBranching/

最后编辑于：2017.12.10 01:19:01

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Python--Flask Django等常用库总结
# Python 资源大全中文版我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
aimaile阅读 26,597评论 6赞 427
Python 网页爬虫、文本处理科学、计算机器学习、数据挖掘兵器谱
Python 网页爬虫、文本处理科学、计算机器学习、数据挖掘兵器谱 1.本文介绍几种Python网页爬虫工具集...
hzyido阅读 68,834评论 2赞 157
Python 资源大全中文版
GitHub 上有一个 Awesome - XXX 系列的资源整理,资源非常丰富，涉及面非常广。awesome-p...
若与阅读 18,791评论 4赞 418
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
为了自己以后应用的方便，于是将这篇文章转载到这里。Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习...
tianmh阅读 65,559评论 0赞 64
《做一个刚刚好的女子》读后感-002
（不必羡慕那些过得比你精彩自由的人），我也会偶尔羡慕别人爱情甜蜜，婚姻幸福，但，我单身我自由我随时随心可以做自己自...
大女人小女人阅读 1,293评论 0赞 1

赞1赞

赞赏

手机看全文