登录注册写文章

Python分词、词云

家琦的三亩地

Python分词、词云

使用Python的结巴分词，但是排除一些词的代码好像运行没生效，可能是dataframe里面的一些方法没掌握，用了R处理这种类型的统计数据，感觉比Python方便些。

# -*- coding: utf-8 -*-
import jieba
import numpy
import pandas
# 解决编码
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
# 没问题何以删掉
# 打开语料文件，获取文本
my_file =open('bt.txt', 'r') 
content = my_file.read()
my_file.close()
# 分词
segments = []
segs = jieba.cut(content, cut_all=False) # 使用精确模式
for seg in segs:
    if len(seg)>1:
        segments.append(seg)
segmentDF = pandas.DataFrame({'segment':segments})
segStat = segmentDF.groupby(
by=["segment"]
)["segment"].agg({
"num":numpy.size
}).reset_index().sort(
columns=["num"],
ascending=False
);

result = segStat.head(500)
segStat.to_csv('result2.csv', sep='\t')

print result
wordcloud = WordCloud(
font_path='D:\\simhei.ttf',
background_color="black",
width=800,height=400
)
wordcloud = wordcloud.fit_words(segStat.head(1000).itertuples(index=False))
wordcloud.to_file('filename4.jpg')

最后编辑于：2017.12.04 07:57:57

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Python分词模块jieba (01)-jieba安装，分词，提取关键词，自定义分词，切换词库讲解
分词模块jieba，说话结巴的jieba。它是python比较好用的分词模块, 支持中文简体，繁体分词，还支持自定...
HiWoo阅读 8,534评论 4赞 9
Python分词模块01: jieba安装，分词，提取关键词，自定义分词，切换词库
讲python的pypinyin的时候，我提到了分词模块jieba，说话结巴的jieba。它是python比较好用...
HiWoo阅读 4,148评论 0赞 10
Python 分词工具 jieba
目录 1.jieba下载安装 2.算法实现 3.分词功能 1.jieba下载安装 Jieba是一个中文分词组件，...
云上小白鸽阅读 4,478评论 0赞 2
如何学习python？python该怎么学？如何高效率学习python？python的学习资料和网站
作为新人，对于如何学好PYTHON也是一头雾雨，也很想能得到别人的帮助。今天看到这篇文章，感觉学习起来有了一个方向...
资料库大师阅读 1,033评论 1赞 4
第第二十六周电影《小孩》
卓别林大师的又一部无声电影，走投无路的女人将孩子抛弃在富人家门口的车里，车却被小偷偷走，孩子被抛弃在贫民窟，被卓别...
只一点阅读 374评论 0赞 0

1赞2赞

赞赏

手机看全文