安装
pip install wordcloud-1.3.1-cp35-cp35m-win_amd64.whl
数据
词云分析的对象,是文本。理论上讲,文本可以是各种语言的,英文、中文、法文等。为了简便,我们这里以英文文本为例。你可以随意到网上找一篇英文文章作为分析对象。我特别喜欢英剧"Yes, minister",所以到维基百科上找到了这部剧的介绍词条。
把其中的正文文字部分拷贝了下来,存储为一个文本文件,叫做yes-minister.txt。把这个文件挪动到我们的工作目录里。好了,文本数据已经准备好了。开始进入编程的魔幻世界吧!
代码
回到Jupyter笔记本的主页面。我们点击New按钮,新建一个笔记本(Notebook)。系统会提示我们输入Notebook的名称。程序代码文件的名称,你可以随便起。但是我建议你起一个有意义的名字,将来好方便查找。由于我们要尝试词云,就叫它wordcloud好了。
filename = "yes-minister.txt"
with open(filename) as f:
mytext = f.read()
呼唤(import)词云包,利用mytext中存储的文本内容来制造词云。
from wordcloud import WordCloud
wordcloud = WordCloud().generate(mytext)
%pylab inline
import matplotlib.pyplot as plt
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
通过这张词云图,我们可以看到不同单词和词组出现的频率高低差别。高频词的字体明显更大,而且颜色也很醒目。值得说明的是,最显眼的单词Hacker并不是指黑客,而是指这部剧的主角之一——哈克首相。
还有很多炫酷的图标等我们去开发
备注:Python包下载 - wordcloud-1.3.1-cp35-cp35m-win_amd64.whl