引言
在数据分析的过程中我们经常会接触到很多词云图,比起干巴巴的数字频率统计,词云图更能吸引读者的眼球。制作词云的工具有很多,但原理都很简单,今天我就试着利用python制作一张词云图。
分析目的
利用《三体》这部小说的内容制作词云图。
分析过程
1.工具包的导入
使用到的工具是python3.5,需要导入的工具包有jieba,wordcloud以及scipy下用于读取图片的包。
2.文件的读入
我从网上找到了三体三部小说的txt格式,把它们都读入并做去停用词处理,(处理的过程可以参照上一篇推文:如何利用python进行文本相似度分析)处理完成后得到一个list如下图所示。
3.制作词云图
上一步骤所得到的list要先转化为string类型才可以制作词云图,主要应用了Wordcloud这个包,它会自动对其中的词频进行分析并制作出随机的词云图,可以通过font_path导入字体的ttc文件;可以通过background_color设置背景颜色;可以通过max_words设置词云内所允许出现的最大词数,最后用matplotlib就可以把生成的词云显示出来。点击右键保存到本地,一张简单的词云图就诞生啦。
结果解读
词云图的解读不必我多讲,但是细心的读者会发现,最终生成的词云图和推文封面不一样啊?其实Wordcloud方法还可以通过添加mask=?参数设置生成的词云图的样式,操作如下:(红线为新增部分)
按照这个思路,我对三体2和三体3做了同样的分析,得出的结果如下
怎么样?你也快试试用python制作一张专属于你的词云图吧。