问题与思路
在了解了 Python 可以制作词云图后便想利用它来做点什么,于是便决定将自己和女朋友的聊天记录导出来做一个词云图看看。QQ的聊天记录可以通过消息管理器导出为 .txt
格式,具体的操作不再赘述。本文的分词工具采用的是 jieba
分词。
系统环境说明
本文的实验环境是 Python 3.6.1 |Anaconda 4.4.0 (64-bit),Win10
依赖包
jieba 、wordcloud 、PIL
安装方式
pip install jieba
其它的包也是同样的安装方式,不再赘述。
代码
import jieba
import matplotlib.pyplot as plt
from wordcloud import WordCloud, ImageColorGenerator, random_color_func
import os
import numpy as np
import PIL.Image as Image
import re
with open('聊天记录.txt', encoding="utf8") as fp:
text = fp.read()
text_cleansing = re.sub("((\d){4}-(\d){2}-(\d){2} \d\d:\d\d:\d\d)|\n|[表情]|[图片]|\[|\]", "", text).replace('mmmm*~~', '胡颖').replace('🐷🐷', '胡颖')
jieba.add_word('高正杰') # 将名字加入词典
jieba.add_word('胡颖') # 同上
wordlist_jieba = jieba.cut(text_cleansing, cut_all=True) # 分词
wl_space_split = " ".join(wordlist_jieba)
alice_coloring = np.array(Image.open("wechat2.jpg"))
my_wordcloud = WordCloud(background_color="white", max_words=5000, mask=alice_coloring, max_font_size=60,
font_path='C:\Windows\Fonts\msyhl.ttc').generate(wl_space_split)
image_colors = ImageColorGenerator(alice_coloring)
plt.imshow(my_wordcloud.recolor(color_func=image_colors))
# plt.imshow(my_wordcloud.recolor(color_func=random_color_func))
plt.imshow(my_wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()
效果图
总结
虽然做出了效果,但是总感觉没有别人做的云图好看,关于背景图的选择,前景的字体颜色如何设置,均还有较大的空间值得学习。另外通过云图可以明显看出我平常和女朋友的聊天过程中说 哈哈
的次数真多,不得不说这真是一件幸福的事情!
参考文献
[1] http://www.yeayee.com/article-6655592-1.html 这篇文章对 WordCloud 的每个参数讲解比较细致,推荐仔细阅读。
[2] https://www.jianshu.com/p/e4b24a734ccc 王树义老师的文章,一如既往地详细。