使用到的知识点:
- 制作词云的基本步骤和原理
- Python3实现词云制作
- wordcloud扩展包的使用
- 使用图片制作词云,分析十九大的关键词
思路:
词云的原理是对输入的文本数据进行词频统计,根据词汇出现频率的不同,按不同比例显示出词汇,生成图片。频率高的词汇显示的大,频率低的词汇显示的小。文本数据可以是本地数据,也可是是爬虫动态从网络中获取的。
需要安装包:
$ pip install numpy
$ pip install python-matplotlib
$ pip install python-pil
$ pip install wordcloud
实现代码:
from os import path
from wordcloud import WordCloud
import numpy as np
from PIL import Image
from os import path
import matplotlib.pyplot as plt
import random
d = path.dirname(__file__)
# 使用numpy中的mask
mask = np.array(Image.open(path.join(d, "stormtrooper_mask.png")))
# 读取数据来源
text = open(path.join(d, '19meeting.txt')).read()
# 生成词云图片
wordcloud = WordCloud().generate(text)
# 显示生成的图片
wc = WordCloud(max_words=2000, mask=mask, margin=10,
random_state=1).generate(text)
plt.figure()
plt.imshow(wc)
plt.axis("off")
plt.show()
以上代码里面用到了两个文件,一个是词云的原图片(可以看得出来原图片是什么吗?哈哈),一个是十九大报告的原文。
看,是不是秒读 十九大报告。