背景
最近在研究一些深度学习序列模型,比如RNN和LSTM,这种主要来处理时序数据的神经网络。传统的语言模型主要是通过词袋,多元语法分析,序列预测主要通过概率模型来分析,应用比较多的是隐马尔科夫模型,但是隐马尔科夫模型是通过前一个单词预测下一个单词,这样就会出现记忆力短暂的问题,有时候前一个词和后面的词的关系几乎为0,这个时候就要一个能够记住之前所有的信息,这个时候RNN就出来了,但是RNN是一个很难去训练的一个网络,因为RNN是对当前层的循环,共用参数,会导致梯度消失和梯度爆炸等问题.此时LSTM应运而生,有一个记忆gate,来控制记住历史哪些记忆。好像说了那么多和词云一点关系都没有,其实在训练语言模型的时候需要去表示每一个词,也就是word embedding,词嵌套,也就是把单词转换成向量,变成模型可以识别的内容,当然how to representation是一个大学问,在深度学历里面就有专门一个主题研究 representation learning,因为表示的不够好,那么模型所能够理解和学习的就更少。
好吧,又扯偏了。。。。。在给一篇文章分词的时候会生成很多单词,词云就是有很多词组成的,所以就顺便弄了下。
依赖
- 因为用python画图所以用引用matplotlib库
- 因为要分词所以要引用分词库 这里用中文分词jieba(自称中文最好的分词工具)
- 因为要制作词云所以引用开源词云wordcloud库
- 如果没有意思库的话 自行 pip install 或通过其他方式下载
注意事项
因为wordcloud是国外人开发的词云库,所以默认中文乱码,因此需要引入中文字体
-
WordCloud构造函数可以看到有个字体选项
网上搜索了一下这个地方ttf格式的中文字体可以用
wget http://labfile.oss.aliyuncs.com/courses/756/DroidSansFallbackFull.ttf
实战1
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
import os
//中文字体的路径
path_of_font = os.path.join(os.path.dirname("/Users/heiqie/cloud/"), "DroidSansFallbackFull.ttf")
//需要分词的内容
news = "昨天,伊朗外交部发言人表示,中方在“桑吉”号油船救援过程中已经给予了伊方最大程度配合。但也有消息称,中方在救援中未尽全力。中国外交部发言人陆慷在今天(16日)的例行记者会上表示,事故发生后,中方始终高度重视“桑吉”油船的救援工作,指责中方未尽全力的说法与事实不符。";
wordlist_after_jieba = jieba.cut(news, cut_all = True)
wl_space_split = " ".join(wordlist_after_jieba)
//分词后的内容 构造词云
my_wordcloud = WordCloud(font_path=path_of_font,max_font_size=60).generate(wl_space_split)
plt.imshow(my_wordcloud)
//不显示 x y 轴
plt.axis("off")
plt.show()
实战2
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
import os
path_of_font = os.path.join(os.path.dirname("/Users/heiqie/cloud/"), "DroidSansFallbackFull.ttf")
//从本地文件系统读取内容
text_from_file_with_path = open('/Users/heiqie/cloud/heiqie.txt').read()
wordlist_after_jieba = jieba.cut(text_from_file_with_path, cut_all = True)
wl_space_split = " ".join(wordlist_after_jieba)
my_wordcloud = WordCloud(font_path=path_of_font,max_font_size=60).generate(wl_space_split)
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()