[Practice] 使用python词云打造一个春

“盼望着,盼望着,东风来了,春天的脚步近了”,惊蛰过后的申城已不再春寒料峭,草长莺飞的日子里,再次看到朱自清先生的《春》,恍然中回到年少的课堂,那些春日的时光真是恣意。

十多年过后再读这篇文章,词藻不算华丽,但每词每句都流露着一个春。今天我就用python将这篇文章中的词语描绘成花朵的样子,愿读这篇文章的你心里也能永住一个春哦。

《春》的词云
1. 提取词语

这里使用了jieba,作为一款比较智能的中文分词组件,我认为普通的文章创建词云使用它足够了。

jieba支持三种分词模式:

  • 精确模式,试图将句子最精确地切开,适合文本分析;
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  
结果:我/ 来到/ 北京/ 清华大学
  • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式
结果:我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
  • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))
结果:小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ,, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

在这里我用了精准(也就是默认)模式对《春》进行了词语提取,效果还不赖。但是还是有些词提取的不准确,比如“山朗润起来了”分词的结果是“山朗润/起来/了”,显然jieba中没有“朗润”这个词,这里我需要将它手动添加进去:

jieba.add_word('朗润')
seg_list = jieba.cut("山朗润起来了", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))

结果变成了“山/朗润/起来/了“,符合预期。

利用jieba,我们将《春》做了分词。但是分词结果中会有很多“无意义”的不希望展示的词,例如:的,都,了,起来等。这里我用了一个txt文档来记录这些无意义的词,并用代码将这些词过滤:

def stopwords_filter(text):
    word_list = []
    with open('stopwords.txt', encoding='utf-8') as f:
        stop_text = f.readlines()
        stop_list = [word.strip() for word in stop_text]
        f.close()
    for word in text:
        if word.strip() not in stop_list:
           word_list.append(word)

    res = ' '.join(word_list)
    return res

进行了过滤的词就都是可以展示的词啦。

2.生成词云

Step 1. 引入WordCloud

from wordcloud import WordCloud

Step 2. 选择遮罩图

from scipy.misc import imread
mask = imread("mask.jpg")

我选了这张:


flower.jpg

Step 3. 设定词云参数

wc = WordCloud(background_color='white',  # 背景色
               max_words=1000,            # 最大显示词数
               colormap='summer',         # 颜色主题
               mask=mask,                 # 词云遮罩
               max_font_size=max_font_size,  # 最大字体大小
               stopwords=STOPWORDS,       # stopwords
               font_path='msyhbd.ttf',    # 字体路径
               random_state=16,           # 排列模式
               )

其中,colormap是wordcloud内置的颜色风格,有168种,我比较喜欢的风格有'summer' 、'PiYG_r'等;这里的STOPWORDS是wordcloud内置的,但对于中文支持并不是很好,所以我们还需要做一次前置的‘过滤’(如上文);font_path设定了字体的路径,这里我用了雅黑的ttf文件,还不赖;排列模式是指每个字在图中出现的位置,这里可以进行多次尝试选择出最喜欢的排列效果。

3.显示图片与保存

使用matplotlib中的pyplot来生成图片,代码如下:

import matplotlib.pyplot as plt

# wc是上述事例化的WordCloud,text是过滤后的词语列表
wc.generate(text)      

plt.imshow(wc)
# 不显示坐标轴
plt.axis('off')

plt.show(wc)
Set2
PiYG_r

这里有个小彩蛋,如果不想使用wordcloud内置的颜色主题而是想根据遮罩颜色来生成图片的话,可以使用recolor重新着色,代码如下:

from wordcloud import ImageColorGenerator
from scipy.misc import imread

# 解析遮罩
mask_color = imread(mask.jpg)
# 获取遮罩颜色
image_colors = ImageColorGenerator(mask_color)
# 重新着色
plt.imshow(wc.recolor(color_func=image_color))

获取的图片是这样的(好吧,遮罩颜色并不如意):


使用遮罩颜色

图片获取后可以通过wordcloud自带的保存图片的to_file来将图片保存至相应文件夹:

wc.to_file('result_file/wc.png')
备注:

word_cloud的168种colormap如下:

'Accent', 'Accent_r', 'Blues', 'Blues_r', 'BrBG', 'BrBG_r', 'BuGn', 'BuGn_r', 'BuPu', 'BuPu_r', 'CMRmap',
'CMRmap_r', 'Dark2', 'Dark2_r', 'GnBu', 'GnBu_r', 'Greens', 'Greens_r', 'Greys', 'Greys_r', 'OrRd',
'OrRd_r', 'Oranges', 'Oranges_r', 'PRGn', 'PRGn_r', 'Paired', 'Paired_r', 'Pastel1', 'Pastel1_r',
'Pastel2', 'Pastel2_r', 'PiYG', 'PiYG_r', 'PuBu', 'PuBuGn', 'PuBuGn_r', 'PuBu_r', 'PuOr', 'PuOr_r', 'PuRd',
'Purples', 'Purples_r', 'RdBu', 'RdBu_r', 'RdGy', 'RdGy_r', 'RdPu', 'RdPu_r', 'RdYlBu', 'RdYlBu_r',
'RdYlGn', 'RdYlGn_r', 'Reds', 'Reds_r', 'Set1', 'Set1_r', 'Set2', 'Set2_r', 'Set3', 'Set3_r', 'Spectral',
'Spectral_r', 'Vega10', 'Vega10_r', 'Vega20', 'Vega20_r', 'Vega20b', 'Vega20b_r', 'Vega20c', 'Vega20c_r',
'Wistia', 'Wistia_r', 'YlGn', 'YlGnBu', 'YlGnBu_r', 'YlGn_r', 'YlOrBr', 'YlOrBr_r', 'YlOrRd', 'YlOrRd_r',
'afmhot', 'afmhot_r', 'autumn', 'autumn_r', 'binary', 'binary_r', 'bone', 'bone_r', 'brg', 'brg_r', 'bwr',
'bwr_r', 'cool', 'cool_r', 'coolwarm', 'coolwarm_r', 'copper', 'copper_r', 'cubehelix', 'cubehelix_r',
'flag', 'flag_r', 'gist_earth', 'gist_earth_r', 'gist_gray', 'gist_gray_r', 'gist_heat', 'gist_heat_r',
'gist_ncar', 'gist_ncar_r', 'gist_rainbow', 'gist_rainbow_r', 'gist_stern', 'gist_stern_r', 'gist_yarg',
'gist_yarg_r', 'gnuplot', 'gnuplot2', 'gnuplot2_r', 'gnuplot_r', 'gray', 'gray_r', 'hot', 'hot_r', 'hsv',
'hsv_r', 'inferno', 'inferno_r', 'jet', 'jet_r', 'magma', 'magma_r', 'nipy_spectral', 'nipy_spectral_r',
'ocean', 'ocean_r', 'pink', 'pink_r', 'plasma', 'plasma_r', 'prism', 'prism_r', 'rainbow', 'rainbow_r',
'seismic', 'seismic_r', 'spectral', 'spectral_r', 'spring', 'spring_r', 'summer', 'summer_r', 'tab10',
'tab10_r', 'tab20', 'tab20_r', 'tab20b', 'tab20b_r', 'tab20c', 'tab20c_r', 'terrain', 'terrain_r',
           'viridis', 'viridis_r', 'winter', 'winter_r', 'PuRd_r'
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容

  • 注:参考文档 一、在线词云图工具# (1)、使用### 在正式使用jieba分词之前,首先尝试用在线分词工具来将自...
    DearIreneLi阅读 6,035评论 1 8
  • 一:前言 上次把斗鱼弹幕数据抓取搞定后,我就拿来试试用词云分析看看效果,简单学习一下。这是弹幕抓拍去分析的对象是斗...
    梅花鹿数据阅读 2,809评论 3 19
  • 匆忙地看过电影,没看过小说。 本文分析感情小说《从你的全世界路过》.txt,想要达到以下几点效果: 有哪些小说人物...
    __Cool阅读 2,503评论 0 1
  • 北京真是大的,坐了好久的车才被运到住处,落了脚就瘫成泥一般,铺在床上。身疲可心活得很!姐姐一面帮忙理着衣物...
    余承谊阅读 143评论 0 0
  • 今天是中国年2017年最后一天了,有人一家团聚其乐融融,有人还在旅途中奔忙,有人还坚守在工作岗位,也有人还在无奈的...
    沧海一粟随遇而安阅读 184评论 0 1