用WordCloud词云 + LDA主题模型,带你读一读《芳华》(python实现)

何小嫚&刘峰原图.jpg

人物词云效果.jpg

电影《芳华》在春节重映了一波,加上之前的热映,最终取得了14亿票房的好成绩。严歌苓的原著也因此被更多的人细细品读。用文本分析的一些技术肢解小说向来是自然语言处理领域的一大噱头,这次当然也不能放过,本篇达成的成就有:
1、提取两大主角刘峰和何小嫚(萍)的关键词并绘制好看的人物词云;
2、以章节为单位探索小说的主题分布并画图展示。

主要功能包:

jieba
lda
wordcloud
seaborn
安装命令: pip install ***

需要的外部文件:

1、小说全文, 芳华-严歌苓.txt
2、中文停用词,stopwords.txt
3、小说人物名称,person.txt,作为jieba的用户自定义词典
4、两个人物的png图片
5、你喜欢的中文字体的ttf文件,我用的楷体
人物名和停用词文件示例.jpg

一、文本预处理

1、分词,并过滤无意义词

文本挖掘的必备步骤,毕竟理解中文的最小单位是词汇。这里没有使用简单的jieba.cut进行分词,因为我们需要知道单词的词性,便于稍后根据词性过滤不重要的词。

采用jieba.posseg.cut分词可以输出词性。我们并不能拍脑门决定是要动词还是名词等等,词性有非常多个,我把全部分词结果按照词性分好类,看了一下每个词性对应哪些词,最后决定保留词性为["a", "v", "x", "n", "an", "vn", "nz", "nt", "nr"]的词,例如图中,m代表量词,这是对语义没有帮助的词,应该舍弃。


词性示例.jpg
import jieba.posseg
jieba.load_userdict("data/person.txt")
STOP_WORDS = set([w.strip() for w in open("data/stopwords.txt").readlines()])

def cut_words_with_pos(text):
    seg = jieba.posseg.cut(text)
    res = []
    for i in seg:
        if i.flag in ["a", "v", "x", "n", "an", "vn", "nz", "nt", "nr"] and is_fine_word(i.word):
            res.append(i.word)
    return list(res)

# 过滤词长,过滤停用词,只保留中文
def is_fine_word(word, min_length=2):
    rule = re.compile(r"^[\u4e00-\u9fa5]+$")
    if len(word) >= min_length and word not in STOP_WORDS and re.search(rule, word):
        return True
    else:
        return False

2、划分章节

我们按照“第*章”这样的字眼将小说的不同章节分割开来,作为独立的文档,用于之后的主题分析。定义了一个名为MyChapters的生成器,存储每章分好的词汇,是为了避免章节过多带来的一些程序运行问题。其实《芳华》仅有15章,用一个简单的列表也是可以的。

class MyChapters(object):
    def __init__(self, chapter_list):
        self.chapter_list = chapter_list

    def __iter__(self):
        for chapter in self.chapter_list:
            yield cut_words_with_pos(chapter)


def split_by_chapter(filepath):
    text = open(filepath).read()
    chapter_list = re.split(r'第.{1,3}章\n', text)[1:]
    return chapter_list

二、人物关键词提取

要提取人物关键词,首先要解决的问题是,在不借助外部的人物描述(比如百度百科和豆瓣电影上的角色介绍)的情况下,如何确定跟这个人物相关的内容。这里采用的比较简单的策略是,对小说文件中的每一行,如果该人物的名称存在,则将该行加入到此人的相关语料中去。再以此为基础统计词频,结果大致ok,为了人物词云更精确的展示,我将词频输出到了文件,手动删除了一些词,并简单调整了一些词的词频,下图是调整过后的词和词频,左为何小嫚,右为刘峰。

import pandas as pd

def person_word(name):
    lines = open("data/芳华-严歌苓.txt", "r").readlines()
    word_list = []
    for line in lines:
        if name in line:
            words = cut_words_with_pos(line)
            word_list += words

    # 统计词频并按照词频由大到小排序,取top500
    cnt = pd.Series(word_list).value_counts().head(500)

    # 可以把结果输出到文件,进行一些手动调整
    # cnt.to_csv("data/cntliu.csv")

    # 返回字典格式
    return cnt.to_dict()
人物关键词提取结果示例.jpg

三、词云绘制

python有wordcloud包可以用于词云绘制,在使用过程中需要注意:

1、用于定义形状的外部图片必须是png格式,默认纯白色部分为非图像区域;
2、中文词云必须载入一个字体文件;
3、字的颜色可以自己定义,也可以使用图片本身的底色。本例中何小嫚的图片 底色很鲜艳明晰,可以用本身的底色(ImageColorGenerator);而刘峰的图片是单色,且色浅,我使用了自定义颜色(my_color_func);
4、绘制词云需要用到的数据格式为dict,key为词,value为词频,词频越大,在图片中的字体越大。

import matplotlib.pyplot as plt
from wordcloud import WordCloud, ImageColorGenerator
from scipy.misc import imread
from random import choice

# 定义颜色,方法很多,这里用到的方法是在四个颜色中随机抽取
def my_color_func(word, font_size, position, orientation, random_state=None, **kwargs):
    return choice(["rgb(94,38,18)", "rgb(41,36,33)", "rgb(128,128,105)", "rgb(112,128,105)"])

def draw_cloud(mask_path, word_freq, save_path):
    mask = imread(mask_path)  #读取图片
    wc = WordCloud(font_path='data/kaiti.TTF',  # 设置字体
                   background_color="white",  # 背景颜色
                   max_words=500,  # 词云显示的最大词数
                   mask=mask,  # 设置背景图片
                   max_font_size=80,  # 字体最大值
                   random_state=42,
                   )
    # generate_from_frequencies方法,从词频产生词云输入
    wc.generate_from_frequencies(word_freq)

    plt.figure()

    # 刘峰, 采用自定义颜色
    plt.imshow(wc.recolor(color_func=my_color_func), interpolation='bilinear')

    # 何小嫚, 采用图片底色
    # image_colors = ImageColorGenerator(mask)
    # plt.imshow(wc.recolor(color_func=image_colors), interpolation='bilinear')

    plt.axis("off")
    wc.to_file(save_path)
    plt.show()
# 获取关键词及词频
input_freq = person_word("刘峰")
# 经过手动调整过的词频文件,供参考
# freq = pd.read_csv("data/cntliu.csv", header=None, index_col=0)
# input_freq = freq[1].to_dict()
draw_cloud("data/liu.png", input_freq, "output/liufeng.png")

对人物进行抠图,背景设置为纯白,存储为png格式。
为了使形状更鲜明,对小嫚的辫子还有腰的部分做了加白处理,可以对比文章开头原图感受一下。


何小嫚&刘峰用作生成词云的图片.jpg
人物词云效果.jpg

如果你看过这部作品,不知道印象最深的是不是像词云显示的那样?小嫚在精神病院的月下独舞,刘峰对丁丁的深深眷恋,在战争中失去手臂,与不爱的人结婚又离婚,和小嫚以朋友的姿态相伴终老... ...

四、主题分析

lda 方法的原理不做介绍了,假设你设置了这15章讲了k个主题,那么它的输出是:1、每个主题都由哪些词构成,概率几何; 2、每章内容中,k个主题各占多大比例,占比越大,该章内容与该主题越贴切。

1、首先,整理模型输入

lda要求的输入格式为文档-词汇频次矩阵,也就是各词语在个章节中出现了多少次,我们用CountVectorizer可以一步实现。
CountVectorizer要求的输入格式为:["word1 word2", "word3 word4", ...]
即一个章节作为一个完整的字符串,其中的词用空格隔开

from sklearn.feature_extraction.text import CountVectorizer

def get_lda_input(chapters):
    corpus = [" ".join(word_list) for word_list in chapters]
    vectorizer = CountVectorizer()
    X = vectorizer.fit_transform(corpus)
    return X.toarray(), vectorizer

2、训练模型

我们设置主题个数为20个,并打印如下内容:
每个主题打印最能描述该主题的前20个词
每章打印占比最高的前3个主题

def lda_train(weight, vectorizer):
    model = lda.LDA(n_topics=20, n_iter=500, random_state=1)
    model.fit(weight)

    doc_num = len(weight)
    topic_word = model.topic_word_
    vocab = vectorizer.get_feature_names()
    titles = ["第{}章".format(i) for i in range(1, doc_num + 1)]

    n_top_words = 20
    for i, topic_dist in enumerate(topic_word):
        topic_words = np.array(vocab)[np.argsort(topic_dist)][:-(n_top_words + 1):-1]
        print('Topic {}: {}'.format(i, ' '.join(topic_words)))

    doc_topic = model.doc_topic_
    print(doc_topic, type(doc_topic))
    plot_topic(doc_topic)
    for i in range(doc_num):
        print("{} (top topic: {})".format(titles[i], np.argsort(doc_topic[i])[:-4:-1]))
def main():
    chapter_list = split_by_chapter("data/芳华-严歌苓.txt")
    chapters = MyChapters(chapter_list)
    weight, vectorizer = get_lda_input(chapters)
    lda_train(weight, vectorizer)

输出结果:

Topic 0: 小惠 郝淑雯 少俊 好人 啤酒 看着 生意 老板 刘大哥 老战友 发廊 老公 邻居 汽车 背叛 城管 出卖 眼线 惠雅玲 路灯
Topic 1: 年轻 女人 照片 眼睛 想到 生命 跟着 来到 笑笑 院子 回去 房间 好看 军区 结婚 接受 打开 听说 坐在 关系
Topic 2: 刘峰 红苕 老百姓 老太太 红楼 括弧 落后 大娘 打靶 子弹 练功 板凳 榔头 文工团 男孩儿 地板 大胜 打着 剩下 姨太太
Topic 3: 母亲 父亲 女儿 牺牲 善良 名字 前线 丈夫 看着 坏话 干事 生活 触摸 碰到 妻子 家庭 手指尖 继父 脊梁 手指
Topic 4: 丁丁 林丁丁 干事 人格 小林 出卖 恶心 报告 声乐 回答 老师 摄影 库房 对象 演员 男女 喜欢 王老师 组织 权利
Topic 5: 女人 侄子 事儿 女朋友 电话 想象 红楼 手机 回来 地方 公司 酒店 日子 轿车 叔叔 皮包 战友 电梯 化疗 客厅
Topic 6: 丁丁 丈夫 食堂 妹妹 王家 肯定 故事 文工团 条件 函授 机器 笑笑 老板 夫人 工作 老三 姐妹 考试 姨妈 虚荣
Topic 7: 父亲 标兵 女兵 爸爸 父母 茶缸 政治 包裹 招待所 看成 学雷锋 萧穗子 送来 编造 捎来 文件 放进 行李袋 友谊商店 真话
Topic 8: 看着 黑色 眼睛 红色 郝淑雯 故事 学校 怀疑 毛衣 走出 闹钟 帽子 玩儿 老兵 柔软 军帽 起床 热爱 冷水 新兵
Topic 9: 何小嫚 头发 衬衫 演出 感觉 同志 所有人 轻伤 掌上明珠 伤员 分队 小何 潜意识 表演 体温 下放 连队 温度 退回 对话
Topic 10: 小时 跟头 毯子 看着 同屋 同情 小郝 领导 危险 甜饼 自由 炊事班 中提琴手 伙食 邀请 办法 目光 女孩儿 巷子 梆子
Topic 11: 团长 驾驶员 卫生员 骑兵 战士 护士 包扎 士兵 奖品 装病 流传 红蚁 卡车 体温计 服装 舞蹈 温度计 弹药 离开 军马
Topic 12: 护士 服务员 报道 医院 首长 战友 政治部 报纸 天使 住院 只能 剪断 包扎 标语 伏击 妈妈 学习 歌声 迟到 护理员
Topic 13: 母亲 弟弟 继父 女儿 拖油瓶 厅长 毛衣 弄堂 妹妹 绒线衫 高烧 亭子间 跟着 饺子 讨厌 小时 姆妈 虫蛀 卫生 姐姐
Topic 14: 刘峰 郝淑雯 点儿 林丁丁 告诉 女儿 时间 发生 男人 老家 好像 医院 拿出 无耻 等待 所有人 世界 不错 帮忙 不知
Topic 15: 丁丁 沙发 表弟 林丁丁 秘密 萧穗子 排长 胆石 眼睛 参观 吉普 排球场 专注 肌肤 卫生带 脱下 成功 距离 合算 衬衫
Topic 16: 身体 发现 孩子 回到 找到 不知 记得 说话 意识 见到 摇摇头 所有人 漂亮 样子 机会 显得 毛巾 我会 发言 不见
Topic 17: 老师 朱克 头发 郝淑雯 身体 走廊 乳罩 承认 藤椅 卫生员 军帽 撒谎 哨兵 地板 活儿 范儿 男舞者 眼泪 衬衣 海绵
Topic 18: 女兵 男兵 首长 明白 发现 地方 排练 回来 部队 舞蹈 动作 触摸 演出 事件 秘密 军装 生病 舞台 结束 接下去
Topic 19: 刘倩 平凡 追悼会 新兵 堂叔 灵台 操场 小林 灵堂 钥匙 冬青 通知 萨其马 老头儿 烈士陵园 小徐 看望 皮肤 土黄色 成就

下面展示的章节所包括的主题,对照上面相应主题序号的词语,是否能大致判断每章在讲些什么呢。

第1章 (top topic: [ 2 18 16])
第2章 (top topic: [ 7 14 18])
第3章 (top topic: [10 14  7])
第4章 (top topic: [ 4 18 14])
第5章 (top topic: [15 14  1])
第6章 (top topic: [ 4 14 15])
第7章 (top topic: [ 3 14 16])
第8章 (top topic: [13 16  1])
第9章 (top topic: [ 8 13 18])
第10章 (top topic: [17  9 18])
第11章 (top topic: [11  9 18])
第12章 (top topic: [12  1  3])
第13章 (top topic: [ 6 14 18])
第14章 (top topic: [ 0 14  5])
第15章 (top topic: [19 14  1])

3、画图

对于各章节的不同主题的分布,我们可以画个图来展示一下。
利用lda输出的doc_topic画热力图,doc_topic是一个二维数组,值为某主题在某章节的占比,刚刚打印的内容只可以看到每章包括的前三个主题,从下图中则可以看到全部主题在各章的分布情况,参考图例,颜色越深代表占比越大。

def plot_topic(doc_topic):
    f, ax = plt.subplots(figsize=(10, 4))
    cmap = sns.cubehelix_palette(start=1, rot=3, gamma=0.8, as_cmap=True)
    sns.heatmap(doc_topic, cmap=cmap, linewidths=0.05, ax=ax)
    ax.set_title('proportion per topic in every chapter')
    ax.set_xlabel('topic')
    ax.set_ylabel('chapter')
    plt.show()
    f.savefig('output/topic_heatmap.jpg', bbox_inches='tight')
topic_heatmap.jpg

五、结语

中文的自然语言处理技术是一项特别繁杂的工作,需要注意非常多的细节,在分析的过程中,我也花了足够的精力做数据可视化,好看的图不仅可以吸引人的眼球,更可以加深我们对数据的理解。此外,探索一本小说,除了关键词和主题,还有很多别的思路,比如利用pagerank算法自动提取文本摘要,以及利用深度学习的模型自动续写情节... ...期待看到更多相关的作品,enjoy。
完整代码和示例文件:https://github.com/scarlettgin/novel_analysis

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,816评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,729评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,300评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,780评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,890评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,084评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,151评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,912评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,355评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,666评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,809评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,504评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,150评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,121评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,628评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,724评论 2 351

推荐阅读更多精彩内容