使用NLP工具分析毛选

最近拜读了毛选,使用一些包装好的NLP工具分析了一下毛选,并写出了一些分析结果。代码是公开的,放在自己的github上了,请点击 maoxuan_analyse

  • 本项目使用了如下工具
  1. jieba分词
  2. wordcloud词云
  3. SNOWNLP
  4. word2vec
  • 数据来源

MaoZeDongAnthology

词云

  1. 根据目录,将原始文本按照不同时期分到不同的文件夹下,这里分了5个文件夹,对应原始的5本纸质书。最后一本纸质书市场上不买了,但是网上还是有资源的。目录包括 国内革命战争时期、抗日战争时期上、抗日战争时期下、第三次国内革命战争时期、中国人民站起来了。

  2. 读取每个时期的所有文本到内存中,用一个类来保存一个文本,类的定义为文章的模型.

   class Article:
       def __init__(self, title, write_time, background, content, annotation):
           # 标题
            self.title = title
           # 创作时间
            self.write_time = write_time
           # 背景
            self.background = background
           # 内容
            self.content = content
           # 注释
            self.annotation = annotation
  1. 使用jieba分词,把所有一个时期的所有文章内容一起分词,然后调用词云api生成词云图。

  2. 以 国内革命战争时期 和 抗日战争时期上 这两个时期的词云为例进行分析。

国内革命战争时期.png

在国内革命战争时期的图中,出现次数比较多的词汇是红军、农民、根据地、斗争、革命、矛盾、阶级。

这些工作在本图中基本可以看出来,毛最关心的是农民和红军,利用工农武装割据开展土地革命。

抗日战争时期上.png

在图中,出现次数比较多的词汇是抗日战争、中国、游击战争、胜利、帝国主义、共产党、国民党、全国。

读过的知道,本卷最出名的文章是《论持久战》,在电影《地道战》中也出现了该文。在词云中也能感到,在进入国共合作全面抗战后,共产党主要通过游击战开展斗争。虽然条件艰难,国民党消极抗战、积极反共,但毛依然很乐观,他认为中国会取得最终的胜利。

  1. 最后根据每篇文章的创作时间,制作每一年的文章的词云,得到了从1925年到1957年每年的词云。篇幅原因这里只选两个年份进行分析。
1937.png

1937年爆发了卢沟桥事件,全面抗战爆发,国共两党再次合作。从图中可以看到,毛关注的重点包括国民党、抗日、矛盾等方面,希望能团结全国的力量一起抗日。

1949.png

1949年新中国成立,同时解放战争还没有结束。图中可以看到,毛一方面在组织成立新中国,建立人民政府,一方面动员解放军”宜将剩勇追穷寇“,消灭剩余的反动力量。

情感分析

借助SNOWNLP,可以对句子进行情感分析。对于长篇的文章,先计算每一句的情感得分,然后求平均值,作为该文章的情感得分,分数越高表明情感越正面。这种算法不能说很科学,但是也有一定的可行性。该段代码如下。

def generate_article_emotion(content):
    #按中文标点对文章进行切分
    lines = spiltString(content)
    count = 1
    score = 0
    for line in lines:
        if line.__len__()>1:
            line_score = SnowNLP(line).sentiments
            score += line_score
            count += 1
    return score/count

这里同样对不同时间段和不同年份的文章进行情感分析,结果存储在【情感分析结果.txt】中。这里选择抗日战争时期下 和 1940年 进行分析。

  1. 抗日战争时期下 中,最正面的文章是【关于反法西斯的国际统一战线】,得分0.88;最负面的文章是【开展根据地的减租、生产和拥政爱民运动】,得分0.60。
    • 文章【关于反法西斯的国际统一战线】是毛泽东为中共中央写的对党内的指示,文章虽然短但是情绪积极向上,要求动员一切力量团结对抗世界法西斯势力。
    • 文章【开展根据地的减租、生产和拥政爱民运】也是党内指示,批评了一些工作上的问题,提出了一些积极的工作指示。在直观上本文情绪负面其实不太可信,或许SNOWNLP的算法还有优化的空间。
  2. 1940年,最正面的文章是【新民主主义论】,得分0.87;最负面的文章是【向国民党的十点要求】,得分0.59。个人认为得分是比较准确的,尤其是最负面的文章,有理有据地批判了国民党的问题,揭露了国民党的各种罪行,有兴趣的可以自己品读,这里不做详细介绍。

相似度分析

词汇相似度分析使用了word2vec,第一步输入全部文章,进行分词,训练模型;第二步加载模型,输入待比较词汇,得到相似度最高的词汇。模型就不放出来了,有兴趣可以用作者的代码自己训练。

这里从前面的图云中选择了一些词汇作为输入,将比较结果存储在【word2vec分析结果.txt】中,这里列举一部分进行分析。

工人 农民 0.9811062812805176
农民 工人 0.9811063408851624
土豪 李自成 0.9986612796783447
解放区 军队 0.9435299038887024
日本 美国 0.9674444198608398
中国 殖民地 0.949562132358551
国民党 政府 0.954230546951294
买办 地主阶级 0.9861918091773987
地主 富农 0.9552240967750549
红军 八路军 0.927232563495636
政治 教育 0.9542652368545532
人民 力量 0.9281405210494995
群众 组织 0.9218489527702332
帝国 加深 0.9950364232063293
民族 联合 0.9364615678787231
孙中山 先生 0.9325805902481079
蒋介石 内战 0.9553549289703369
陈独秀 王明 0.995598316192627
斯大林 马克思 0.9780169129371643
南昌 莫斯科 0.998762309551239
延安 第八次 0.9956610798835754
上海 失守 0.9932041168212891

可以看出,对阶级、国家、组织、人名等词汇的分析结果是比较可靠的,对地名的分析结果就比较头疼,个人认为问题还是数据量不够大,毛选中涉及的地名不是很多。

总结

毛选非常值得一读,使用NLP工具分析后能在一定程度上加深理解。自我批评一下,本文没有涉及具体的算法,由于水平和时间有限,只能做一个调包boy了。本来想做一个每日一句毛语录,由于不好断句,选出的句子也不一定有特定的含义,后续有想法了再做。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,372评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,368评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,415评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,157评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,171评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,125评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,028评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,887评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,310评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,533评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,690评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,411评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,004评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,812评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,693评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,577评论 2 353

推荐阅读更多精彩内容

  • 常读毛选,尤其是毛选一到四卷,都是建国之前毛主席的讲话、文章的集合,体现了共产党从弱小到强大的过程,值得我們做企业...
    星田王增智阅读 781评论 0 3
  • 渐变的面目拼图要我怎么拼? 我是疲乏了还是投降了? 不是不允许自己坠落, 我没有滴水不进的保护膜。 就是害怕变得面...
    闷热当乘凉阅读 4,243评论 0 13
  • 夜莺2517阅读 127,718评论 1 9
  • 版本:ios 1.2.1 亮点: 1.app角标可以实时更新天气温度或选择空气质量,建议处女座就不要选了,不然老想...
    我就是沉沉阅读 6,887评论 1 6
  • 我是一名过去式的高三狗,很可悲,在这三年里我没有恋爱,看着同龄的小伙伴们一对儿一对儿的,我的心不好受。怎么说呢,高...
    小娘纸阅读 3,387评论 4 7