利用python统计《十九大报告》中的关键词和词频

利用python统计《十九大报告》中的关键词、报告摘要和词频。引用snowNLP。得到的结果:

1、关键词:
前五个关键词为 ['发展', '人民', '中国', '党', '建设']

2、报告摘要:
  强调坚定道路自信、理论自信、制度自信、文化自信;明确全面深化改革总目标是完善和发展中国特色社会主义制度、推进国家治理体系和治理能力现代化;明确全面推进依法治国总目标是建设中国特色社会主义法治体系、建设社会主义法治国家;明确党在新时代的强军目标是建设一支听党指挥、能打胜仗、作风优良的人民军队;
  坚持党的领导、人民当家作主、依法治国有机统一是社会主义政治发展的必然要求;
  必须从理论和实践结合上系统回答新时代坚持和发展什么样的中国特色社会主义、怎样坚持和发展中国特色社会主义。

3、词频最靠前的词语(词语两个字以上):

发展      219
人民      198
中国      186
建设      163
社会主义   146
坚持      131
国家      108
社会      107
全面      93
制度      93
政治      90
实现      85
推进      80
特色      79
文化      79
体系      77
伟大      75
加强      72
改革      69
经济      65
我们      64
时代      64
必须      61
完善      57
安全      54
领导      54
民主      53
创新      53
我国      50

python3.5代码如下:

# author:传习者戚
# email:qijiuzhu@tsinghua.org.cn
# 2017年10月20日

from snownlp import SnowNLP
# 读取文章内容,数据格式是列表list
with open("十九大报告全文.txt", "r", encoding="utf-8") as f:
    text_list = f.readlines()
text_string = "".join(t for t in text_list)  # 将列表转为文本字符串str

# 中文字符串处理类
s = SnowNLP(text_string)

# 统计关键词
keywords = s.keywords(5)  # 统计前5个关键词
print("关键词:", keywords)

# 报告摘要
summary = s.summary(3)
print("摘要:", summary)

# 分词
words = s.words  # 分词列表
w = list()
w.append(words)  

# 词频
s = SnowNLP(w)  # 分词列表w,元素为列表
tf = s.tf  # 获取词频
for dictionary in tf:
    # print(dictionary)
    # 字典按键值由大至小排序
    for k, v in sorted(dictionary.items(), key=lambda d: d[1], reverse=True):
        if len(k) > 1:   # 词语在两个字符以上
            print("%s\t\t%d" % (k, v))
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 谁能想到,一个写出"总有一种力量让我们感动"句子的著名媒体人,会为了钱丧失一个媒体人良心与责任.一个曾经让我无比尊...
    郑新安阅读 333评论 1 0
  • 诗仙李白曾有诗云“古来圣贤皆寂寞,唯有饮者留其名。”这句诗,在我理解:寂寞如酒,初饮苦涩,而后绵香,唯有善饮寂寞之...
    易简文阅读 293评论 0 0
  • 很久以前,有同事说我可以把自己的游记照片编辑成美篇推出,因为整日处于忙碌疲惫状态,也无心尝试,现在看来还是想法不够...
    美文_666阅读 267评论 0 3