三国演义人物出场频率分析

使用jieba库对三国演义人物出场进行分析:

词频分析代码
出现错误

发现时存储的txt文件的编码模式未ANSI, 对编码模式进行修改, 改为UTF-8后运行正常.

对不正确词组进行排除, 重复找不正确的词进行排除

import jieba

txt = open('threekingdoms.txt','r',encoding='utf-8').read()

excludes = {'将军','却说','荆州','二人','不可','不能','如此','商议','如何','主公','军士','左右','军马','引兵','次日','大喜','天下','东吴','于是','今日'

          ,'不敢','魏兵','陛下','一人','都督'}

words = jieba.lcut(txt)

counts = {}

for word in words:

    if len(word) == 1:

        continue

    elif word == '诸葛亮' or word == '孔明曰':

        rword = '孔明'

    elif word == '关公' or word == '云长':

        rword = '关羽'

    elif word == '玄德' or word == '玄德曰':

        rword = '刘备'

    elif word == '孟德' or word =='丞相':

        rword = '曹操'

    else:

        counts[word] = counts.get(word,0) + 1

for word in excludes:

    del counts[word]


items = list(counts.items())

items.sort(key = lambda x:x[1],reverse=True)

for i in range(15):

    word,count = items[i]

    print('{0:<10}{1:>5}'.format(word,count)) 

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi阅读 7,418评论 0 10
  • jieba分词,学习,为了全面了解该模块,,预设学习路线:官方文档——优秀博客文章——实践学习 官方文档部分 (文...
    竹林徒儿阅读 4,210评论 1 12
  • 儿童床直接影响到宝宝的生长发育和心理感受,父母们在选购儿童床的时候经常是挑花了眼、操碎了心。 很多曾经的『人气单品...
    纳谷nakko阅读 1,943评论 4 47
  • 梦和神话——我们心灵的表达 梦和神话并不是无意义的,它们实际上是我们心灵的表达,为了更好地了解自我,了解人类历史,...
    一枚冰儿阅读 650评论 3 1
  • 好多时候,明明脑子里想着什么,一遍一遍地催促着自己写下来写下来,但真正拿起笔的时候,却又无所适从。因为,原本那些清...
    再度修行阅读 150评论 0 0