jieba简单应用

统计排序一篇文章中出现的词

import jieba
from collections import Counter

# 打开文件
# 先准备好一篇文章,保存为.txt文件,复制文件路径,绝对路径记得加转义符‘\’。
with open('C:\\Program Files\\Notepad++\\words.txt', 'r', encoding='utf8') as f:
    word = f.read()
    f.close()
    
# 把整个文本根据分词表切出来
cut = jieba.cut(word)
l = list(cut)
# print(l)
num = []
for i in l:
    # 过滤掉一些无关紧要的语气词以及标点符号并且词的长度必须大于2
    if i not in [' ',',','。','!','?','吗','啊','哦','嗯',':','“','…','的','了','”','\u3000','\n'] and len(i)>1 :
        num.append(i)
        # 统计相同词出现的次数并且降序排序
        c = Counter(num).most_common(100)

print(c)
运行结果
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容