登录注册写文章

jieba简单应用

jieba简单应用

统计排序一篇文章中出现的词

import jieba
from collections import Counter

# 打开文件
# 先准备好一篇文章，保存为.txt文件，复制文件路径，绝对路径记得加转义符‘\’。
with open('C:\\Program Files\\Notepad++\\words.txt', 'r', encoding='utf8') as f:
    word = f.read()
    f.close()
    
# 把整个文本根据分词表切出来
cut = jieba.cut(word)
l = list(cut)
# print(l)
num = []
for i in l:
    # 过滤掉一些无关紧要的语气词以及标点符号并且词的长度必须大于2
    if i not in [' ','，','。','!','？','吗','啊','哦','嗯',':','“','…','的','了','”','\u3000','\n'] and len(i)>1 :
        num.append(i)
        # 统计相同词出现的次数并且降序排序
        c = Counter(num).most_common(100)

print(c)

运行结果

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Android - 收藏集
Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
passiontim阅读 173,838评论 25赞 709
韩国新东中学
“自省室”等韩国中小学里有各种各样的“功能屋”，它们体现了韩国人对教育的理解和投入，反映了韩国学校对学生的人性化...
crysnny阅读 2,930评论 0赞 0
《空谷幽兰》读书笔记
诸葛亮，《戒子篇》夫君子之行，静以修身，俭以养德。非湛泊无以明志，非宁静无以致远。夫学须静也，才须学也，非学无以...
花间集er阅读 620评论 0赞 0
新生群:请问开学后对象是自己带，还是学校发？
每年暑假，新生群绝对是最活跃的群之一，每天消息9999+，新生对大学充满了好奇，也有很多疑惑，群里的学长学姐自然...
迷茫懒惰君阅读 216评论 0赞 2

赞1赞

赞赏

手机看全文