Python jieba 去除停用词 生成词云图

读写文件

把待读取的文本存在info.txt中,content类型为str

with open('info.txt', 'r', encoding="UTF-8") as file1:  # with as操作读取文件很ok
    content = "".join(file1.readlines())

待写入文件为 output.txt,content_after为待写入字符串

with open('output.txt', 'w', encoding='utf-8') as file2:
    file2.write(content_after+"\n")

分词

# 调用jieba.cut
sentence_seged = jieba.cut(content)

去除停用词

  • 建立停用词表
    将停用词表放在stop.txt中,一行一个词
    # stopwords为停用词list
    stopwords = [line.strip() for line in open('stop.txt', 'r', encoding='utf-8').readlines()]
    
  • 遍历去除停用词
    outstr = '' # 待返回字符串
    
     for word in sentence_seged:
        if word not in stopwords:
            outstr += word + " "
    

生成词云图

images = Image.open("something.png") # 打开保存的图片
maskImages = np.array(images) # 并用numpy转换
wc = WordCloud(font_path="msyh.ttc", background_color="white", max_words=100, max_font_size=100).generate(content_after) # 生成词云图
wc.to_file('wordCloudPic.png')    # 保存到本地图片文件
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 首页 资讯 文章 资源 小组 相亲 登录 注册 首页 最新文章 IT 职场 前端 后端 移动端 数据库 运维 其他...
    Helen_Cat阅读 3,913评论 1 10
  • .bat脚本基本命令语法 目录 批处理的常见命令(未列举的命令还比较多,请查阅帮助信息) 1、REM 和 :: 2...
    庆庆庆庆庆阅读 8,179评论 1 19
  • 1.安装Anaconda和pycharm,并完成相关配置。 参考教程:https://blog.csdn.net/...
    吵吵人阅读 999评论 1 1
  • 文/碎影 昨夜,一个普通朋友的电话打断了准备入睡的我。原本只是咨询事情,却因聊得投机到晚上十一点半。临近毕业季,可...
    碎影123阅读 212评论 0 1
  • 之一篇: 伯牙遇雨避龟山, 抚琴一曲抒心怨。 偶遇子期在山中, 律音袅袅结音伴。 之二篇: 旧地相约人不见, 折碎...
    杨柳依依簡阅读 322评论 6 6