< 制作词云 序 >—准备(QQ聊天)素材

1. 词云图

相信大家在生活中也看过下面这样的图形吧?想必对于词云图也不是很陌生吧?词云图,顾名思义,就是一些具有关键意义的词,组成一些具有代表意义的形状,并按照重要程度、出现频率等进行排列组合得到一张精炼浓缩的信息图。是不是感觉十分高大上?其实,我们自己也可以做属于我们自己的词云图。

百度搜索词云图01

百度搜索词云图02

2. 准备素材

巧妇难为无米之炊,我们需要准备一下材料去烹饪我们这道视觉盛宴:

  • 主材料:文本
  • 辅料:图片
  • 工具:词云制作工具(WordArt 等) OR 编程语言(python 等)

3. 准备文本

这一章里面,我主要介绍的是如何把QQ聊天记录导出,并把整理成关键词,为后续可视化做准备的。

  • 导出聊天记录
    首先找到qq的消息管理器(小喇叭),然后找到你想要得到的聊天记录的那位,右键,导出消息记录就可以了。【注意】选择下拉菜单,将聊天记录导出为(* .txt)格式或者是(* .mht)格式。

    导出qq聊天记录.png

  • 处理文本
    在得到文本素材以后,我们需要将这些文本进行分割,得到一个个词语,经过过滤得到关键词。这里,我们选用的是 jieba 结巴中文分词。
    jieba 中文分词的 Github 项目地址:https://github.com/fxsjy/jieba

    • 通过 pip 安装jieba:pip install jieba
    • 通过 jieba 处理文本:

      import jieba
      import jieba.analyse
      import re # 正则表达式清洗数据
      # 打开并读取文档
      file=open("wxb.txt",'r',encoding='UTF-8')
      obj=file.read()
      file.close()

      import re
      # 使用re.sub()函数进行清洗
      # 主要清洗对象为"=="、"YYYY-MM-DD"、"HH:MM:SS"、"QQ昵称"、"[图片]"
      # 下面以时间数据处理为例进行简单的演示,大家可以根据自己的需要,根据规则进行修改
      t_rm1= re.sub("\d\d:\d\d:\d\d",'',obj)

      • 分词

      # 将特定的词加入词典
      jieba.add_word("不安分的小王")
      # 分词
      word_list=jieba.cut(obj,cut_all=Flase,HMM=True)
      word_split="\".join(word_list)

      word_split 便是你最终的分词结果
      • 提取关键词
        光得到分词结果我们还不能很好地展现文本内容,这一步,我们需要分词后的统计,提取关键词。为后面可视化做准备。

      # 提取关键词
      rank_K=300 #提取前300的关键词
      # 返回带有权重的词语的list
      tags = jieba.analyse.extract_tags(wrd_split, topK=rank_K, withWeight=True, allowPOS=())
      word_split="\".join(word_list)
      # 如果不想带权重的话,可以设置 withWeight=False

      • 保存最终关键词和结果
      with open("keywords.txt",'w',encoding='UTF-8') as f:
           for i in range(0,rank_K):
               f.write(str(tags[i])+'\n')
      
      • 保存最终关键词和结果


        关键词提取结果(部分)

到此,介绍完了文本准备的相关工作。后面会继续介绍如何制作词云

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 注:参考文档 一、在线词云图工具# (1)、使用### 在正式使用jieba分词之前,首先尝试用在线分词工具来将自...
    DearIreneLi阅读 6,131评论 1 8
  • 不经意间听到这首歌曲 惊诧于主唱的哭腔花音 在乐队的演唱之中 仿佛看到了人性的 感情与理智的冲突 过去与未来的纠缠...
    南岳衡山隐士阅读 343评论 0 0
  • 0 / 1 恍惚之间已经到了大三,要不是宿舍的姐妹都谈起了恋爱,我还一直以为自己依旧是那个不谙世事的十七岁小姑娘。...
    梅林桃花飞阅读 262评论 0 3
  • Power Clean -Booster Lite ("us", "we" or "the Application...
    littlefoxapps阅读 219评论 0 0
  • 我家小区门口有一个老人家,经常晚上出来,推着一个小推车卖水果。 老人家卖的水果一天卖一样,有时两三天卖一样。不是天...
    快乐灵芝阅读 422评论 9 6