< 制作词云 序 >—准备(QQ聊天)素材

1. 词云图

相信大家在生活中也看过下面这样的图形吧?想必对于词云图也不是很陌生吧?词云图,顾名思义,就是一些具有关键意义的词,组成一些具有代表意义的形状,并按照重要程度、出现频率等进行排列组合得到一张精炼浓缩的信息图。是不是感觉十分高大上?其实,我们自己也可以做属于我们自己的词云图。

百度搜索词云图01

百度搜索词云图02

2. 准备素材

巧妇难为无米之炊,我们需要准备一下材料去烹饪我们这道视觉盛宴:

  • 主材料:文本
  • 辅料:图片
  • 工具:词云制作工具(WordArt 等) OR 编程语言(python 等)

3. 准备文本

这一章里面,我主要介绍的是如何把QQ聊天记录导出,并把整理成关键词,为后续可视化做准备的。

  • 导出聊天记录
    首先找到qq的消息管理器(小喇叭),然后找到你想要得到的聊天记录的那位,右键,导出消息记录就可以了。【注意】选择下拉菜单,将聊天记录导出为(* .txt)格式或者是(* .mht)格式。

    导出qq聊天记录.png

  • 处理文本
    在得到文本素材以后,我们需要将这些文本进行分割,得到一个个词语,经过过滤得到关键词。这里,我们选用的是 jieba 结巴中文分词。
    jieba 中文分词的 Github 项目地址:https://github.com/fxsjy/jieba

    • 通过 pip 安装jieba:pip install jieba
    • 通过 jieba 处理文本:

      import jieba
      import jieba.analyse
      import re # 正则表达式清洗数据
      # 打开并读取文档
      file=open("wxb.txt",'r',encoding='UTF-8')
      obj=file.read()
      file.close()

      import re
      # 使用re.sub()函数进行清洗
      # 主要清洗对象为"=="、"YYYY-MM-DD"、"HH:MM:SS"、"QQ昵称"、"[图片]"
      # 下面以时间数据处理为例进行简单的演示,大家可以根据自己的需要,根据规则进行修改
      t_rm1= re.sub("\d\d:\d\d:\d\d",'',obj)

      • 分词

      # 将特定的词加入词典
      jieba.add_word("不安分的小王")
      # 分词
      word_list=jieba.cut(obj,cut_all=Flase,HMM=True)
      word_split="\".join(word_list)

      word_split 便是你最终的分词结果
      • 提取关键词
        光得到分词结果我们还不能很好地展现文本内容,这一步,我们需要分词后的统计,提取关键词。为后面可视化做准备。

      # 提取关键词
      rank_K=300 #提取前300的关键词
      # 返回带有权重的词语的list
      tags = jieba.analyse.extract_tags(wrd_split, topK=rank_K, withWeight=True, allowPOS=())
      word_split="\".join(word_list)
      # 如果不想带权重的话,可以设置 withWeight=False

      • 保存最终关键词和结果
      with open("keywords.txt",'w',encoding='UTF-8') as f:
           for i in range(0,rank_K):
               f.write(str(tags[i])+'\n')
      
      • 保存最终关键词和结果


        关键词提取结果(部分)

到此,介绍完了文本准备的相关工作。后面会继续介绍如何制作词云

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容

  • 注:参考文档 一、在线词云图工具# (1)、使用### 在正式使用jieba分词之前,首先尝试用在线分词工具来将自...
    DearIreneLi阅读 6,035评论 1 8
  • 不经意间听到这首歌曲 惊诧于主唱的哭腔花音 在乐队的演唱之中 仿佛看到了人性的 感情与理智的冲突 过去与未来的纠缠...
    南岳衡山隐士阅读 332评论 0 0
  • 0 / 1 恍惚之间已经到了大三,要不是宿舍的姐妹都谈起了恋爱,我还一直以为自己依旧是那个不谙世事的十七岁小姑娘。...
    梅林桃花飞阅读 259评论 0 3
  • Power Clean -Booster Lite ("us", "we" or "the Application...
    littlefoxapps阅读 216评论 0 0
  • 我家小区门口有一个老人家,经常晚上出来,推着一个小推车卖水果。 老人家卖的水果一天卖一样,有时两三天卖一样。不是天...
    快乐灵芝阅读 401评论 9 6