前言
最近,各种瓜“接踵而至”,让人应接不暇,同时也激起了一波又一波的“热潮”,掀开了社会的阴暗面。不知各位是否发现,最近频发的热点,大多涉及到“两性”间的问题?
小编平时也不是很关注这些热点,但是这次小编罕见的被“勾引”了!为了去了解“吃瓜”群众对于这次事件关注点,小编特意爬取了知乎500多页数据,涉及两千多条评论对吃瓜群众的关注点进行技术分析,那么让我们开始吧!
首先呢,小编对知乎的热榜数据进行爬取,代码如下:
最后运行结果呈现了知乎的热榜各热点简介和热度排名(五种类别汇总的数据),效果如下:
哇塞,这个排名第一的“大瓜”昨天看热度还只是2千多万,今天就三千万了,看来吃瓜群众对这种瓜的兴趣蛮大的,那么我们就来盘它!
接下来对“某某某某事件”的评论数据进行爬取和整理,由于小编太懒,懒得动手敲🐎,于是采用了这款小白15mins都能玩的顺溜的强大插件——webscraper,来进行爬取。
但是呢,这个也有个缺点,当数据量大的时候,不能一次性爬取完所有数据,小编当时为了爬取这500多页数据分了好几次进行爬取。
数据爬取完整合到一个表格中,如下图所示:
接下来是对文本信息进行去重处理(webscraper爬取得信息由于是多线程爬取,而且我还重复好几次,难免存在重复信息),如下图所示:
目前,前期的处理已经完成,接下来就是对文本进行分词,提取吃瓜群众的高频评论词语。
到此,文本内容的提取结束,接下来就是统计词频和可视化了!
效果如下所示:
文字的大小表示词频,thumb是大拇指表情的英文释义
从结果可以看出,本次“吃瓜事件”的主人公得到了大家“很好”的关注,同时从吃瓜群众的高频词汇可以看出舆论主要方向都是在谴责某某,但是我们也可以发现有不少的“瓜民”表达的价值观让小编我直呼心脏受不住。
(部分高频词小编看的不是太懂,劳烦哪位老司机解释解释)
最后,总结一下,吃瓜虽好,但是希望各位仍然能够保持客观的判断,不盲从,不跟风,不要吃坏“肚子”。
今天的内容就这么多了,“吃”的不尽兴的朋友可以用我分享的源码和数据文件来“技术吃瓜”。
链接:https://pan.baidu.com/s/1VEE-Uir3MtqF7uynASDVIg
提取码:wtwv