Python 爬取爱奇艺视频二十五万条数据分析为什么李诞不值得了?

在《 Python 爬取爱奇艺 52432 条数据分析谁才是《奇葩说》的焦点人物? )》这篇文章中,我们从爱奇艺爬取了 5 万多条评论数据,并对一些关键数据进行了分析,由此总结出了一些明面上看不到的数据,并将其直观地展现了出来,数据分析的妙处即在于此。

最终,我们从《奇葩说》的词云图中得出了李诞是为焦点人物的结论。但有小伙伴留言说道:“李诞是焦点人物,但那都是在骂他的”,看到这个笔者突然意识到,说着“人间不值得”的李诞《吐槽大会》开始声名鹊起,一方面是入了娱乐圈已成明星,却也饱受非议,作为《吐槽大会》第三季和《奇葩说》第五季的关键人物,我们是不是可以进行情感分析,从数万条的用户评论里找出广大观众眼中的李诞,以及主打辩论的奇葩说和以“吐槽文化”为切入点的《吐槽大会》的异同之处?

一、如何进行情感分析?

文本情感分析,又称为意见挖掘、倾向性分析等。简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。

奇葩说的评论信息表达了人们的各种情感色彩和情感倾向性,通过对他们进行分析来了解大从舆论的看法。

在这里,我们使用 “ SnowNLP ” 进行分词和情感分析。

二、奇葩说的情感分析数据

注:本文中使用的奇葩说数据是上篇文章爬取的数据,数据文件地址: https://github.com/Pinned/ICanIBBData/blob/master/deal_data.db

先来看一下《奇葩说》的整体情感分析得分数据:

从上图可以看出来,正向情感的评论数要多于负向评论的数据,可见观众朋友还是喜欢奇葩说的。

好多人都说李诞是在被人骂,所以笔者在此对评论中包含李诞的数据进行了过滤(作者注:这样来看不一定准确,但也能从一个角度来看大体的数据情况),做了一下情感分析,先看图:

从这张图可以看出来,得分 0.5 以下的评论要比 0.5 分的多得多。其实单看李诞的这张图,对于负向情感评论是多是少没有直观的感受。于是,笔者又把剩下出现频率比较高的薛教授与詹青云的情感评分画了两张图,对比感受了一下:

通过这三张图的对比,感受到不一样的情感了吗?薛教授和詹青云的正向情感要远高于负向情感,而李诞的正向和负向两类情感则处于趋同状态。

详细代码为:

def emotionParser(title, *names): conn = conn = sqlite3.connect("deal_data.db") conn.text_factory = str cursor = conn.cursor() likeStr =""foriinrange(0, len(names)): likeStr = likeStr +" or content like \"%"+ names[i] +"%\" "iflikeStr =="": sql ="select content from realData where content != \"\" "else: sql ="select content from realData where content != \"\" "+ likeStrprintsql cursor.execute(sql)values= cursor.fetchall() sentimentslist = []foriteminvalues:content= item[0] senValue = SnowNLP(content.decode("utf-8")).sentiments sentimentslist.append(senValue)printcontentplt.hist(sentimentslist, bins=np.arange(0,1,0.01), facecolor="#4F8CD6") plt.xlabel("Sentiments Probability") plt.ylabel("Quantity") plt.title("Analysis of Sentiments for "+title) plt.show() cursor.close() conn.close()

观众朋友对李诞的负面情感有些高,那对他的评论具体究竟呈现着什么样的态势?接下来我们按如下步骤进行具体分析:

将评论数据中包含李诞、李蛋、蛋蛋的数据单独查出来;

使用 Jieba 对评论数据分词;

使用 WordCloud 生成词云分析数据生成词云图见下图,有关代码请参考《 Python 爬取爱奇艺 52432 条数据分析谁才是《奇葩说》的焦点人物? 》 。

从上面的关键词中可以看出,观众对于李诞的情感词云偏于负面,譬如“讨厌”、“教养”、“礼貌”、“打断”等。

三、吐槽大会的情感分析

1. 爬取腾讯评论数据

用 Chrome 打开腾讯视频,打开 《吐槽大会》视频播放,然后打开 Chrome 查看源代码模式,在网络请求里面搜索并过滤 comment。通过过滤拿到的请求地址中,你能拿到一个 video_comment_id 的请求,里面有该期评论的 id。

本次笔者爬取了奇葩说的三季数据,每一期的评论数据的id都是手动去获取的:sob:

2. 数据分析

从所获取的 18w+ 的评论数据中,包含李诞的数据条数有多少呢?直接使用 SQL 在数据库中查找:

selectcount(*)fromdealInfoDatabasewherecontentlike"%李诞%"orcontentlike"%李蛋%"orcontentlike"%蛋蛋%"orcontentlike"%诞总%";

没有想到的是,在这 18w 的数据中,居然只有 8000 多条数据。毕竟同样是每一期人员都非常多的综艺节目,在《奇葩说》5w 多条数据中就有 1w 多条与李诞相关,但结果到李诞成名的《吐槽大会》上却远远不足,值得我们思考。

回归正题,我们再来看一下,在每一期的评论数量:

在第一季第十期,也就是收官之作里关注度特别大,应该是有一次不错的表现。

3. 情感分析

首先来看一下,全部评论数据的整体情感分析,可以看到,整体的正向情感要多于负向情感。

再来看看所有评论中,评论词云是怎么分布的。如下图,可以看出,很多人都非常喜欢他。

再来看一下每一季的数据, 第一季的数据可以看出,正向情感要多于负向情感,更多的观众是喜欢他的。

笔者也把第二季的数据跑出来,可以看出,正向情感与负向情感趋于持平,是不是表示,讨厌他的观众数量在增多呢?

最后,再来看一下,第三期的评论数据,从图中可以看出,负向情感要多于正向情感的数据。

从上面的情感数据可以看出,《吐槽大会》从第一季到现在的第三季,不喜欢李诞的观众数量变得越来越多。

四、结语

在《吐槽大会》中,李诞要表现得更让观众喜欢,在《奇葩说》中,更多的观众是在骂它。虽然是一种不同的表现形式,至少说,他依旧是一个焦点人物,不论是好是坏,总归是留在了用户心中 —— 人间不值得。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,546评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,224评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,911评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,737评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,753评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,598评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,338评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,249评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,696评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,888评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,013评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,731评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,348评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,929评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,048评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,203评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,960评论 2 355

推荐阅读更多精彩内容

  • 相信很多小伙伴在使用硬盘的时候经常出现以下情况导致数据丢失。硬盘,移动硬盘,笔记本硬盘常见故障:分区打不开,提示未...
    迷你兔数据恢复1阅读 429评论 0 2
  • 微商的运气再差,只要你有好的服务,总会有几个死心塌地一直支持你的客户。 我的这几位死心塌地的客户,也恰恰都是我和她...
    王宝玲阅读 272评论 0 0
  • 1,干扰太多:做事时容易被琐事打断。 2,效率不高:心态不好做事效率低下。 3,忘事儿:不经意就把重要的事忘了。 ...
    满庭芳_7878阅读 749评论 0 0