Youtube时下流行榜单视频数据分析

Youtube是一个著名视频网站,以下数据集来自kaggle,包含5个国家(DE:德国;FR:法国;CA:加拿大;US:美国;GB:英国;)时下流行榜单上每天大约200个视频。

时下流行榜单上的视频有什么特点呢?根据官方说法:

“时下流行可以让观看者看到 YouTube 和世界各地正在发生的事情。一些时下流行的内容是在意料之中的,如当红音乐人发行的新歌或新电影预告片。另一些则出乎人们的预料,如病毒视频,其目标是挖掘广受各类观看者喜爱的视频,不是个性化的。

时下流行旨在挖掘出具有以下特质的视频:能够吸引各类观看者;不误导、骗点击或耸人听闻;能展现 YouTube 上和世界各地正在发生的多种事情;最好是新奇或出人意料的。

被纳入考虑的标准包括(但不限于):观看次数;观看次数的增长率;观看次数来自哪里(包括 YouTube 以外的观看);视频的新鲜度。

时下流行结合这些标准生成了一个视频列表,这意味着某天中观看次数最多的视频在“时下流行”中可能不会排在第一位,而观看次数较多的视频可能会排在观看次数较少的视频之后。”

通过官方解释可以了解到时下流行类似于视频网站的排行榜,综合考察了反映了视频流行程度、受欢迎的广泛程度和新鲜度等等的指标,不是个性化推荐的结果,而是一个“大杂烩”,榜单希望照顾到到大多数人的喜好。

该数据集包含以下字段:
video_id:视频id
trending_date:榜单日期
title:视频名称
channel_title:频道名
category:视频类别名
category_id :视频类别id
publish_time:发布时间
tags:视频标签
views:观看次数
likes:点赞次数
dislikes:差评数
comment_count:评论数
thumbnail_link:缩略图链接
comments_disabled:能否评论
ratings_disabled:能否评级
video_error_or_removed:视频有没有发生错误
description:视频描述

分析目标为:

  • 榜单上视频和频道的集中程度
  • 视频的持久度和新鲜度
  • 视频的观看和互动情况
  • 视频受欢迎的广泛程度
  • 视频观看和互动的增长情况
  • 观看量相关性分析

导入和处理数据

主要进行下列处理:

  • 导入数据,并对数据进行去重
  • 将发布日期和榜单日期转换为时间格式
  • 计算以下几个字段:
    • 视频在不同国家榜单上的出现时长
    • 视频从发布到上榜的天数
    • 视频出现在几个国家的榜单上
    • 视频的点赞率、差评率、点赞差评比例和评论比例
    • 视频观看次数、点赞次数、差评数和评论数量的增长量和增长率

PS:一个视频有可能连续出现在榜单上,这样统计的观看次数、点赞次数、差评数和评论数会重复叠加,前四个目标采用的数据集是总数据集去重得到的(只留下每个国家榜单上单个视频最后一天的数据),最后一个目标增长情况会用到整个数据集。

榜单上视频和频道的集中程度

每个国家榜单的视频数和频道数
total_for_country.jpeg

英国和美国榜单上的视频数和频道数都比其他三个国家少,推测这两个国家有些频道有多个视频上榜,这些频道可能影响力比较大,而且大部分视频在榜单上的持续时间比较长。

每个国家榜单视频的平均观看数、平均点赞数、平均差评数和平均评论数
average_for_country.jpeg

四幅图的趋势相似,英国的观看数、点赞数、差评数和评论数最高,其次是美国,加拿大、德国、法国依次递减,趋势和每个国家的视频数及频道数相反,视频数越少,该国家视频上榜天数越长,上榜天数越长,相应地观看量越大,点赞数、差评数和评论数也就越大。

每个国家不同种类视频数量

category_video_count.jpeg
  • Entertainment(娱乐)类别在所有国家榜单上的视频数是最多的;人物记录(People & Blogs)、教程类(Howto & Style)、喜剧类(Comedy)和运动(Sports)类别在所有国家榜单上的视频数量位于前列,说明在五个国家中这几类视频比较受欢迎,特别是娱乐类视频。
  • 美国和英国榜单上音乐视频数量很多,音乐视频在这两个国家比较受欢迎。
  • 美国、法国、德国和加拿大都有较多的新闻政治类视频上榜,这几个国家相较英国可能经常在youtube上看时事新闻,英国视频数量比较多的类别都跟娱乐有关系。

视频的持久度和新鲜度

不同国家视频上榜天数和发布至上榜天数
trending_days.jpeg

上图符合先前的推测,确实英国和美国榜单视频的持续天数远远大于其他三个国家,有的视频甚至长达一个月,而且视频从发布到上榜的时间也是比另外三个国家大得多。

视频的观看和互动情况

视频的观看次数大致反映视频受欢迎程度,而点赞、差评和评论反映了观众与视频之间的互动情况。

不同国家视频的点赞率、差评率、点赞差评比例和评论率
active_data.jpeg
  • 五个国家的差评率都很低,毕竟上了榜单的视频,经过了数据的初步检验,差评一般来说不会低到哪去。
  • 英国和美国的点赞率和评论率都比其他三个国家略低,但是他们点赞差评比例比其他三个国家略高,德国、法国和加拿大对视频的点赞和差评数没美国和英国大,这三个国家对视频的主观感受分化较大,视频评论中的差评比例可能比较大。

视频受欢迎的广泛程度

这里的广泛程度我主要看视频出现过在几个国家的榜单上,每个国家榜单不同,国家之间存在文化等差异,如果一个视频出现在多个国家的榜单上,那么这个视频跨越了这些差异赢得了多个国家观众的喜爱。

有多少视频上了多个国家榜单
country_count.jpeg

可以看到由于地域性的关系,大部分视频都在一个国家的榜单上,只有少数视频出现在两个以上国家的榜单上,极少数视频出现在5个国家的榜单上。

country_count_view.jpeg

country_count_data.jpeg

country_count_catetory.jpeg
  • 视频出现在越多国家的榜单上,观看数、点赞数、差评数和评论数就越多,毕竟受众越广嘛。
  • 视频出现在越多国家的榜单上,视频从发布到上榜所花的时间和在榜单上的持续时间更长。
  • 对于受众国家少的视频或受众国家多的视频,娱乐、人物记录、运动、喜剧这几类视频数居多。随着视频受众国家增多,音乐及电影和动画类视频的比例增大,音乐类视频比例甚至超过了娱乐类视频比例,同时教程类和新闻政治类视频在减少。娱乐、人物记录、运动、喜剧、音乐、电影类视频都跟娱乐有关系,这些类别可以跨越文化等差异传播更广,受众面更大,而新闻政治类和教程类视频区域性可能比较强,对于新闻政治类每个地区每天发生的事不一样,关注的新闻自然不一样;对于教程类地区,可能更注重时尚的地区穿搭、化妆类教程更受欢迎等。

视频观看和互动的增长情况

不同国家观看、点赞、差评和评论的增长量
growth.jpeg
不同国家观看、点赞、差评和评论的增长率
growth_rate.jpeg
  • 美国和英国榜单上视频观看次数、点赞数、差评数和评论数每日增长量总体上比其他三个国家小,而且他们的观看量、点赞数、差评数和评论数每日增长率也比其他三个国家小。官方说法中提到观看量是榜单考虑的重要指标之一,可能是因为美国和英国增长比较慢,因此视频从发布到上榜所用的时间更长。
  • 德国、法国和加拿大的每日增长率比较分散,说明一部分视频增长快甚至指标在飙升,另一些视频增长就没那么快了。观看增长率也是榜单考虑的因素之一,如果指标是以地区均值作为参考,美国和英国视频虽然增长慢,但是增长速率差别不大,在榜单上能持续更长时间;另外三个国家增长率差别大,视频增长跟不上就下榜,榜单视频更新迭代速度快。

观看量相关性分析

Correlation views
views 1.000000
likes 0.758316
dislikes 0.422387
comment_count 0.503879
all_trending_days 0.333775
publish_trending_days 0.007949
like_rate -0.029729
dislike_rate -0.002202
like_dislike_rate -0.018864
comment_rate -0.039321
country_count 0.307132
views_growth 0.616330
views_growth_rate 0.058709
likes_growth 0.442547
likes_growth_rate 0.048366
dislikes_growth 0.290673
dislikes_growth_rate 0.048343
comment_count_growth 0.320955
comment_count_growth_rate 0.021681
category_num 0.028118

视频的观看次数与点赞、差评和评论的数量及增长量、在榜单上的持续天数以及所上国家榜单数有很强的正相关性。

结论:

  • 美国和英国榜单上视频和频道数量比其他三个国家集中程度高,在榜单上天数也更长。娱乐、音乐、人物记录、教程类、喜剧、运动和新闻政治类视频数比较受大众欢迎,特别是娱乐和音乐类视频。
  • 视频出现的国家榜单数越大,观看数、点赞数、差评数和评论数就越多,娱乐、人物记录、运动、喜剧、音乐、电影类视频受众比较广。
  • 美国和英国榜单上视频观看次数、点赞数、差评数和评论数每日增长量和增长率比德国、法国和加拿大小,德国、法国和加拿大的每日增长率比较分散。
  • 视频的观看次数与点赞、差评和评论的数量及增长量、在榜单上的持续天数以及所上国家榜单数有很强的正相关性。

作者:努力进步的大白菜
链接:https://www.jianshu.com/p/q81RER
來源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容