你拍的短视频竟被它“看懂”了?无理解,不AI

或许你还以为视频仅能依靠用户数据“间接地”进行理解,那么,本文带你认识一下你所不知道的“短视频AI”~

每当你观看短视频的精彩内容时,可曾想过,这或许是你这一天距离AI最近的时刻?也许你是互联网圈的业内人士或者互联网技术的爱好者,你会说:“知道啊,不就是智能推荐、分发系统吗?很多产品都有啊。”然而,AI对于短视频的应用仅限于此吗?

Of course not!事实上,从视频的录制,到视频的编码,从视频内容的理解,到用户画像的建模,从审核过滤,到分发推荐,AI几乎走完了每一个环节。其中,最让人意想不到的是,在视频理解环节,AI是用“看”的!

那么下面就为大家科普一下,共同揭开快手AI的神秘面纱!

“视频一直被视为计算机视觉里的暗物质。”谷歌云首席科学家、ImageNet发起人李飞飞曾这样描述,视频理解之难可想而知。为了更好的理解视频,我们通常会为它打好标签,下面是几种常见的方法:

1.发布者或审核人员人工添加标签:发布者添加标签不需要依赖算法技术,但容易出现未标注、弱标注和误标注的情况。而审核人员逐个标注视频,对于每日产生1500万条视频的快手来说,将会带来巨大的人力成本。

2.将视频看作黑盒,直接依靠用户行为数据进行推荐:比如,与你有着相似用户画像的人中,大多数都点赞了的某个视频,就把它直接推荐给你。这种方法不需依靠计算机视觉这种高难度技术,且能取得不错的效果,目前非常主流。

3.用户行为数据与视频内容理解相结合:也是快手正在使用的,更考验技术人员对“多模态”技术的理解(视频的多种模态可以理解为视觉、听觉、文本的综合信息形式),再加上用户行为数据也是另外一种模态的数据,所以理解短视频成了一种极为复杂的多模态问题。

那么,如此高深的视频理解技术是如何发展出来的呢?又将走向何方呢?且听小编慢慢道来。

一切的一切,从认识事物开始——最初的它

为了让AI识别物体,科学家们可谓是煞费苦心,甚至为此建立了世界上最大的图像数据库——ImageNet,里面的每张图片都人为打好了标签,来让AI进行视觉训练。在去年的ImageNet视觉识别挑战赛中,有八成参赛队伍的图像识别准确率超过95%。

别小看了这个基础的物体识别,实际上它大大丰富了短视频的趣味性! 其中,正是因为有了人脸关键点的识别,才有了“快手时光机”等众多魔法表情;正是因为有了肢体识别技术,才有了“跳舞机”有趣的魔法表情游戏;也正是因为有了对平面、边角的识别,才有了逼真的AR玩法。

今年乌镇的世界互联网大会上,快手科技的展台被围得水泄不通,人们都想体验一把“找到世界上另一个自己”的黑科技。如图,体验者走到屏幕前,点击拍摄按钮,右边的屏幕上就会出现了一个与自己长相非常相似的人!并播放这段用户公开视频。其实,这些数据是事先提取出来的,在用户将视频上传到服务器后,AI就会根据视频的内容进行理解,提取一些基本信息,包括面部的三维特征,另外,AI还会进一步分析,进而得出人脸的年龄、性别、甚至是颜值。

知晓你的忧,洞悉你的愁——现在的它

前面提到了AI对图像的物体识别有了巨大突破,那么一组图像和一个视频有什么差别吗?视频不就是由图片组成的吗?

其实两者之间是有区别的。首先,视频的图像间是有时间顺序的,比如,运动的物体的通常具有特殊语义,把一组舞蹈动作图片分开来看,就很难知道这是什么舞,而识别物体的移动、变化对AI来讲不是一件易事。再者,正如前面提到的,视频是多模态的,包括图像、人脸、音频、文本多个部分,AI需要对同一时刻的音频、视频等多个维度综合分析,才能形成更为“立体”的认知,而这对于技术人员又是巨大的挑战。

而为了丰富AI的认知,我们又不得不为它创立一套认知体系——知识图谱。知识图谱可以理解为AI的“记忆”,图谱里面的每一个概念都不是简单的文本,而是立体的形象,比如一只小狗,在AI的印象里,会有它的大量照片,以及狗叫声,还会知道它爱吃骨头,这和我们人类对狗的记忆颇为一致,但是也存在着遗漏,像是触觉这种,目前无法达到。在快手的知识图谱中,除了种类繁多的实体概念,还存在着高级的精神概念,如喜怒哀乐、亲情和爱情。

那么短视频是如何被读懂的呢?我们举个实际的例子,一场球赛的最后几分钟(视频):梅西带球破门,踢出关键一球,全场观众欢呼庆祝,解说员宣布比赛胜利。在这个视频中,AI首先进行人脸识别,识别出梅西和其他球员;同时,场景识别和物体识别会确认“球场”和“足球”,确定这是场足球比赛;而在情绪识别上面,AI会通过观众的欢呼和球员的表情确定“喜悦、庆祝”的氛围;并且,解说员的语音,也会被读懂,更直观地理解视频里发生的内容(即便是非常嘈杂的比赛环境,聪明的AI也会智能地为其降噪)。

机器亦有“心”——未来的它

虽然目前的AI在情感层面的理解上,无法达到较高的准确性。但是,以现在的AI发展速度来看,相信在不远的将来,AI就会成为精神世界的一道风景线。

关于未来的AI(视频理解、视觉理解方向),小编想到了未来可能发生的三种应用,一起来分享给大家。

率先发生的是无人驾驶,AI对于物体(尤其是运动的物体)可以无障碍识别,完美解决路况分析问题。第二阶段是影评大师,AI对于人类的情感以及电影的艺术手法有了深刻的认识,可以做出权威的评价。第三阶段是AI男/女朋友,各项人工智能技术发展成熟,相互融合,而计算机视觉不再是一个独立体,而更像是一个器官——“眼睛”,最终的AI成品可以作为我们的灵魂伴侣(完美解决我国男性的单身问题,笑~)。

无论如何,AI的萌芽已经被种下了,到底会结出怎样的果实呢,相信大家也满怀期待吧,欢迎大家在评论区留言,说说自己心中未来的“它”!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,546评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,224评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,911评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,737评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,753评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,598评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,338评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,249评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,696评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,888评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,013评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,731评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,348评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,929评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,048评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,203评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,960评论 2 355