【总的来说】有用似乎也没用,以后希望能深度学习
美图数据部门北京技术总监赵丽丽,在LiveVideoStackCon 2017上与我们一同分享了深度学习在短视频视觉内容分析中的核心应用方向,以及前沿深度学习算法在产品化应用于短视频分析时的技术难点和解决方案。
分享包括四个方面,
1回顾深度学习的发展历程和
2讲述深度学习在短视频领域进行自动化视频内容分析的意义和必要性,
3再结合美拍短视频业务分享我们将深度学习应用到视频内容理解中遇到的问题和解决思路
4最后从产品、数据以及技术层面展望后续的一些优化方向。
有什么
识别视频中的物体、挖掘主题、并将视频特征信息提取保存
在哪里
检测视频发生的场景以及文字识别
做什么
检测视频中主体的行为、正在发生的事件以及视频描述
这三部分是理解视频内容的基础,我们在此基础上对美拍视频内容做了第四个分析——“好不好”:首先我们要保证视频内容是合法合规的,因此要做内容审核;同时还要做画质评估来保证画面质量,提升用户的观看体验;此外为了评价视频是否受欢迎,我们会用深度学习做播放预测。
标准化的标签体系
主题、物体、场景、事件、行为、
人工不可行的原因
量大
未知
时效性
机器算法好
算法支撑:
图像识别:技术已经很完善了
场景理解:生活场景?用户场景?我需要了解现在所有的场景??
质量评估:我感觉我工作以后就一直做这块的工作,真的做烦了
转码分析
在线推理、训练、标注的交互闭环
智能视觉分析服务----在线业务提供推理服务
自动化训练服务对模型训练进行实时更新,解决模型时效性问题。
标注平台则负责收集标注数据,这部分数据包含两类——人工标注团队针对具体业务场景标注的数据以及审核业务数据时产生的一些并行标签。最上层是业务层,包括推荐、审核、画像、广告搜索。
系统框架分为以下三部分:
视觉分析服务
内容理解的语义标签
对视频的特征表示,它可能是一个浮点的高维向量,也可能是一个二进制的哈希码
模型训练
标注
以下就可能跟工作相关了
如何有效定义数据标签
三个方面
抽样分析人工检测
文本分析
第三部分是无监督学习——这也是我们正在做的,它应用了视频主题挖掘,也就是对所有一个阶段的视频根据无监督学习聚成几类,然后对这个类别的类中心的数据进行分析,提取它的标签、主题、场景、事件。
如图:
(其实不是很明白,但似乎又明白,因为数据结构课上学过关于图的一些聚类问题,再琢磨以下)
它的核心是对输入的大规模图像集提取一个特征表示,在这个特征表示的基础上再构建一个相似关系图进行聚类,相比于传统方法对于新的数据需要重新进行聚类,它将这个过程拆分成两部分:一个是图的构建,一个是基于图的聚类。而基于图的聚类在这个过程的时间其实非常少,那么当有新的数据时,只需要把新的数据加入这个图中做更新,再聚类的时间开销很小。
看来数据结构是必须要再学习以下的了,
哈希表是什么鬼,我怎么没有见过
哈哈哈哈
它的核心是对输入的大规模图像集提取一个特征表示,在这个特征表示的基础上再构建一个相似关系图进行聚类,相比于传统方法对于新的数据需要重新进行聚类,它将这个过程拆分成两部分:一个是图的构建,一个是基于图的聚类。而基于图的聚类在这个过程的时间其实非常少,那么当有新的数据时,只需要把新的数据加入这个图中做更新,再聚类的时间开销很小。
用上了没有呀,别介绍分享了,我完全看不懂
深度哈希特征提取的研究成果,由于研究成果非常多,这里只举两个例子:监督学习和非监督学习。监督学习的思路是使用数据的一些标签数据去进行训练从而学习到哈希码,eBay在今年关于视觉检索中用到的哈希方法就是监督学习。而非监督学习是利用图像本身的一些相关信息进行学习,不利用任何的标签数据,比如我讲一个图像旋转一定角度,它并不会关心这个图像包含什么标签,只会计算旋转前后图形之间的loss是最小的,从而保证学到的特征能够更好的表示当前图像。
好吧,如果我要是有时间我一定看看
我们提出了一个视频的深度哈希方法,这部分算法技术的相关论文” Deep Hashing with Category Mask for Fast
Video
Retrieval”放到了arxiv上[https://arxiv.org/abs/1712.08315],欢迎大家下载论文了解具体技术细节。
不想打字了
直接截图吧
以下都是看不懂的,
大概就是什么时间复杂度呀,空间复杂度
我也不知道我大学都学得是什么
其实没啥想法,对于工作我只能说
优化标注流程、提升标注的质量,加快模型的迭代更新速度