https://mp.weixin.qq.com/s/kQozftKd_n_kYIF7KKCc8g
除了 Interspeech 接收的这篇 Oral 论文,快手还有很多不同方向的研究,包括计算机视觉、自然语言处理和情感计算等等。因为快手平台每天都有大量的短视频上传,因此如何分层有序地提取视频信息、理解视频内容就显得尤为重要。针对该问题,快手多媒体内容理解部门通过感知和推理两个阶段来解读一个视频,首先感知获取视频的客观内容信息,进而推理获取视频的高层语义信息。
在感知阶段,除了上文所述的语音处理,快手还会从另外三个维度来分析理解视频内容,包括人脸、图像和音乐。
对于语音信息,快手不仅进行语音识别,还需要实现说话人识别、情绪年龄等语音属性信息分析。
对于人脸信息,快手会对视频中的人脸进行检测、跟踪、识别,并分析其年龄、性别、3D 形状和表情等信息。
对于图像信息,快手会通过分类、物体检测等算法分析场景、物体,通过图像质量分析算法对图像的主观质量进行评估,通过 OCR 分析图像中包含的文字信息等。
对于音乐信息,快手需要进行音乐识别、歌声/伴奏分离、歌声美化打分等分析,对音乐信息进行结构化。
从以上四个方面,快手能抽取足够的视频语义信息,并为推理阶段提供信息基础。推理阶段可以将视频看做一个整体,进行分类、描述、检索。此外,高级视频信息也可以整理并存储到快手知识图谱中,这样融合感知内容和知识图谱,就可以完成对视频高层语义及情感的识别。因此,感知与推理,基本上也就是快手多媒体理解部门最为关注的两大方面。