可以了解一下zero shot learning(无样本学习?)是什么
应用
- 视频演讲到语音的转化(麦格克效应)
- 多媒体信息的索引与复原(视频总结等)
- 心情识别
- 媒体描述(根据图片生成文字、可视化问答)
常用算法
- 受限玻尔兹曼机
- 循环神经网络
- 深度神经网络
多媒体表达
使用来自多种实体的信息来表达数据。
人工设计-》数据驱动(神经网络模型)
- 联合表达 f(x1,x2,...,xn):将不同模态的特征映射到同一个特征空间中
- 概率图模型:深度玻尔兹曼机,深度信念网络
- 神经网络:
- 序列模型:RNN、LSTM
- 合作表达f(x1)~g(x2):分别使用不同特征进行训练,然后综合考虑不同特征的结果。
- 相似距离
- canonical correlation analysis(CCA)
转换(Translate)
- 基于例子的方法(实质是字典,类似kNN)
- 基于检索的模型
- 混合模型 - 基于模型(通用的)的方法
- 基于语法的
- 基于编码器的
- 基于持续生成的(适用于时间序列)
关联(ALIGNMENT)
寻找来自不同模态的成分的相关性。
显示关联:(弱)监督算法、无监督算法
隐式关联:图模型、神经网络