Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。
Yann LeCun 在 Google+ 上发布的回答
我经常被问起“深度学习与图模型如何比较?”。这个问题没有答案——因为深度学习和图模型是正交的概念,它们可以(并已经)被组合起来使用了。
让我说得更加清楚一些:这两个模式并不是对立的,它们可以有效地组合起来。
当然,DBM(Deep Boltzmann Machine)是概率因子图的一种形式。但是这些概念用其他的一些方式也可以组合在一起。
例如,你可以想象一个因子图,这些因子本身包含一个DNN(Deep Neural Net)。最能说明这种情况的,就是动态因子图(Dynamic Factor Graph),在这样的图中,在$$t$$时刻的状态向量,$$Z(t)$$ 是由之前的状态和输入,通过一个 DNN (可能使用了一个时态卷积网络)得到的。比如说当log 因子为 $$||Z(t) - G(Z(t-1, X(t)))||^2$$,其中 $$G$$ 是一个 DNN。
这个例子简要说明了,在给定 $$Z(t-1)$$ 和 $$X(t)$$下 $$Z(t)$$ 的条件概率分布是一个以均值为 $$G(Z(t-1), X(t))$$ 的高斯分布,协方差为单位元。
这种类型的动态因子图可以用来建模高维度的时间序列。当序列 $$X(t)$$ 被观测到时,我们可以通过最小化log 因子的和(也常常被称为能量函数)来推断最可能的隐藏状态 $$Z(t)$$ 的序列。
一旦最优的 $$Z(t)$$ 被找到,我们可以更新网络 $$G()$$ 的参数来让能量变得更小。
更加高级的处理方式是可以用来学习高斯分布的协方差,或者来对 $$Z(t)$$ 的序列进行边缘化,而不仅仅使用后验最大推断(仅仅考虑有最低能量的序列)。
这种深度因子的因子图在 ECML 2009 上提出,这也是我和我的学生 Piotr Mirowski(现在 Bell 实验室)。“Factor Graphs for Time Series Modeling”
相似的模型出现在使用 auto-encoder 的非监督预学习进行语言建模的论文中 “Dynamic Auto-Encoders for Semantic Indexing”
另外将深度学习和图模型组合起来的方式是通用结构化预测(structured prediction)。尽管这听起来是一个新的想法,但是其历史要追溯到90年代早期。Leon Bottou 和 Xavier Driancourt 使用一个序列在时态卷积网络上进行语音识别。他们同时训练这个卷积网络和灵活的词模型,在词的层次上,通过在时间相关的模块(这个可以看做是一种因子图,其中时间相关的函数是一个隐含变量)上进行梯度的后向传播进行。
在90年代早期,Leon、Yoshua Bengio 和 Patrick Haffner 设计了一个混合的语音识别系统,其中在词(或者句子)的层次使用一个辨别式的规则同时训练得到一个时态卷及网络和一个隐马尔科夫模型。
在多年以后,Leon、Yoshua、Patrick 和 我使用了相似的想法来训练我们的手写识别系统。我们放弃了规范化的HMM,使用了没有进行规划化的基于能量的因子图。当训练是辨别式的时候,规范化操作是多余的(甚至有害的)。我们称这个为“Graph Transformer Network”。这个最初在 CVPR 1997 和 ICASSP 1997上发表。
一些关于这个的历史在“A Tutorial on Energy-Based Learning”上有较为详细的介绍。