[译] Are ML and Statistics Complementary?

Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。

Roundtable discussion at the 6th IMS-­ISBA meeting on “Data Science in the next 50 years”
Max Welling, University of Amsterdam
December 28, 2015

原文

有人曾经让我给出一些关于“未来 50 年的数据科学”话题的看法,特别是机器学习和统计学之间的关系。机器学习,相比统计学是一门更加年轻的学科。前者构建在统计学的基础之上,在若干年的发展过程也吸收了大量的统计学的哲学思想和众多的技术。例如,在机器学习中,我们几乎都在跟随 极大似然估计 或者 Bayesian 规则来进行估计,然后用 EM 方法来处理隐含变量。同样,机器学习前面一次热潮(在深度学习前面那次)就是关于无参贝叶斯方法,其实就是统计学的核心领域。同时,这两者之间也存在文化上的差异:统计学更加聚焦在统计推断上,也就是说通过随机样本来对总体的属性进行解释和测试,而机器学习则是更加关心预测,甚至预测的机制无法真正解释清楚(所谓的黑盒预测)。

在今天看到的往深度学习的偏移的范式给出了关于机器学习和统计学之间的文化鸿沟的一个优雅的描述。在图模型和无参数方法成为主要工具,而如 EMMCMC 学习推断方法占据主要地位期间,两个学科进行了十多年的融合。

深度学习的成功可以用三个因素来解释:

  1. 规模化计算(例如,使用 GPU)
  2. 收集和处理海量数据
  3. 使用海量参数的模型,即使他们无法识别和解释

由于他们的关于计算机科学(非数学)的教育,因素 1 和 2 成为了机器学习专家们的第二天性。因素 3 是 1 和 2 的结果,也是一种对准确预测结果而非统计推断的重视。深度学习的范式越来越多地成为:搜集海量数据,确定需要优化的代价函数,设计一个神经网络使得梯度可以“end-to-end”传播,最后应用某种随机梯度下降的版本来最小化代价函数直到结束。不管你喜不喜欢,这个令人吃惊的效果就是在预测的这个场景下还没有出现能够战胜这个范式的方法。

在图模型流行的十年后,钟摆似乎已经从统计理论摆到了计算方面。对于数十亿的神经网络参数的解释好像也没有什么希望。甚至会不情愿去对结果进行某种校准的工作,来尝试量化预测的不确定性。

不过,我猜测这两个学科其实不会分开。他们代表了数据科学的两个关键部分,肯定是会长期整合在一起发展的。(并且,如果我们不刻意去区分这两个学科成不同的院系,可能会更有帮助。)对统计学家,我想说的是:如今再去小瞧可供分析的海量数据就很不妥了(实际上很多统计学家都是这样的)。分析海量数据,我们需要关系存储和分布式计算。我们常常听到统计学系里面的研究者在抱怨他们学生的编程能力。所以将计算机科学的课程安插到统计学的课程设计中是很合理的选择。还有那些复杂的黑盒预测模型呢?实际上这取决于问题本身,但是在假设真实世界就是无限复杂的前提下,模型的复杂性应该随着数据的规模扩展其实也就是我们需要付出的代价了。

一个让统计学和计算机科学完美结合的场景就是以模拟为形式的模型。实际上,这是大多数科学学科表达关于一个问题领域(如天气预报)的专家知识的方式。所有变量都有清晰的语义解释,并且统计学家的任务是在这些变量上进行推断。不过,这个任务需要大量的计算资源,还有关于在哪些地方使用以及如何使用这些已有的计算资源的细致考量。这个领域在统计学中被称作“近似贝叶斯计算”(Approximate Bayesian Computation)。在机器学习领域,一个新出现的范式——概率程序设计,就是用来解决同样的推断任务,同时带来一种专门的程序设计语言(比如说,基于图模型的)来表达这些模型。

一个关键的问题是,统计学和机器学习会不会在深度学习这个领域进行融合呢?换言之,统计学家会不会采用严重依赖计算的深度学习范式,而机器学习专家采用某些统计工具来丰富已有的领域呢?我认为会,我来说一下原因。尽管现在对某些特定的应用简单的预测方法就足够了,但是还有很多情景中不是这样的。例如在网页上预测如何投放广告。理论上讲,仅仅通过作出准确的预测,就可以获得回报。不过,确定那些导致某些结果的因素(这其实是一种统计推断的形式)会给出洞察并帮助设计出对不同的场景更加健壮的预测工具。还有,对校准的不确定性估计的采用将会帮助我们确定预测需要的是基于 covariates (基于内容的过滤)还是 用户点击行为(协同过滤)。另外,这还能够帮助平衡利用(提供我们知道用户会喜欢的广告)和探索(提供我们能够学习关于用户的某些知识的广告)。

更加一般地说,我们在真实场景中采用预测工具时候——比如说,让他们和人类进行交互,基于这些预测工具来产生决策——需要统计工具(例如,因果推理,校准 error-bars)。打个比方,内科医生想要理解为何一个算法认为这个病人会发展出 Alzheimer 疾病,他/她还想知道到这个预测结果正确的概率是多少。同样,自动驾驶汽车需要知道什么时候难以掌握当前的道路状况能够准确地把汽车控制权交还给人类司机。因此,对很多的应用,为了成功地和人类进行交互,机器需要对人类解释它们的推理(包含一些量化的置信度)。

最后,机器学习专家更加倾向于对建模的应用方法论方面的专注。(尽管在机器学习理论中的确有一整个子领域在处理理论问题)。所以,会有很多已被承认的方法事实上只有有限的理论基础,或者说,理论性质并没有得到深入的研究。例如,在很多研究者在使用或者发展半监督学习方法时,并不很清楚他们工作基于什么条件进行的。所以这个方面,其实统计学家能够给机器学习带来更多的理论上的贡献。

在数据科学领域中其实还有很多令人好奇的关于统计学和机器学习交叉的问题,例如:

  1. 公平决策制定
  2. 数据的偏差清除
  3. 隐私保护预测
  4. 因果性中关联的明晰化
  5. 可靠的高维度空间中的统计过程
    ...

我希望,这两个学科能够不断认识到自身工具间的互补性,然后在未来的研究中能够产生更多合作的成果。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容