演讲者:Jeffrey D. Ullman-学者概况-学术范 (xueshufan.com)
作者:Jeffrey David Ullman(1942年11月22日-),美国计算机科学家,斯坦福大学名誉教授。他关于编译器(各种版本被称为绿龙书)、计算理论(也被称为灰姑娘书)、数据结构和数据库的教科书被认为是各自领域的标准。他和他的长期合作者Alfred Aho是2020年图灵奖的获得者,一般被认为是计算机科学的最高荣誉。(摘自维基百科)
本演讲为KDD2021 Keynotes Talk的最后一场演讲。
演讲内容摘录
演讲聚焦于数据科学分别于机器学习和统计学之间的关系,以使听众更了解数据科学的本质。
从本世纪第一个十年的数据挖掘或知识发现,到第二个十年的大数据,再到如今的数据科学,该领域的宗旨未曾改变,即:将速度最快、规模最大的硬件设备和速度最快的算法以及最高效的程序结合起来解决商业和科学领域的问题。
演讲者认为数据科学是数据库系统研究自然进化的产物。
同时,演讲者指出,想要在数据科学领域有所作为需要掌握计算机科学的核心并在处理大量数据上有所专长。
演讲者通过驳斥Drew Conway的韦恩图、并给出自己的韦恩图来表示数据科学与其他领域的关系。数据科学是计算机科学和其他专业领域结合部,其中涉及到了机器学习,但不限于机器学习。此外,在数据科学角度,数学和统计学并不直接影响专业领域,而是通过计算机领域的算法等对其产生间接影响。
与统计学相比,数据科学总体上是一门实验性学科。在数据科学家往往通过实现、运行某一算法或模型来验证某一方法的正确性,而不是通过分析推导避免模型出错。因此,对于数据科学来说,判断错误的标准和改进方法比理论上的分析更重要。
与机器学习相比,并不是所有的数据科学问题是通过建立模型解决的,比如Locality-Sensitive Hashing和Approximate Counting等(演讲者这里推荐了一本名为“Mining of Massive Dataset”的书)。同时,方法的可解释性在某些领域非常重要比如保险公司估计保费。
何时使用机器学习:
1.问题需要通过建模解决
2.不需要对结果进行解释
3.缺少对问题相关领域的认识
结论
1.数据科学是计算机科学许多分支自然演化的结果,尤其是其中通过处理大型数据集帮助科学或产业发展的方面。
2.统计学者尤其独到之处,但过于关注分析数据,对于解决实际问题不够关注。
3.机器学习是数据科学的重要部分,但远不是数据科学的全部。
注:本文为演讲摘录,所有内容和图片均选自演讲内容,欢迎各位讨论~