原文:Difference between Machine Learning, Data Science, AI, Deep Learning, and Statistics https://www.datasciencecentral.com/profiles/blogs/difference-between-machine-learning-data-science-ai-deep-learning
翻译
在本文中,我将描述数据科学家的各种角色,以及数据科学与相关领域(如机器学习,深度学习,人工智能,统计学,物联网,运筹学和应用数学)之间的比较和重叠。 作为一名理科学生,在没有任何知识的情况下,您可能会发现自己处于商业环境中。 在任何科学学科中,数据科学家都可能借用相关学科的技术,尽管我们已经开发了我们自己的库,尤其是技术和算法,以自动方式处理非常大型的非结构化数据集,即使没有人为交互,也可以执行实时事务 或做出预测。
1.不同类型的数据科学家
2014年发布了大约9种数据科学家类型,或者2014年发布的我的比较数据科学与16种分析学科的文章,以开始并获取一些历史观点。
在同一时期发表的以下文章仍然有用:
数据科学家与数据架构师
数据科学家与数据工程师
数据科学家与统计学家
数据科学家与业务分析师
最近(2016年8月)Ajit Jaokar讨论了Type A(分析)与Type B(Builder)数据科学家:
A型数据科学家不能成为专家。 A型数据科学家可能是实验设计,预测,建模,统计推断或其他问题的专家。一般来说,学术论文有时被用来提出(例如,有时候,对于在制药行业工作的传统统计学家)。在谷歌,A型数据科学家被称为统计学家,定量分析师,决策支持工程分析师或数据科学家,可能还有其他几位。
B型数据科学家:B用于建筑。 B型数据科学家与A型具有统计学背景,但他们是非常强大的编码员,可能是经过培训的软件工程师。 B型数据科学家对“在生产中”使用数据感兴趣。他们建立与用户互动的模型,通常服务于推荐(产品,你可能认识的人,广告,电影,搜索结果)。来源:点击这里。
所以我写了关于业务流程优化的ABCD,其中D代表数据科学,C代表计算机科学,B代表商业科学,A代表分析科学。数据科学可能涉及或不涉及编码或数学实践,正如您可以在我的关于低级别和高级别数据科学的文章中阅读的那样。在初创企业中,搜索者,数据挖掘者,数据工程师或架构师,研究人员,统计师,建模师(如在预测建模中)或开发人员。
虽然数据科学家通常被描绘为R,Python,SQL,Hadoop和统计学方面的编码员,但这仅仅是冰山一角,由数据营在数据科学的某些要素教学中受到欢迎。天文学,数学物理学,核物理学(这是边缘化学),力学,电气工程,信号处理(数据科学的一个子领域)等等。以及生物信息学,信息技术,模拟和质量控制,计算金融,流行病学,工业工程,甚至数论。
就我而言,在过去的10年中,我专门从事机器对机器和设备到设备的通信,开发系统来自动处理大型数据集,执行自动事务:例如,购买Internet流量或自动生成内容,它意味着开发能够处理非结构化数据的算法,它处于AI(人工智能)IoT(物联网)和数据科学的交叉点。这被称为深度数据科学。它相对没有数学问题,并且涉及相对较小的编码(主要是API),但它的数据密集程度相当高(包括构建数据系统),并基于专门为此设计的全新统计技术。
在此之前,我曾实时处理信用卡欺诈检测。早在“我的职业生涯”(大约在1990年),我研究了遥感技术的图像,包括识别卫星图像中的图案和执行图像分割的其他内容:当时我的研究被标记为计算统计数据,但在我家大学隔壁的计算机科学系做同样的事情的人称他们的研究为人工智能。今天,它将被称为数据科学或人工智能,子域是信号处理,计算机视觉或物联网。
此外,数据科学家可以在数据科学项目的生命周期,数据收集阶段或数据探索阶段的任何地方找到,一直到统计建模和维护现有系统。
2.机器学习与深度学习
在深入研究数据科学与机器学习之间的联系之前,让我们先简要讨论机器学习和深度学习。机器学习是一组算法,通过训练数据集来进行预测或采取行动来优化某些系统。例如,基于历史数据,监督分类算法被用于将潜在客户分类为好或坏的前景,用于贷款目的。对于给定的任务(例如,监督聚类),所涉及的技术是不同的:朴素贝叶斯,SVM,神经网络,集合,关联规则,决策树,逻辑回归或许多组合。有关算法的详细列表,请单击此处。有关机器学习问题的列表,请点击此处。
所有这些都是数据科学的一个子集。当这些算法实现自动化时,如自动驾驶或无驾驶汽车,它被称为AI,更具体地说,是深度学习。点击这里查看另一篇文章,比较机器学习和深度学习。如果数据来自传感器并通过互联网传输,那么机器学习或数据科学或深度学习应用于物联网。
有些人对深度学习有不同的定义。他们认为深层学习是一种更深层次的神经网络(机器学习技术)。 Quora最近被Quora问及。
AI(人工智能)是计算机科学的一个子领域,它创建于20世纪60年代,它关注于解决对人类而言很容易但对计算机来说很难的任务。特别是,所谓的强大的AI将是一个人类的可能(可能没有纯粹的物理事物)。这是非常通用的,包括各种任务,如计划,在世界中移动,识别物体和声音,说话,翻译,执行社交或商业交易,创作(制作艺术或诗歌)等。
自然语言处理(NLP)只是人工智能的一部分,必须用语言来完成(通常是书面的)。
机器学习是以离散的方式处理的(例如,在一组特定的动作之外,并给出了关于世界的大量信息,图)在没有程序员的情况下,什么是“正确的”行为。用数学术语来说,它是一个函数:你输入一些输入,并且你希望它产生正确的输出。为了与AI区分开来,如果我能写出一个类似人类行为的非常聪明的程序,它可以是AI,但是除非它的参数是从数据中学习的,否则不是机器学习。
深度学习是最流行的学习过程之一。它涉及一种特定类型的数学模型,可将其视为某种类型的简单块(函数组合)的组成。
机器学习和统计有什么区别?
本文试图回答这个问题。作者写道,统计数据是机器学习的置信区间。我倾向于不同意,因为我建立了不需要任何数学或统计知识的工程友好置信区间。
3.数据科学与机器学习
机器学习和统计是数据科学的一部分。机器学习中的“学习”一词意味着算法依赖于某些用作训练集的数据来微调某些模型或算法参数。这包括许多技术,如回归,朴素贝叶斯或监督聚类。但并非所有技术都适合这一类别。例如,无监督聚类 - 一种统计和数据科学技术 - 旨在检测聚类和聚类结构,而不需要任何先验知识或训练集来帮助分类算法。需要人类来标记找到的群集。一些技术是混合的,例如半监督分类。一些模式检测或密度估算技术适合这一类别。
数据科学不仅仅是机器学习。数据科学中的数据可能来自机器或机械过程(可能收集调查数据,临床试验涉及特定类型的小数据),它可能与学习无关。完全不同的是数据处理的整个范围,而不仅仅是算法或统计方面。特别是数据科学也包括在内
数据集成
分布式架构
自动化机器学习
数据可视化
仪表板和BI
数据工程
部署在生产模式
自动化的,数据驱动的决策
当然,在许多组织中,数据科学家只关注这个过程的一部分。要阅读我对数据科学的一些独创贡献,请单击此处