随着互联网、大数据技术的快速发展,数据量成指数级增长,近年来,数据科学成为一个热门的话题。简单的说,数据科学是关于如何处理数据、获取知识,并用知识解决业务问题(预测、优化、分类、聚类,协助决策等)的过程。
数据科学的发展简史:
-->数据科学在20世纪60年代已被提出。
-->1974年彼得.诺尔出版《计算机方法的简明调查》中将数据科学定义为:“处理数据的科学,一旦数据与其代表事物的关系被建立起来,将为其他领域与科学提供借鉴”。
-->1996年在日本召开的“数据科学、分类和相关方法”,已经将数据科学作为会议的主题词。
-->2001年美国统计学教授威廉.s.克利夫兰发表了《数据科学:拓展统计学的技术领域的行动计划》,有人认为是克利夫兰首次将数据科学作为一个单独的学科,奠定了数据科学的理论基础。
-->2015年,美国政府任命 DJ Patil为史上第一任首席数据科学家。被认为是对众多科技公司大规模招募数据团队行为的效仿。
一张图看数据科学涉及的领域:
数学包括:微积分,线性代数,概率论,统计学等;
计算机部分包括:计算机编程语言(JAVA,R,Python,C/C++,Ruby,Go,SQL等),数据库技术(Mysql,Oracle,MongoDB等),大数据技术(Hadoop,Spark等)
专业知识包括:金融、零售、医药、教育、生物等等各行各业的专业领域知识
数据科学的流程:
数据科学的核心问题,是对数据进行分析、挖掘并提取其价值,以获得对事物的洞察。
数据科学家:数据科学家是伴随着大数据技术的崛起和数据科学的兴起而出现的新的就业岗位。数据科学家被誉为21世纪最性感的职业!数据科学家需要拥有一系列的知识和技能,包括一定的数据知识,机器学习、数据可视化方面的知识和技能,编程能力,以及对具体应用领域(行业问题)的深入了解。此外,数据科学家需要具有良好的沟通能力,能够和业务部门深入沟通,对问题进行抽象,并把分析结果清楚地展示给业务部门,帮助他们做出决策。
数据科学的基本原则:
原则1:数据分析可以划分成一系列明确的阶段。
原则2:数据分析可以分为 描述性分析 和 预测性分析。
原则3:实体的相似度。(没有一片叶子是相同的,但它们是相似的~)
原则4:需要严格考察模型的泛化能力。
原则5:分析结果的评估与特定应用场景有关。
原则6:相关性不同于因果关系。(闪电和雷声是相关的,但它们不是因果关系,它们有共同的原因:大气中放电现象)
原则7:通过并行处理提高数据处理(分析)速度。
原则8:对增量数据与存量数据进行区分处理。
后续,我会从数据 - 编程 - 建模 - 业务案例 的方式对数据科学慢慢道来。