##[Vamei]数据科学 - Vamei

数据科学 - Vamei - 博客园 http://www.cnblogs.com/vamei/p/3178534.html

作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢!

数据科学最近成为计算机的热门领域。数据科学是利用计算机的运算能力对数据进行处理,从数据中提取信息,进而形成“知识”。它已经影响了计算机视觉、信号处理、自然语言识别等计算机分支。数据科学已经在IT、金融、医学、自动驾驶等领域得到广泛使用。(如果你熟知中情局的棱镜泄密事件,你会发现数据科学已经在情报领域广泛使用。)

在这系列文章中,我希望能完成从概率论,统计,到机器学习的整个数据分析的链条。传统意义上的数据处理是用统计方法实现的,而概率论是统计的基础。随着计算机处理能力的增强,一些需要大量运算的数据分析方法得到快速发展。机器学习实际上是一个混合体,包括一些在计算机领域中发展的算法,也包括一些传统统计中已经存在,但受限于计算能力的统计方法。另一方面,从数据中提炼知识是机器学习的主要目的,这与统计推断密切相关。因此,从传统的概率和统计出发,更容易理解机器学习的内涵。
当然,这样做的困难之处是要覆盖许多内容。严格的叙述有时会显得比较无聊。我会尽力引入实用的编程例子,以便能形成更好的触觉。编程工具会以Python语言为主,配以第三方的包,如Numpy, Scipy, Matplotlib, scikit-learn。统计和机器学习同样可以在其他语言中实现,比如Matlab和R语言。如果你熟悉相应的工具,不难写出类似功能的代码。

概率论
计数
概率公理
条件概率
随机变量
离散分布
连续分布
联合分布
随机变量的函数
期望
方差与标准差
协方差与相关系数
矩与矩生成函数
中心极限定律
数学与编程:“概率论”总结

统计基础
统计概述
数据描述

参数估计
区间估计
假设检验
线性回归
ANOVA
无参估计
贝叶斯方法

多变量数据
线性代数01 线性的大脑
PCA分析

时序分析
信号与频谱

机器学习
监督学习
无监督学习

绘图工具
1) matplotlib:
matplotlib核心剖析

参考书籍
豆列

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容