数据科学已经发展成为一个庞大的系统,包含数学、统计学、概率论、计算机、数据库、编程等各种理论技术。
目前在主流的数据科学领域一般有三大生态,一是以sas、matlab、spss等为代表的商业软件生态,二是围绕R语言建立起来的开源生态,三是目前较为火热的Python数据科学生态。
为什么Python会脱颖而出,成为数据科学的第三极,而且越来越受欢迎呢?
这是因为数据科学编程需要非常灵活的语言,编写代码很简单,但可以处理高度复杂的数学处理。
Python可以说最适合这样的需求,所以大量的数据科学库如春笋般冒出来,有的已经发展成高度完善的企业级库。
比如说Pandas、Numpy、Matplotlib、Sklearn、NLTK等,还有深度学习领域的Keras、Tensorflow、Pytorch、Caffe等,都是顶尖的数据科学工具。
Github上有一个项目,专门汇总了Python数据科学的核心知识点,并以速查表的形式,浓缩在一张张图片里。
速查表清单:
Python基础
1.Python基础.png
Pandas基础
2.Pandas基础.png
Pandas进阶
3.Pandas进阶.png
Numpy基础
4.Numpy基础.png
Matplotlib基础
5.Matplotlib基础.png
Seaborn基础
6.Seaborn基础.png
Bokeh基础
7.Bokeh基础.png
Scipy基础
8.Scipy基础.png
scikit-learn基础
9.scikit-learn基础.png
keras基础
10.keras基础.png
Jupyter基础
11.Jupyter基础.png
数据IO
12.数据IO.png
SQL基础
13.SQL基础.png
Dask基础
14.Dask基础.png
Dask进阶
15.Dask进阶.png
PySpark基础
16.PySpark基础.png
PySpark进阶
17.PySpark进阶.png
可视化基础
18.可视化基础.jpg