本文重点介绍pyhon最常用的几个库:
1. SymPy
SymPy是python一个科学计算库,有一套强大的科学计算体系,覆盖了从基本的符号运算到计算数学、代数学、离散数学、量子物理等多个领域。可以完成诸如多项式求值、求极限、解方程、微分方程、级数展开、矩阵运算等等计算问题。
虽然Matlab的类似科学计算能力也很强大,但是Python以其语法简单、易上手、异常丰富的三方库生态,个人认为可以更优雅地解决日常遇到的各种计算问题。
2. Numpy
Numpy是用于数据分析、机器学习、科学计算的重要软件包。它极大的简化了向量矩的操作及处理。Python的不少数据处理软件包依赖于Numpy作为其基础架构的核心部分(如Scikit-learn, Scipy, Pandas和tensflow等)
3. Scipy
Scipy是一个科学计算工具包,可以处理插值、积分、优化、图像处理、常微分方程数据解的求解、信息处理等问题。它是基于Numpy搭建的。可用于有效计算Numpy矩阵,使Numpy和Scipy协同工作,高效解决问题
4. Scikit Learn(sklearn)
Sklearn是一个机器学习包,它是基于Numpy, Scipy和matplotlib搭建。它的主要功能分为六大部分:分类、回归、聚类、数据降维、模型选择和数据预处理,性能也很不错。
不过,sklearn不支持深度学习和强化学习,不支持图模型和序列预测,同时也不支持python之外的语言,不支持PyPy也不支持GPU加速。
常用子模块有:
分类 :SVM , K近邻 ,随机森林 , 逻辑回归等。
回归 :Lasso ,岭回归 等。
聚类 :K-means ,谱聚类等。
降维 :PCA ,特征选择 ,矩阵分解等。
模型选择 :网格搜索, 交叉验证 ,指标矩阵。
预处理: 特征提取,正态化。
5. Statsmodels
Statsmodels用于拟合统计模型、参数据估计、假设检验、不确定性评估以及数据探索和可视化。相比sklearn,statsmodels更侧重于统计推理、p值和不确定性评价。常用子模块包括:
回归模型:线性回归 ,通用线性回归,鲁邦线性模型 ,线性混合效应模型等。
方差分析(ANOVA)
时间序列分析:AR , ARMA , ARIMA , VAR等。
非参数方法: 核密度估计 , 核回归。
统计模型结果可视化。
6. Matplotlib
Matplotlib是python中类似于matlab的绘图工具,实际上matplotlib有一套完全依照MATLAB的函数形式的绘图接口,在matplot.pyplot模块中,这套函数接口方便MATLAB用户过度到matplotlib
7. Seaborn
Seaborn在matplotlib基础上进行封装的,但seaborn是针对统计绘图的。一般来说,seaborn能满足数据分析90%的的绘图需求。
Seaborn旨在使可视化成为探索和理解数据的核心部分。其面向数据集的绘图功能对包含整个数据集的数据框和数据组进行操作,并在内部执行必要的语义映射和统计聚合,以生成信息图。
Seaborn可以做热力图、散点图、直方图、箱形图、树形图、热点图等等
8. Pandas
Pandas是基于Numpy数组构建的,专门为处理表格和混杂数据设的,而Numpy更适合处理统一的数据数组数据。
参考资料: