做数据分析、数据挖掘的朋友都知道,掌握Hadoop、Python是很有必要的,写写脚本、写写代码有助于我们节省时间,提高效率。今天我们大圣众包平台(www.dashengzb.cn)就为大家整理了与数据分析相关的python库!
利用Python进行数据分析相关的库:
NumPy
NumPy是Python科学计算的基础包,它提供:
快速高效的多维数组对象ndarray;
直接对数组执行数学运算及对数组执行元素级计算的函数;
线性代数运算、随机数生成;
将C、C++、Fortran代码集成到Python的工具等。
它专为进行严格的数字处理而产生。多为很多大型金融公司使用,以及核心的科学计算组织如:LawrenceLivermore,NASA用其处理一些本来使用C++,Fortran或Matlab等所做的任务。
Pandas
Pandas主要提供快速便捷地处理结构化数据的大量数据结构和函数。
Matplotlib
Matplotlib是最流行的用于绘制数据图表的Python库。
IPython
IPython是Python科学计算标准工具集的组成部分,是一个增强的PythonShell,目的是提高编写、测试、调试Python代码的速度。主要用于交互式数据处理和利用matplotlib对数据进行可视化处理。
SciPy
SciPy是一组专门解决科学计算中各种标准问题域的包的集合。主要包括以下包:
scipy.integrate:数值积分例程和微分方程求解器;
scipy.linalg:扩展了由numpy.linalg提供的线性代数例程和矩阵分解功能;
scipy.optimize:函数优化器以及根查找算法;
scipy.signal:信号处理工具;
scipy.sparse:稀疏矩阵和稀疏线性系统求解器;
scipy.special:SPECFUN(这是一个实现了许多常用数学函数的Fortran库)的包装器。
scipy.stats:标准连续和离散概率分布、各种统计检验方法和更好的描述统计法;
scipy.weave:利用内联C++代码加速数组计算的工具。
这些库并不是每个都需要用上,重点根据自己的数据需求,合适选择方便应用!
原文地址:http://www.dashengzb.cn/articles/a-155.html
(更多大数据与商业智能领域干货、兼职机会及行业资源分享等请关注大圣众包平台,或添加大圣花花个人微信号(dashenghuaer),拉你入bigdata&BI交流群330648564。)