数据科学的核心:从实际生活中抽取出数据,然后利用计算机的计算能力和模型算法从这些数据中找到一些有价值的内容,为商业决策提供支持。
绕不开的python库
分类 | 名称 | 应用 |
---|---|---|
数据预处理 | numpy | 科学计算基础库,它能提供高效的n维数组和向量运算 |
scipy | 科学计算库,依赖于numpy,提供高效的数值运算,以及用于函数最优化,数值积分等任务的模块 | |
pandas | 数据结构和数据分析库。包含高级数据结构和类sql语句,让数据处理变得快速,简单 | |
数据可视化 | matplotlib | 数据可视化库,提供大量专业数据图形制作工具 |
标准模型库 | scikit-learn | 标准机器学习库。用于分类,回归,聚合等。依赖numpy,scipy,matplotlib |
statsmodels | 标准统计模型库。它主要用于假设验证和参数置信区间分析 | |
spark ML | 分布式机器学习算法库,可在分布式集群,如hadoop上进行大量数据建模。spark ml使用scala开发,但是提供python api | |
tensorflow | 成熟的深度学习算法库,提供gpu计算模块 |