在数据开发的工作中,经常会遇到各种各样的问题,但往往又不是特别复杂的业务流程,如果用java处理起来总感觉显得有些笨重,这个时候我会更青睐python。
因为Python语言及其众多的扩展库所构成的开发环境,十分适合数据科学领域,且具有简洁性、易读性的特点,对新手较为友好。本文将针对几大类场景,汇总一下我目前使用过的python包,供各位参考(下方有xmind版本)。
一、数据采集场景
这里的数据采集主要是针对的爬虫采集页面的需求
1.Selenium 用于模拟浏览器
2.Scrapy 常用的爬虫框架
3.requests 网络请求
二、数据清洗场景
1.Beautiful Soup 靓汤,可以用于解析前面采集到的htlm文件
2.Json 用于解析json文件
3.docx 用于解析doc文件
4.openpyxl 用于解析xls文件
三、数据计算
1.Numpy 数组与矩阵运算
2.Pandas 处理数据的函数和方法
3.pyspark 用python调用spark引擎
四、数据库交互场景
1.pymysql 连接mysql数据库
2.py2neo 连接neo4j图数据库
五、数据可视化场景
1.Matplotlib 可以用命令行的形式绘制图形
2.Pyecharts 用于echarts图表的类库
六、机器学习场景
1.Scikit-learn 分类、回归、聚类、数据降维、模型选择和数据预处理
七、深度学习场景
2.PyTorch 继承了NumPy的众多优点,还支持GPUs计算
3.Tensorflow 由google推出,更倾向于工业应用
八、数据服务场景
1.webpy web开发框架
2.flask web开发框架
3.threading 处理多线程
ps:可以在公众号【大数据干货分享】对话框回复“python”,获取python数据分析电子书。