Pandas是Python处理数据分析包。当需要处理大量数据时能比EXCEL提供更强大的运行效率。可以与读入,写出如:CSV,CST,Excel,MySQL等数据存储方式。
任务:
本次将要介绍的是如何利用Pandas以及一些辅助包来:
1. 将Python中的DataFrame数据写入MySQL
2. 将MySQL中的数据导入Pyhon,并且利用MySQL语句进行操作
准备:
利用到的模拟数据来自Stackoverflow 中的Stack Overflow Annual Developer Survey 2020 (CSV File)(https://insights.stackoverflow.com/survey)关于程序员的调查数据
在操作之前确保已经安装相应的库:Pandas,SQLAlchemy,pymysql
用到的工具:Anaconda,JupyterNotebook(IDLE 或 Pycharm也可,但Jupyter的数据界面比较清晰),MySQL Workbench(8.0版本)。
方法如下(假设已经安装Anaconda):搜索Anaconda Prompt
pip install PyMySQL
pip install Pandas
pip install SQLAlchemy
操作阶段
1. 导入数据到Jupyter
将下载的CSV导入Jupyter,操作如下
2. 提前设置好Mysql
在Mysql中建立新的数据库(Schema)命名为sample_db
3. 创立连接
首先import sqlalchemy 和 pymysql库
create_engine 为一个方法(method),执行建立连接的操作
engine变量储存所创立的连接,以便重复利用
df.to_sql() 为写入sql的一个方法(method),其中arg1 为数据库中数据表的名称(此时新建的),engine 代表前期利用create_engine创建的连接。if_exists 检查是否之前已经存在此数据表,‘append’代表如果存在附加,‘replace’代表如果存在,覆盖原来数据。
操作完毕,登录数据库,此时在数据库(sample_db)中将能看到新创建的数据表(sample_table)
4. 读取数据库中的数据
还是利用第三步创立的连接engine,在Jupyter中接着输入
sql_df_test = pd.read_sql('sample_table',engine,index_col = 'Respondent')
将sample_table 中的数据导入并且赋值给sql_df_test
5. 利用Python操作查询导入想要的数据
如果不想全部导入数据库中的数据,可以设置查询条件,只导入需要的数据。此时用到的语句为
pd.read_sql_query (query 代表查询),arg1 为查询的条件(SQL语法),代表从sample_table中以age>30 为条件,* 代表查询所有的数据。
验证sql_df_test['Age'].min() 为31
6. Pandas语句查询与Mysql语句查询对比
假设想查询模拟数据中,参与调查的中国程序员的平均年龄。
利用pandas语句
利用mysql语句(生成DataFrame格式,方便在Pandas中做进一步操作)
利用mysql语句(简单的结果输出)