近期肺炎严重,春节期间都在家闭关,闲暇时间捡起了之前学习的python,刚好最近在项目上处理大批量数据,从数据库导出数据效率比较低,就想通过python实现导出,结果效率果然很高,基本5-10秒内就导出了,比从mysql数据库直接导出excel效率高了很多。
需求:实现工具类,实现输入库表或sql语句,从数据库导出10万+级数据,要比从mysql导出快捷方便。
实现:以下是实现方式,基本是迭代方式,先实现导出,再实现大批量导出,再优化效率,然后改成公共方法。
首先我导出的数据的数据量基本都超过10万,所以直接使用python的openpyxl,而不是xlwt,xlwt限制6万多条。
1、先import xlwt库,pip install xlwt安装
2、代码编写思路:通过函数实现导出数据,导出表头无需写死,直接通过指定sql读取。所有封装了2个函数,读数据库封装一个方法,写excel封装另外一个方法,详细代码如下:
import MySQLdb
from openpyxl import Workbook
from openpyxl.compat import range
from openpyxl.utils import get_column_letter
import openpyxl
def query_all(sql):
# 连接数据库,查询数据
db = MySQLdb.connect(host="127.0.0.1", port=3306, user="root", passwd="root", db="test",charset='GBK')
# 使用cursor()方法获取操作游标
cur = db.cursor()
# 使用execute方法执行SQL语句
cur.execute(sql) # 返回受影响的行数
fields = [field[0] for field in cur.description] # 获取所有字段名
all_data = cur.fetchall() # 所有数据
print(len(all_data))
return all_data,fields
def read_mysql_to_xlsx(sql,excelname):
# 循环数据写入内容
jb_date_lists = query_all(sql)
#print(jb_date_lists)
jb_date_list = jb_date_lists[0]
descripte = jb_date_lists[1]
#要创建的xlsx名称
dest_filename = excelname + '.xlsx'
wb = Workbook()
ws1 = wb.active
ws1.title = "data"
# 列名
for i in range(0,len(descripte)):
ws1.cell(row=1,column=i+1,value=descripte[i])
# 写入数据
for i in range(2,len(jb_date_list)+2):
for j in range(0,len(descripte)):
if jb_date_list[i-2][j] is None:
ws1.cell(row=i, column=j+1, value='')
else:
ws1.cell(row=i, column=j+1, value=jb_date_list[i-2][j])
# 创建xlsx
wb.save(filename=dest_filename)
if __name__ == '__main__':
sql = 'SELECT * FROM user0205 t'
read_mysql_to_xlsx(sql,'user0205')
以上sql可以直接使用导出数据,亲测OK。效率比较高,5-10秒即可导出10万以上数据。
后期处理数据再也不用mysql客户端导出了,python脚本确实方便。