Documentation
写入数据库
import pandas as pd
from sqlalchemy import create_engine
import MySQLdb
# for pandas writing dataframe to sql
engine = create_engine('mysql+mysqldb://<user>:<password>@<url>:<port>/<database>', echo=False)
# 读取 gzip 文件
fh = pd.read_csv("filename.txt.gz", compression="gzip", sep="\t", header=None)
# 删除列名为14的列
fh = fh.drop([14], axis=1)
# 修改列名
fh.columns = ["name1","name2","name3"]
# 根据已有列 "name2" 增加新列 "name4"
fh["name4"] = fh.name2.str.split("-", expand=True)[0]
# 删除重复行
fh = fh.drop_duplicates()
# 删除重复行后 index 会变位不连续, reset 为连续index
fh = fh.reset_index(drop=True)
# 写入数据库
# if_exists: fain / replace / append
# chunksize: 默认一次写入多少行到数据库,默认一次性写入,数据很大时会很慢
fh.to_sql(name="database_name", con=engine, if_exists='append', chunksize=1000)