对CSV、excel表格数据进行读取
直接使用pandas进行读取
read_excel()
常用参数解析:
io : excel 路径。
sheet_name:它是指包含DataFrame的工作表的名称。若sheetname=None是返回全表
header : 指定列名行,默认0,即取第一行
skiprows :省略指定行数的数据
skip_footer : int, 省略从尾部数的int行数据,默认不忽略
index_col : 指定第n列为索引列,也可以使用u”strings”
names :指定列的名字。
import pandas as pd
df1 = pd.read_excel('学员管理.xlsx')
df2 = pd.read_csv('学员管理.csv')
所得到的数据块,为DataFrame格式
height,width = df1.shape
print(height,width,type(df1))
>>111027 16 <class 'pandas.core.frame.DataFrame'>
对CSV、excel表格数据进行简单筛选
查询表格各列数据格式
df1.dtypes
>>首购时间 datetime64[ns]
学员id int64
购买课程类型 object
python、NumPy 格式类型的对应关系更改表格各列数据格式
df.astype('数据类型') #改变整个df的数据类型
df['列名'].astype('数据类型') #仅改变某一列的数据类型
df1['学员id']=df1['学员id'].astype('object')
df1.dtypes
>>
首购时间 datetime64[ns]
学员id object
购买课程类型 object
条件筛选数据
数据列大小比较
df1['金额']>200
字符列精确筛选
df1['购买课程类型']=='试听课'
字符列满足任意条件
df1['购买课程类型'].isin(['试听课','小班课']) #筛选购买课程类型为'试听课'或'小班课'的列
字符列模糊筛选
df1['购买课程类型'].str.contains('课') #购买课程类型中,只要带有课字的,均筛选
字符列多个模糊条件筛选
df1['购买课程类型'].str.contains('课|正式') #购买课程类型中,只要带有'课'字或'正式'的,均筛选
时间列比较
dt = datetime.datetime(2021,1, 1)
df1['首购时间']>dt #筛选首购时间在2021/1/1日以后的列
多条件筛选
sx = df1[(df1['金额']>200)&(df1['购买课程类型']=='试听课')&(df1['首购时间']>dt)] #且条件筛选
任意条件筛选
sx = df1[(df1['金额']>200)|(df1['购买课程类型']=='试听课')|(df1['首购时间']>dt)] #或条件筛选
反向筛选
sx = df1[(df1['金额']>200)&(df1['购买课程类型']=='试听课')&(df1['首购时间']>dt)]
sx2 = df1[~df1['学员id'].isin(sx['学员id'])] #筛选学员id不在sx表中的数据
对CSV、excel表格数据进行输出
直接使用pandas进行输出
df.to_excel()
常用参数解析:
excel_writer:文件路径或现有的ExcelWriter。
sheet_name:包含DataFrame的工作表的名称。
na_repr:缺少数据表示形式。
float_format:这是一个可选参数, 用于格式化浮点数字符串。
header:写出列名。如果给出了字符串列表, 则假定它是列名的别名。
index:写入索引。
index_label:引用索引列的列标签。如果未指定, 并且标头和索引为True, 则使用索引名称。如果DataFrame使用MultiIndex, 则应给出一个序列。
merge_cells:返回布尔值, 其默认值为True。它将MultiIndex和Hierarchical行写为合并的单元格。
sx.to_excel('新学生管理.xlsx',index = False)
sx.to_csv('新学生管理.xlsx',index = False)