操作Excel
-
读取Excel
df = pd.read_excel(file_path, sheet_name = 索引或者名称)
-
存储Excel
df.to_excel('文件名.xls')
-
拼接数据
def sum_excel(self,sheet_index): file_name = listdir(self.path) sum_df = [] for name in file_name: file_path = self.path + name df = pd.read_excel(file_path, sheet_name = sheet_index) sum_df.append(df) df = pd.concat(sum_df) df.to_excel('{}.xlsx'.format(sheet_index), index = False)
切片和索引
-
iloc - 通过位置获取行数据
df.iloc[行号,列号] df.iloc[:,N] # 获取第N列的数据
-
loc - 通过标签索引行数据
df.loc['行名称','列名称']
统计方法
-
统计重复值
df.groupby(by="列名").size
排序
-
sort_values()
df.sort_values("列名",ascending=False) # ascending默认为True,升序排列,为False是降序排列。
-
nlargest()
df.nlargest(5,"列名") # 待研究
去重
使用Pandas的drop_duplicates方法,subset指列名,keep指“只保留遇到的第一个结果”
import pandas as pd
data = {'demo':[1,1,2,2,1,2,2,3,4,5,6,98,4,2,4,2,2,5,6,7]}
df = pd.DataFrame(data)
a = df.drop_duplicates(subset=['demo'],keep='first')
print(a)
# 输出结果:1\2\3\4\5\6\98\7