Pandas常用方法

操作Excel

读取Excel

df = pd.read_excel(file_path, sheet_name = 索引或者名称)

存储Excel
```
df.to_excel('文件名.xls')
```

拼接数据

def sum_excel(self,sheet_index):
      file_name = listdir(self.path)
      sum_df = []
      for name in file_name:
          file_path = self.path + name
          df = pd.read_excel(file_path, sheet_name = sheet_index)
          sum_df.append(df)
      df = pd.concat(sum_df)
      df.to_excel('{}.xlsx'.format(sheet_index), index = False)

切片和索引

iloc - 通过位置获取行数据

df.iloc[行号,列号]
df.iloc[:,N] # 获取第N列的数据

loc - 通过标签索引行数据
```
df.loc['行名称','列名称']
```

统计方法

统计重复值
```
df.groupby(by="列名").size
```

排序

sort_values()

df.sort_values("列名"，ascending=False)
# ascending默认为True，升序排列，为False是降序排列。

nlargest()
```
df.nlargest(5,"列名") 
# 待研究
```

去重

使用Pandas的drop_duplicates方法，subset指列名，keep指“只保留遇到的第一个结果”

import pandas as pd
data = {'demo':[1,1,2,2,1,2,2,3,4,5,6,98,4,2,4,2,2,5,6,7]}
df = pd.DataFrame(data)
a = df.drop_duplicates(subset=['demo'],keep='first')
print(a)
# 输出结果：1\2\3\4\5\6\98\7

最后编辑于：2021.12.17 16:39:25

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Pandas常用方法

Pandas常用方法

操作Excel

切片和索引

统计方法

排序

去重

相关阅读更多精彩内容

友情链接更多精彩内容