Pandas常用方法

操作Excel

  • 读取Excel

    df = pd.read_excel(file_path, sheet_name = 索引或者名称)
    
  • 存储Excel

    df.to_excel('文件名.xls')
    
  • 拼接数据

    def sum_excel(self,sheet_index):
          file_name = listdir(self.path)
          sum_df = []
          for name in file_name:
              file_path = self.path + name
              df = pd.read_excel(file_path, sheet_name = sheet_index)
              sum_df.append(df)
          df = pd.concat(sum_df)
          df.to_excel('{}.xlsx'.format(sheet_index), index = False)
    

切片和索引

  • iloc - 通过位置获取行数据

    df.iloc[行号,列号]
    df.iloc[:,N] # 获取第N列的数据
    
  • loc - 通过标签索引行数据

    df.loc['行名称','列名称']
    

统计方法

  • 统计重复值

    df.groupby(by="列名").size
    

排序

  • sort_values()

    df.sort_values("列名",ascending=False)
    # ascending默认为True,升序排列,为False是降序排列。  
    
  • nlargest()

    df.nlargest(5,"列名") 
    # 待研究
    

去重

使用Pandas的drop_duplicates方法,subset指列名,keep指“只保留遇到的第一个结果”

import pandas as pd
data = {'demo':[1,1,2,2,1,2,2,3,4,5,6,98,4,2,4,2,2,5,6,7]}
df = pd.DataFrame(data)
a = df.drop_duplicates(subset=['demo'],keep='first')
print(a)
# 输出结果:1\2\3\4\5\6\98\7
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容