pandas 使用总结

Pandas 使用总结

1.Pandas 介绍

pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

​ ——来自百度百科

简单来说,pandas是一个能够方便快捷地处理表格等结构数据的工具包,能够很方便地读取,处理excel等数据。

能够大大简化数据分析的工作。

2.安装命令

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas

3.导入包

import pandas as pd

4.创建,读取DataFrame

  1. 通过数组创建表格

    array = [1, 2, 3, 4, 5]
    pd.DataFrame(array,columns=['数据'])
    
  1. 通过字典创建表格

    pd.DataFrame({'数据':array})
    
  2. 读入excel文件创建表格

    pd.read_excel('study.xlsx')
    

    read_excel 参数:

  3. 读入csv文件创建表格

    pd.read_csv('study.csv')
    

    read_csv 参数:

5.保存数据

df.to_excel('study.xlsx')
df.to_csv('study.csv')

6.数据处理之增删改查

增加数据

  1. 增加行数据
df.loc[len(df)]=2 # 使用这种方式需要注意索引列的设置方式,不设置索引列,自动生成一行索引列
df_new = pd.concat([df3,df4],ignore_index=True)

  1. 增加列数据

    df['第二列'] = [1, 2, 3, 4, 5]
    

删除数据

df.drop(axis=0,index=0) # 删除某一行
df.drop(axis=1,index=0) # 删除某一列

drop 中如果指定 inplace = True 则会再原来的数据上做修改

另外:

对空值的处理:

df.dropNa()可以删除包含nan的数据行或者列

查询和修改数据

df['某一列'][1]
df.loc[:,'某一列']
df.iloc[1,1]
df.loc[df['某一列']==1]

df.loc[df['某一列']==1&]:通过这种方式可以快速筛选需要的值,其中,表达式支持 &和|作为 操作

高级功能

df.info() # 可以查看数据表的结构
df.describe() # 可以查看每一列的描述
df.shift(-1) # 可以使数据上下移动

分组

df.groupby(by='列名').apply(lambda x:print(np.sum(x))

后续等待更新

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容