Pandas基础(一)

什么是DataFrame

Pandas中有两种基础数据类型:Series与DataFrame。Series类似于以为数组对象,由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。DataFrame则是一个表格型的数据结构,包含一组有序的咧,没列可以是不同的值类型(数值、字符串、布尔型等),DataFrame既有行索引,也有列索隐。

  1. 导入 Panda 库
import pandas as pd 
#设置显示最多的行列,避免影响阅读
pd.set_option('display_max_rows', 7)
pd.set_option('display_max_columns', 6)
  1. 从csv文件中导入数据到
# 导入数据,将数据度柔道一个DataFrame中
retail_data = pd.read_csv("../data/micro_landing_page.csv")
# 展示前面几行
retail_data.head()

还支持read_excel、read_json、read_sql、read_sql_table、read_xml等方法。

  1. 查看DataFrame的基本属性
index = retail_data.index
columns = retail_data.columns
data = retail_data.values

输出:

index
clumns
data

查看类型:

type(index)
type(columns)
type(data)
  1. Series
    Series就是构成DataFrame的咧,没利益额就是一个Series。一个Series是一个以为的数据类型,其中每一个元素都有一个标签,类似于NumPy中元素带标签的数组。使用如下方式访问:
retail_data['Country']
type(retail_data.Country)

即[] 或者 . 操作符。
Python中支持的大部分运算操作服都可以应用于Series:

# 数值操作
retail_data['Price']
retail_data['Price']+1
retail_data['Price']*2
retail_data['Price']>2
# 字符串比较操作
country = retail_data['Country']
#每一行于枝顶字符串比较
count == 'France'
  1. 链式方法
    在Pandas库中,DataFrame和Series的很多操作都将返回一个新的DataFrame或Series,此时又可以对新的DataFrame和Series进行方法调用。
customers = retail_data['ID']
customers.value_counts().head()
#先统计,后只展示前几行
retail_data['ID'].value_counts().head()

retail_data['Price'].isnull()
# 统计为空的数量
retail_data['Price'].isnull().sum()

其他函数:mean()求平均值、fillna()对确实数据进行填充

retail_data['Price'].isnull().mean()
retail_data['Price'].fillna(0).isnull().mean()

注意,Pandas中对DataFrame和Series中大部分对原有数据的修改操作都是产生一个全新的Series或者DataFrame,而不是对原有数据的修改。如果想修改,只需要在函数中加上参数inplace=Trues就可以了。

索引与列的操作

获取指定列作为索引

gapminder = pd.read_csv("../data/gapminder.csv", index_col='Life expectancy')
gapminder.head()
gapminder = pd.read_csv("../data/gapminder.csv")
gapminder = gapminder.set_index('Life expectancy')
gapminder.head()

将索引重新恢复到列中

gapminder.reset_index()

选择多列

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容