pandas dataFrame(数据框)是能够有效表示csv文件内容的一种数据格式,它是允许每一列属于不同类型的二维数据结构
类似numpy的二维数组,pandas使用dataFrame去存储二维数据,不同的是,它可以指定行和列的索引值index和columns。可以使用dataFrame的data、index、columns三个参数去声明,也可以类似创建一个dict的方式去创建一个dataFrame
与series相同,dataFrame也有iloc(按照位置获取对应的值)和loc(按照索引index或columns获取对应的值),iloc[0]获取的是第一行的数据,iloc[0, 1]获取的是第一行第二列的值。ridership_df.loc['05-01-11']获取的是该天所对应的一行5个车站的数据,ridership_df.loc['R003']获取的是该车站所对应的一列所对应的的数据,同样ridership_df.loc['05-05-11', 'R003']获取的是05-05-11那天R003车站的数据。
dataFrame的sum、mean、max等函数是对每行或每列运算的,使用axis控制,默认axis=0每行,axis=1则表示每列,若需要对整个数据运算,可以使用ridership_df.values.mean()。values表示的是dataFrame的数据组成的numpy Array,可以用它来对所有数据进行运算