第一章

第一节:数据载入与初步观察

1.引入相关的库

import numpy as np

import pandas as pd

2.读取数据

df = pd.read_csv('train.csv')

df.head(3)

3.替换已有的英文昵称列标题,也可以不替换,看习惯

df=pd.read_csv('train.csv',names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)

df.head(3)

4.查看缺失值

df.info()

5.查看头部数据和尾部数据

df.head(10)#头部10行数据

df.tail(15)#尾部15行数据

6.查看缺失值在那几行

df.isnull().head()#空值为TRUE,其余为false

7.查看列名称

df.columns

8.查看指定的列

df['客舱'].head()

9.查看部分指定的列

test_1.drop(['PassengerId','Name','Age','Ticket'],axis=1).head(3)

#drop只显示删除了几项,但还保留原数据库的完整性

10.筛选

test_1[test_1['Age']<10].head()

test_1['Age']<10

midage = test_1[(test_1['Age']>10)&(test_1['Age']<50)]

midage.head()

11.重新定义索引,一般对进行删除、增加数据比较友善,重新建立索引号对每行数据

midage = midage.reset_index(drop=True)# drop=True或False,前者为重置索引,后者为添加再次添加索引,一般为前者

midage.head(3)

12.切片读取数据

iloc是根据索引顺序,loc是根据行值来的

13.排序

13.数据描述


可以通过看到指定的数据特征进行研究内在的联系

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容