第一节:数据载入与初步观察
1.引入相关的库
import numpy as np
import pandas as pd
2.读取数据
df = pd.read_csv('train.csv')
df.head(3)
3.替换已有的英文昵称列标题,也可以不替换,看习惯
df=pd.read_csv('train.csv',names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head(3)
4.查看缺失值
df.info()
5.查看头部数据和尾部数据
df.head(10)#头部10行数据
df.tail(15)#尾部15行数据
6.查看缺失值在那几行
df.isnull().head()#空值为TRUE,其余为false
7.查看列名称
df.columns
8.查看指定的列
df['客舱'].head()
9.查看部分指定的列
test_1.drop(['PassengerId','Name','Age','Ticket'],axis=1).head(3)
#drop只显示删除了几项,但还保留原数据库的完整性
10.筛选
test_1[test_1['Age']<10].head()
test_1['Age']<10
midage = test_1[(test_1['Age']>10)&(test_1['Age']<50)]
midage.head()
11.重新定义索引,一般对进行删除、增加数据比较友善,重新建立索引号对每行数据
midage = midage.reset_index(drop=True)# drop=True或False,前者为重置索引,后者为添加再次添加索引,一般为前者
midage.head(3)
12.切片读取数据
iloc是根据索引顺序,loc是根据行值来的
13.排序
13.数据描述
可以通过看到指定的数据特征进行研究内在的联系