1.数据集(三个文件)
① train.csv:训练集(共十二个字段)
变量 | 定义 | 取值 |
---|---|---|
PassengerId | 乘客编号 | 整数 |
survived | 是否幸存 | 0-存活,1-死亡 |
pclass | 社会地位 | 1 = 上层, 2 = 中层, 3 = 底层 |
Name | 乘客姓名 | 字符串 |
sex | 性别 | male/female |
Age | 年龄 | 浮点数,单位:年,可以取45.5这种 |
sibsp | 船上亲属的个数(兄弟姐妹、继兄弟姐妹、丈夫、妻子) | 整数 |
parch | 船上亲属的个数(父亲、母亲、儿子、女儿、继子、继女) | 整数 |
ticket | 船票编号 | 整数 |
fare | 船票价格 | 浮点数 |
cabin | 船舱编号 | 字符串 |
embarked | 乘客登船时所在的港口 | C = Cherbourg(瑟堡,法国), Q = Queenstown(皇后镇,新西兰), S = Southampton(南安普敦,英国) |
②test.csv:测试集(共11个字段)
和train.csv相比少了一个survival字段。
③gender_submission.csv:提交文件的示例
变量 | 定义 | 取值 |
---|---|---|
PassengerId | 乘客编号 | 整数 |
survived | 是否幸存 | 0-存活,1-死亡 |