Kaggle-titanic数据分析报告

1、目标确定

本次分析主要探寻泰坦尼克号上的生还率和各因素(客舱等级、年龄、性别、有无父母、客户花费等)的关系。

2、数据获取

Kaggle上titanic的数据集中的训练集train.csv

3、数据清洗

(1) 缺失值处理

数据清理上,我用的是python,对整个数据的描述性分析:

最开始的数据的描述

由图可知,有三个变量有缺失值,分别是Age,Cabin和Embarked。

Embarked是分类型变量,而且缺失值很少,所以可以用众数填充。

填充Embarked前的分类统计

通过python代码,对Embarked的数据进行统计,发现共有3个维度,所以有三个登陆港口C、Q和S,其中S最多,所以缺失值都填充为S。

填充Embarked代码
填充Embarked后的分类统计

Cabin表示的是所在的客舱,对于缺失值可能表示不在客舱内,所以,把缺失值都填充为C0,以表示不在客舱内。

填充Cabin代码

对于数值型变量Age,采用随机森林算法来预测缺失值。因为变量只能为数值型变量,所以,对于选取的模型数据包含'Age','Survived','Parch','SibSp','Pclass','Fare'等6个变量。先通过Age把缺失值和未缺失的数据分开,然后采用随机森林模型用未缺失的数据来预测缺失的数据。

随机森林填充Age代码

这时候,选取的模型数据里面就没有缺失值。然后循环几次随机森林,这次的数据模型发生了些变化,用没有缺失值的模型数据age_data来预测之前的缺失数据age_data_isnull,循环几次,把最后的结果赋值给总的数据data。

因为随机森林产生的数据是浮点型,而总数据是整数型的,所以赋值前需要转换一下格式。

循环随机森林填充Age代码

数据清理后,最后的数据信息如下:

处理后的数据的描述

测试集的缺失值处理方式一样。

(2) 数据整理

为了方便分析,需要对一些数据进行整理。

对于PassengerId、Name和Ticket,对于数据分析没有多大用处,所以首先删除。

删除不必要的变量代码

对于Age这个变量,首先进行描述性统计:

‘Age’的变量描述

最大值为80,最小值为0.42,跨度非常大,不能每个年龄都去统计,所以,需要把年龄分成4段,分别是小与12岁、12-18岁、18-65岁以及大于65岁,缩小成4个维度,方便统计。

‘Age’分段的代码

同理还有SibSp、Parch和Cabin,维度要多。

首先对SibSp进行描述分析:

‘SibSP’的变量描述

“0”代表没有兄弟姐妹,没有兄弟姐妹占大多数,所以,SibSp可以分成两个维度,有兄弟姐妹和无兄弟姐妹。

‘SibSp’分段的代码

同理,Parch分为两个维度,有父母兄弟和没有父母兄弟。

‘Parch’分段的代码

Cabin分为有客舱和无客舱两个维度。

‘Cabin’分段的代码

4、数据分析

本次数据总共有891 个样本量,生还者为342人,生还率为38%。

(1) Pclass分析

‘Pclass’人数及生还率分析

泰坦尼克号上总共有三个等级的船舱,等级越高,代表客户贡献的价值越高,越重视客户,如图,各个等级舱的人数分别是216、184和491,生还人数为136、87和119,生还率分别为63%、47%和24%,生还率依船舱的等级递减,充分体现了“富人先行”。

(2) Age分析

‘Age’人数及生还率分析

把年龄分成了4个维度,各个年龄段的人数分别为80、50、750和11人,生还人数分别为40、27、274和1人,生还率为50%、54%、37%和9%,年龄在12-17岁的生还率最高,其次是12岁以下的,在这场灾难中,大家把机会都让给了小孩和年轻人。

(3) Sex分析

‘Sex’人数及生还率分析  

男生和女生人数分别为314和577,女性偏少,但是,女生生还233人,生还率为%74,男生生还109人,生还率为19%,充分体现了“女士优先”。

(4) SibSp分析

‘SibSp’人数及生还率分析 

无兄弟姐妹的人数为608,有兄弟姐妹的是283,无兄弟姐妹的人数偏少,但是,无兄弟姐妹的生还率为47%,高于有兄弟姐妹的37%,说明有兄弟姐妹的人在离别时会更能引起别人的关注,更容易一起获救。

(5) Parch分析

‘Parch’人数及生还率分析

无父母子女与有父母子女的人数分别为678和213,无父母子女的人数占大多数,但是生还率却是有父母子女的人的生还率高,原因同上,有父母子女的更容易获得别人的同情与注意,同时也求生欲更强。

(6) Fare分析

平均票价分析

生还者的平均票价为48.4,未生还者的票价为22.12,生还者的远远高于未生还者的,和Pclass一样,体现了“富人悠闲”。

(7) Cabin分析

‘Cabin’人数及生还率分析  

无客舱与有客舱的人数分别为687和204,无客舱的人占大多数,无客舱的生还人数为206,生还率为30%,有客舱的生还人数为136,生还率为67%,有客舱的生还率远远高于无客舱的,有无客舱与乘客的经济能力挂钩,所以,还是体现了“富人优先”。

(8) Embarked分析

‘Embarked’人数及生还率分析

登陆港口总共有3个,分别为C、Q和S港口,从图中可看出,S港口登陆的乘客最多,共646人,C港口其次,是168人,Q港口最少,77人,生还人数中S港口的生还人数最多,为219人,但生还率是最低的,为34%,生还率最高的是C港口,为55%,Q港口的生还人数是30,生还率是39%,可以看出,C港口上船的乘客生还率最高。

5 特征处理

最后,经过分析,选出了能影响生存率的几个特征,保留下‘Pclass‘,’Sex’,‘Age’,‘SibSp’,‘Parch’,‘Fare’,‘Cabin‘,’Embarked’几个变量。

对于Age这个变量,把女性设为1,男性设为0,同理,将每个变量的特征强的设为1,剩下的设为0,把值都变成布尔型的值,调用伯努力朴素贝叶斯,预测测试集的结果。

最后提交到kaggle中,评分为0.736。

分不高,主要是体验一次数据处理过程。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容