2020-07-14

数据挖掘流程：

（一）数据读取：

读取数据，并进行展示

统计数据各项指标

明确数据规模与要完成任务

（二）特征理解分析

单特征分析，逐个变量分析其对结果的影响

多变量统计分析，综合考虑多种情况影响

统计绘图得出结论

（三）数据清洗与预处理

对缺失值进行填充

特征标准化/归一化

筛选有价值的特征

分析特征之间的相关性

（四）建立模型

特征数据与标签准备

数据集切分

多种建模算法对比

集成策略等方案改进

数据来源：著名的数据分析竞赛网站Kaggle提供的数据集中

1 倒入包

2 数据读起来，先看看啥东西

PassengerId: 乘客编号 Survived :存活情况（存活：1 ; 死亡：0）Pclass ：客舱等级 Name : 乘客姓名 Sex : 性别Age : 年龄SibSp : 同乘的兄弟姐妹/配偶数Parch : 同乘的父母/小孩数Ticket : 船票编号Fare : 船票价格Cabin :客舱号Embarked : 登船港口

3 瞅一瞅有木有缺失值

4 整体看看数据啥规模

5不是要预测这大船的获救情况嘛，先看看获救比例咋样

显然，这次事故中没有多少乘客幸免于难。在训练集的891名乘客中，只有大约350人幸存下来，只有38.4%的机组人员在空难中幸存下来。我们需要从数据中挖掘出更多的信息，看看哪些类别的乘客幸存下来，哪些没有。我们将尝试使用数据集的不同特性来检查生存率。比如性别，年龄，登船地点等，但是首先我们得来理解下数据中的特征！

6数据特征分为：连续值和离散值--离散值：性别（男，女）登船地点（S,Q,C）连续值：年龄，船票价格

这看起来很有趣。船上的男人比女人多得多。不过，挽救的女性人数几乎是男性的两倍。生存率为一个女人在船上是75%左右，而男性在18-19%左右。（让妇女和儿童先走，虽然电影忘得差不多了，这句话还记着。。。确实是这样的）这看起来是建模的一个非常重要的特性。一会我们会用上他的！

7 Pclass --> 船舱等级跟获救情况的关系

人们说金钱不能买到一切。但我们可以清楚地看到，船舱等级为1的被给予很高的优先级而救援。尽管数量在pClass 3乘客高了很多，仍然存活数从他们是非常低的，大约25%。对于pClass1来说存活是63%左右，而pclass2大约是48%。所以金钱和地位很重要。这样一个物欲横流的世界

8 那这些又和性别有关吗？接下来我们再来看看船舱等级和性别对结果的影响

我们用factorplot这个图，看起来更直观一些。我们可以很容易地推断，从pclass1女性生存是95-96%，如94人中只有3的女性从pclass1没获救。显而易见的是，不论pClass，女性优先考虑。

9 Age--> 连续值特征对结果的影响

结果：¶ 1）10岁以下儿童的存活率随passenegers数量增加。2）生存为20-50岁获救几率更高一些。3）对男性来说，随着年龄的增长，存活率降低

（二）缺失值填充：平均值，经验值，回归模型预测，剔除掉

正如我们前面看到的，年龄特征有177个空值。为了替换这些缺失值，我们可以给它们分配数据集的平均年龄。但问题是，有许多不同年龄的人。最好的办法是找到一个合适的年龄段！我们可以检查名字特征。根据这个特征，我们可以看到名字有像先生或夫人这样的称呼，这样我们就可以把先生和夫人的平均值分配给各自的组。

好了，这里我们使用正则表达式：[A-Za-z] +）来提取信息

填充缺失值

观察:1）幼儿（年龄在5岁以下）获救的还是蛮多的（妇女和儿童优先政策）。2）最老的乘客得救了（80年）。3）死亡人数最高的是30-40岁年龄组。

因此，无论性别如何，妇女和儿童第一政策都是正确的。

Embarked--> 登船地点

C港生存的可能性最高在0.55左右，而S的生存率最低

观察:1）大部分人的船舱等级是3。2）C的乘客看起来很幸运，他们中的一部分幸存下来。3）S港口的富人蛮多的。仍然生存的机会很低。4）港口Q几乎有95%的乘客都是穷人。

观察:1）存活的几率几乎为1 在pclass1和pclass2中的女人。2）pclass3 的乘客中男性和女性的生存率都是很偏低的。3）端口Q很不幸，因为那里都是3等舱的乘客。港口中也存在缺失值，在这里我用众数来进行填充了，因为S登船人最多呀

sibsip -->兄弟姐妹的数量

这个特征表示一个人是独自一人还是与他的家人在一起。

观察:barplot和factorplot表明，如果乘客是孤独的船上没有兄弟姐妹，他有34.5%的存活率。如果兄弟姐妹的数量增加，该图大致减少。这是有道理的。也就是说，如果我有一个家庭在船上，我会尽力拯救他们，而不是先救自己。但是令人惊讶的是，5-8名成员家庭的存活率为0%。原因可能是他们在pclass=3的船舱

Fare--> 船票的价格

概括地观察所有的特征：性别：与男性相比，女性的生存机会很高。Pclass：有，第一类乘客给你更好的生存机会的一个明显趋势。对于pclass3成活率很低。对于女性来说，从pclass1生存的机会几乎是。年龄：小于5-10岁的儿童存活率高。年龄在15到35岁之间的乘客死亡很多。港口：上来的仓位也有区别，死亡率也很大！家庭：有1-2的兄弟姐妹、配偶或父母上1-3显示而不是独自一人或有一个大家庭旅行，你有更大的概率存活。

特征之间的相关性

特征相关性的热度图首先要注意的是，只有数值特征进行比较正相关：如果特征A的增加导致特征b的增加，那么它们呈正相关。值1表示完全正相关。负相关：如果特征A的增加导致特征b的减少，则呈负相关。值-1表示完全负相关。现在让我们说两个特性是高度或完全相关的，所以一个增加导致另一个增加。这意味着两个特征都包含高度相似的信息，并且信息很少或没有变化。这样的特征对我们来说是没有价值的！那么你认为我们应该同时使用它们吗？。在制作或训练模型时，我们应该尽量减少冗余特性，因为它减少了训练时间和许多优点。现在，从上面的图，我们可以看到，特征不显著相关

（三）特征工程和数据清洗

当我们得到一个具有特征的数据集时，是不是所有的特性都很重要？可能有许多冗余的特征应该被消除，我们还可以通过观察或从其他特征中提取信息来获得或添加新特性。

年龄特征：正如我前面提到的，年龄是连续的特征，在机器学习模型中存在连续变量的问题。如果我说通过性别来组织或安排体育运动，我们可以很容易地把他们分成男女分开。如果我说按他们的年龄分组，你会怎么做？如果有30个人，可能有30个年龄值。我们需要对连续值进行离散化来分组。好的，乘客的最大年龄是80岁。所以我们将范围从0-80成5箱。所以80/5＝16。