机器学习案例:House Prices: Advanced Regression Techniques

[机器学习案例][!https://www.kaggle.com/pmarcelino/comprehensive-data-exploration-with-python]

作者主要从以下四个角度进行:

  1. 理解问题
  2. 单维度变量学习(依赖变量)
  3. 多维度变量学习(依赖变量和独立变量之间的关系)
  4. 数据清洗(处理缺失数据、设定异常值以及分类变量)
  5. 验证假设(通过多种手段验证是否符合假设)

具体的步骤包括:

  1. 导入数据

  2. 分析 SalePrice

  3. 分析 SalePrice 和数值变量之间的关系

  4. 分析 SalePrice 和分类变量之间的关系

  5. 分析变量之间的相关关系

  6. 分析所有变量之间的关系

  7. 处理缺失数据

  8. 验证假设(标准化数据处理之后分析变量之间的关系)

导入数据总结

语法总结

1. 新模块:seaborn

比 Matplotlib 上手简单,Seaborn本质上使用Matplotlib作为核心库(就像Pandas对NumPy一样)。seaborn有以下几个优点:

  1. 默认情况下就能创建赏心悦目的图表。
  2. 创建具有统计意义的图。
  3. 能理解 pandas 的 DataFrame 类型

2. 新模块说明:SciPy

scipy 包包含许多专注于科学计算中的常见问题的工具箱。它的子模块对应于不同的应用,比如插值、积分、优化、图像处理、统计和特殊功能等。
scipy 可以与其他标准科学计算包相对比,比如 GSL (C和C++的GNU科学计算包), 或者Matlab的工具箱。scipy是Python中科学程序的核心程序包;这意味着有效的操作numpy数组,因此,numpy和scipy可以一起工作。

在这个案例中,用到了 scipy 的 norm 和 stats,分别是指:==待补充==

norm:

stats:

3. 新模块说明:sklearn

在这个案例中用到了 preprocessing 中的 StandardScaler

标准化预处理数据包括:

  • preprocessing.scale(X, axis=0, with_mean=True, with_std=True, copy=True):
    将数据转化为标准正态分布(均值为0,方差为1)
  • preprocessing.minmax_scale(X, feature_range=(0, 1), axis=0, copy=True):
    将数据在缩放在固定区间,默认缩放到区间 [0, 1]
  • preprocessing.maxabs_scale(X, axis=0, copy=True):
    数据的缩放比例为绝对值最大值,并保留正负号,即在区间 [-1.0, 1.0] 内。唯一可用于稀疏数据 scipy.sparse 的标准化
  • preprocessing.robust_scale(X, axis=0, with_centering=True, with_scaling=True, copy=True):
    通过 Interquartile Range (IQR) 标准化数据,即四分之一和四分之三分位点之间

它们对应的标准化预处理类:

  • class preprocessing.StandardScaler(copy=True, with_mean=True, with_std=True):
    标准正态分布化的类
    属性:scale_:ndarray,缩放比例mean_:ndarray,均值var_:ndarray,方差n_samples_seen_:int,已处理的样本个数,调用partial_fit()时会累加,调用fit()会重设
  • class preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True):
    将数据在缩放在固定区间的类,默认缩放到区间 [0, 1]
    属性:min_:ndarray,缩放后的最小值偏移量scale_:ndarray,缩放比例data_min_:ndarray,数据最小值data_max_:ndarray,数据最大值data_range_:ndarray,数据最大最小范围的长度
  • class preprocessing.MaxAbsScaler(copy=True):
    数据的缩放比例为绝对值最大值,并保留正负号,即在区间 [-1.0, 1.0] 内。可以用于稀疏数据 scipy.sparse
    属性:scale_:ndarray,缩放比例max_abs_:ndarray,绝对值最大值n_samples_seen_:int,已处理的样本个数
  • class preprocessing.RobustScaler(with_centering=True, with_scaling=True, copy=True):
    通过 Interquartile Range (IQR) 标准化数据,即四分之一和四分之三分位点之间
    属性:center_:ndarray,中心点scale_:ndarray,缩放比例
  • class preprocessing.KernelCenterer
    生成 kernel 矩阵,用于将 svm kernel 的数据标准化(参考资料不全)

以上几个标准化类的方法:

  • fit(X[, y]):根据数据 X 的值,设置标准化缩放的比例
  • transform(X[, y, copy]):用之前设置的比例标准化 X
  • fit_transform(X[, y]):根据 X 设置标准化缩放比例并标准化
  • partial_fit(X[, y]):累加性的计算缩放比例
  • inverse_transform(X[, copy]):将标准化后的数据转换成原数据比例
  • get_params([deep]):获取参数
  • set_params(**params):设置参数

4. 新模块说明:warnings

如果希望程序能够生成警告信息(比如废弃特性或使用问题)(即,需要输出一个警告信息),可以使用 warning.warn( ) 函数。

The determination whether to issue a warning message is controlled by the warning filter, which is a sequence of matching rules and actions. Rules can be added to the filter by calling filterwarnings() and reset to its default state by calling resetwarnings().

在案例中出现的代码:

import warnings
warnings.filterwarnings('ignore')

是指 never print matching warnings

5. 新模块说明:matplotlib

关于案例中出现的代码:

%matplotlib inline

matplotlib 支持输出多种格式的图形图像,并且可以使用多种 GUI 界面库交互式地显示图表。使用%matplotlib命令可以将 matplotlib 的图表直接嵌入到 Notebook之中,或者使用指定的界面库显示图表,它有一个参数指定 matplotlib 图表的显示方式。inline表示将图表嵌入到Notebook中。

理解问题的总结

数据处理总结

1. 变量管理

对于即将要处理的问题 SalePrice,案例作者对变量数据建议采用表格进行管理,表格示意如下:

Variable Type Segment Expectation Conclusion Comments
TotalBsmtSF numerical space high high

表格说明及注意事项:

Type 变量类型分为数值变量、类别变量;

segment,所属部分,在这个问题下,分为三种类型——building、space、location;

Expectation:变量对房屋销售价格影响程度的预期,用"中"、"高"、"低"来衡量即可;

Conclusion:检查完 Data 之后对变量重要性的结论,衡量标准可以与 Expectation 保持一致。

Comments:任何想到的备注说明。

注意:

Type 和 Segment 只是为了将来一时之需;
Expectation 很重要,因为有利于培养我们的第六感,可以通过自我提问来判断(自己买房时会考虑这个变量吗?如果考虑,我们判断某个变量有多重要?变量之间是否和其他变量有重合?)

根据分析过程,填充表格;

利用数据分析变量和销售价格之间的关系,利用 Conclusion 修正 Expectation;

2. 分析目标问题(房价)

目标问题本身研究

可以先直接观察一下目标问题的数据,包括个数、平均值、标准差、最小值、最大值、分位数等;还可以利用直方图,画出数据分布情况;

通过观察直方图,可以看出数据并不是完全符合正态分布曲线,有偏度和峰度;

==统计学意义待补充==

目标问题与数字变量之间的研究分析

分析了目标问题和两个数字变量之间的关系

目标问题与分类变量之间的研究分析

在分析分类变量是,用到了盒图,关于盒图的作用整理总结如下:

盒图是在 1977 年由美国的统计学家约翰·图基 (John Tukey) 发明的。它由五个数值点组成:最小值(min),下四分位数(Q1),中位数(median),上四分位数(Q3),最大值(max)。也可以往盒图里面加入平均值(mean)。如上图。下四分位数、中位数、上四分位数组成一个“带有隔间的盒子”。上四分位数到最大值之间建立一条延伸线,这个延伸线成为“胡须(whisker)”。

由于现实数据中总是存在各式各样地“脏数据”,也成为“离群点”,于是==为了不因这些少数的离群数据导致整体特征的偏移,将这些离群点单独汇出,而盒图中的胡须的两级修改成最小观测值与最大观测值==。这里有个经验,就是最大(最小)观测值设置为与四分位数值间距离为1.5个IQR(中间四分位数极差)。即

  • IQR = Q3-Q1,即上四分位数与下四分位数之间的差,也就是盒子的长度。
  • 最小观测值为min = Q1 - 1.5*IQR,如果存在离群点小于最小观测值,则胡须下限为最小观测值,==离群点单独以点汇出==。如果没有比最小观测值小的数,则胡须下限为最小值。
  • 最大观测值为max = Q3 -1.5*IQR,如果存在离群点大于最大观测值,则胡须上限为最大观测值,==离群点单独以点汇出==。如果没有比最大观测值大的数,则胡须上限为最大值。

通过盒图,在分析数据的时候,盒图能够有效地帮助我们识别数据的特征

  1. 直观地识别数据集中的异常值(查看离群点)。
  2. 判断数据集的数据离散程度和偏向(观察盒子的长度,上下隔间的形状,以及胡须的长度)。

1.箱体的左侧(下)边界代表第一四分位(Q1),而右侧(上)边界代表第三四分位(Q3)。至于箱体部分代表四分位距(IQR),也就是观测值的中间 50% 值。

2.在箱体中间的线代表的是数据的中位数值。

3.从箱体边缘延伸出去的直线称为触须(whisker).触须(whisker)的向外延伸表示了数据集中的最大和最小(异常点除外)。

4.极端值或异常点(outlier),用星号(*)来标识.如果一个值位于箱体外面(大于Q3或小于Q1),并且距离相应边界大于 1.5 倍的 IQR,那么这个点就被认为是一个异常点(outlier)。

如果你选择通过分组变量(By variable)来分组数据,MINITAB 将把图像变成垂直放置,否则图形将水平放置。(==注:在本案例中,因为是分类变量,所以是垂直放置==)

使用箱形图来评估数据的对称性:
1.如果数据是明显对称,中位数值线将近似位于四分位距箱体的中间,上下触须(whisker)在长度上将近似相等。

2.如果数据是偏态的,中位数将可能不位于四分位距(IQR)箱体的中间,某一触须(whisker)将可能显著地比另一个长。

在降水数据的箱形图(boxplot)中,中位数位于四分位距(IQR)箱体的中间,上下触须(whisker)长度相等。这表明除了异常点(outlier)星号(*)外,数据是对成的。这很好的说明了异常点(outlier)可能和其它的样本数据不是来自同一个母体(population)。

在这个案例中,通过盒图分析,我们可以:

找到异常点;

分析变量和目标问题之间的关系趋势;

变量与变量之间的关系

分析变量之间的关系,转变分析维度,可以利用相关关系来实现;

热力图以及放大的热力图都可以用来分析相关关系;

两两组合分析变量之间的关系

这样不仅可以分析目标问题和变量之间的关系,还可以分析变量与变量之间的关系,方便我们理解变量,并未后续处理做准备。

比如,在此案例中,除了 SalePrice 和其他变量之间的关系;

我们还可以直观看到某个某个变量的分布情况(直方图);

可以看到变量与变量之间是否存在关系,比如 TotalBsmtSF 和 GrLivArea 之间;

语法总结

1. 可以直接用的描述性语法

分析数据可以直接运用的语法:

# describe statistics summary
df_train['SalePrice'].describe

# histogram
sns.distplot(df_train['SalePrice'])

# skewness and kurtosis
print("Skewness: %f" % df_train['SalePrice'].skew)

2. 利用 seaborn 来绘制分析相关关系

seaborn 的用法

热力图的用法及意义

处理 missing data 部分的总结

处理数据总结

可以按照以下方式处理确实数据:

计算数据缺失比例;

对不同比例的数据利用不同的原则进行处理;

缺失百分比高的变量:
1)买房时不会考虑;
2)==超过 15%== 我们就应该考虑不需要补充缺失的数据;
3)这样的变量可以直接删除(包括 PoolQC、MiscFeature、Alley 等);

缺失比例相同的变量:
1)可以推测缺失的原因应该相同;
2)通过一个变量可以得知另外一个变量的信息,所以只考虑一个变量即可;
3)删除一个变量即可,相似的变量组还有 BsmtX 相关;

不必要且与已知变量强相关的变量:
1)MasVnrArea、MasVnrType 和 YearBuilt、OverallQual 之间强关联,且此类信息并不重要;
2)删除信息也不会丢失信息;

异常值处理

数据处理总结

如果数据分布不符合正态分布曲线,可以对数据进行 Standardize 处理;

同时可以对处理之后的数据进行分析,分析 low range 和 high range;

进行双变量分析,判断异常值并根据情况进行处理,注意:

偏离太多的异常值可以删除;

偏离但是仍然符合分布的异常值可以保留;

处理异常值要考虑清楚 trade-off,是否值得花力气处理;

语法总结

fit_transform 以及 scale 的介绍见前文 sklearn 模块内容。

核心分析

数据处理总结

需要从以下四个角度进行验证假设部分:

Normality:数据应该符合正态分布曲线
目前只考虑了 SalePrice 这个单一变量是否符合 Normality;
虽然单一变量不能保证多变量是符合正态分布的,但是有助于实现这一点;
保证数据正态分布,可以避免很多问题(如异方差);

Homoscedasticity:数据的残差具有同方差性
依赖变量具有相同的方差;我们想要同方差性。
因为 we want the error term to be the same across all values of the independent variables

Linearity:数据线性关系
如果不是线性关系,可以考虑数据 transformation;但大多数的时候不需要,因为可以看出线性关系;

Absence of correlated errors:相对误差的缺失
观察分析变量之间是否存在相对误差关系;
通常涉及到时间相关的变量;

取对数可以使数据分布更符合正态分布曲线;

如果原始数据中有 0,忽略为 0 的值,直接取对数;

==统计学知识待补充==

语法总结

df_train = pd.get_dummies(df_train)

这里进行把分类变量转变为虚拟变量。

R语言思路总结

R 流程总结:

  • load data,load 各种数据
  • Structure of data,分析数据结构
  • Summarize the missing values in the data,总结分析缺失数据
    • 处理分类变量的 missing data
    • 数字变量的 missing data
    • missing data 的可视化
  • Summarize the numeric values and the structure of the data
  • Barplots for the categorical features 分类变量的柱形图可视化
    • 分析数量变量以及数据结构,数据结构包括最大值、最小值、平均值、四分之一位数、中位数、四分之三位数;
    • 分别统计 train 和 test 中的数据缺失比例;
    • 检查数据中的重复行;(0行)
    • 把 character 转换成 factors;
  • Density plots for numeric variables 数字变量的 density 曲线图
  • Explore the correlation 相关关系研究
  • Plot scatter plot for variables that have high correlation 高相关度的变量的模型
    • 既要处理正相关,也要搞清楚负相关的变量
    • ==关注绝对值大的相关度
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351

推荐阅读更多精彩内容

  • 该文档是诸位同事机器学习代码学习的经验整合,主要流程为: 导入工具包及数据 Features 及其缺失值处理 建模...
    刘月玮阅读 1,006评论 0 2
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,639评论 18 139
  • 2017年夏天开始学习R语言。 第1章 R语言介绍 1.1 R的获取和安装 下载Rgui:http://cran....
    弹跳骑士阅读 7,902评论 0 10
  • 每当我遇到困境的时候,都会想起爸爸讲过的硬道理,事实证明爸爸说得都对。 如今,在我眼前的是一场四支队伍的大混战,从...
    半朽阅读 548评论 14 19
  • 预设 在Unity中,我们会将重复使用的资源做成预设(Prefab)。预设上可以挂载脚本并在Aspector面板中...
    kashiwa阅读 3,082评论 0 7