【数据科学家学习小组】之机器学习第一期第二周作业
本次作业涉及了很多统计学的知识,对于个人的理解显得有些困难,通过查阅资料,仅对本次要求掌握的重点概念进行了论述,代码部分后期再补,见谅见谅
训练数据集(Train Data):是指用来构建和训练模型的数据。
测试数据集(Validation Data):是指用来评估模型的准确率的数据。
训练数据和测试数据都来自于原始数据,选定的训练数据只能在模型检验时使用,绝对不允许用于模型构建过程,否则会导致过渡拟合。
分类准确度(accuracy):理解分类准确度,首先的先理解分类 (Classification)的真假与正类负类的概念(用放羊的小男孩举例,图片来自: https://blog.csdn.net/qq_14822691/article/details/81051958 ):
精准度就是指我们的模型预测正确的结果所占的比 ,也就是
, 预测正确的对于上例(二元分类)而言,
。
精准率: 评价的是对于模型预测的结果是否足够准确,通俗讲就是被我们关注事件真实被我们预测到的概率,对于上例,人们最关心的_<u style="box-sizing: border-box;">是狼来了</u>这件事,精准率的值就是预测狼来了事实狼却是来了的次数(TP)与预测狼来了的次数(TP+FP)的比值,即
召回率: 评价的是在事件真实发生的情况能否被如实预测到,也就是我们关注的那个事件真实的发生情况下,我们成功预测的比例是多少 。亦即
要全面评估模型的有效性,必须同时检查精确率和召回率 ,但精准率和召回率指标往往呈负相关的关系,需要我们根据应用场景进行取舍。对于 量化投资领域,我们期望的是系统预测上涨的股票中,真正上涨的比例越大越好,这就是希望查准率高;对于医疗领域做疾病诊断,我们希望模型尽可能地将所有有病的患者都预测出来,此时关注的召回率多一点。
混淆矩阵: 也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示, 每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目,是一种可视化的工具,比简单的分类准确度更全面。
F1 Score: 是精准率和召回率的调和平均值,介于0与1之间,公式表达式为
,其中precision为精准率,recall为召回率。
ROC曲线: 是一个用于度量分类中的非均衡性的工具,常和AUC( ROC曲线下的面积 )一起用来评价一个二值分类器的优劣 。它描述的是TPR( 预测事件发生,占事件真实发生的数据的百分比,即召回率)和FPR(预测为事件发生但真实未发生的数量,占事件未发生的数据总量的百分比)之间的关系,其中x轴是FPR,y轴是TPR。
均方误差(MSE): 是真实值与预测值的差值的平方然后求和平均,可以抵消掉数据量引起的误差影响。
均方根误差(RMSE) : 通过将MSE开平方,可以解决量纲的问题, 衡量观测值与真实值之间的偏差 。
平均绝对误差(MAE):
,加m次再除以m,即可求出平均距离,真实值与预测结果之间的距离最小, 可以更好地反映预测值误差的实际情况。
R Squared: 衡量模型拟合度的一个量,是一个比例形式,被解释方差/总方差 ,公式:R-squared = SSR/TSS=1 - RSS/TSS,其中TSS是执行回归分析前,响应变量固有的方差;RSS残差平方和就是,回归模型不能解释的方差;SSR回归模型可以解释的方差。