保留列数与样本量直方图
该图呈现的是数据中存在缺失值时,保留不同的列数,能够得到的最大样本量。
删除列数与样本量直方图
该图呈现的是数据中存在缺失值时,删除不同的列数,能够得到的最大样本量。
特征重要性直方图
数据经过特征筛选后,得到特征的重要性百分比,该数据所有特征的重要性百分比之和为1。
ROC曲线
受试者工作特征曲线(Receiver Operating Characteristic Curve),简称ROC,能反映模型在选取不同阈值时其特异性(FPR)和敏感性(TPR)的趋势走向。
ROC曲线图选择最佳的5个模型进行作图,通常以曲线下的面积(AUC)评价模型的优劣。
P-R曲线
横坐标为召回率(查全率, Recall),纵坐标为精确率(查准率, Pricision),两者之间的平衡点为曲线与图中虚线的交点。
样本量验证
该方法用于验证数据的样本量是否足够,如果曲线呈上升趋势,则说明样本量不足。
其中,横坐标表示使用的训练集样本比例,纵坐标表示在测试集上得到的AUC值。