2018-12-28偏斜类

癌症分类问题

存在一种极端的例子:有一行代码不是机器学习代码,它忽略了输入值X,它让y总是等于0。 因此它总是预测没有人得癌症,那么这个算法实际上只有0.5%的错误率,因此这甚至比机器学习得到的1%的错误率更好。这是一个非机器学习算法,因为它只是预测y总是等于0。

癌症分类问题的极端个例

一个极端,在这个例子中正样本的数量与负样本的数量相比非常非常少, 因为y=1非常少,我们把这种情况叫做偏斜类。

偏斜类有一个不同的误差度量值,或者不同的评估度量值,其中一种评估度量值叫做查准率(precision)和召回率(recall)。其效果比仅仅只用分类误差或者分类精度好。

查准率和召回率  
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容