【深度学习DL】五、查全率(召回率)、查准率(精确率)和灵敏性、特异性

敏感性与特异性

敏感性特异性虽然与查准率查全率相似,但并不相同。其定义如下:

在癌症示例中,敏感性和特异性指:

  • 敏感性:在患有癌症的所有人中,诊断正确的人有多少?
  • 特异性:在未患癌症的所有人中,诊断正确的人有多少?

查准率和查全率的定义如下:

  • 查准率:在被诊断患有癌症的所有人中,多少人确实得了癌症
  • 查全率:在患有癌症的所有人中,多少人被诊断患有癌症?

从这里可以看出,敏感性就是查全率,但特异性并不是查准率。

敏感性和特异性是这个矩阵中的行。更具体地说,如果我们做以下标记

  • TP:(真阳性)被正确诊断为患病的病人。
  • TN:(真阴性)被正确诊断为健康的健康人。
  • FP:(假阳性)被错误诊断为患病的健康人。
  • FN:(假阴性)被错误诊断为健康的病人。

那么:

{敏感性 = \frac{TP}{TP + FN}}

{特异性 = \frac{TN}{TN + FP}}​。

敏感性和特异性

查准率和查全率是矩阵的第一行和第一列:

{查全率 = \frac{TP}{TP + FN}}

{查准率 = \frac{TP}{TP + FP}}​。

查准率和查全率
  • 水平轴上的每个点是从 0 到 1 的值 <math><semantics><annotation encoding="application/x-tex">p</annotation></semantics></math>p。
  • 在所有值 <math><semantics><annotation encoding="application/x-tex">p</annotation></semantics></math>p 中,我们定位了被分类器预测概率 p 为恶性的所有病变。

[
image

]

在图中,我们将 0.2、0.5 和 0.8 作为阈值。请注意:

  • 在 0.2 下,我们正确分类了每个恶性病变,但也对许多良性病变进行了进一步检查。
  • 在 0.5 下,我们未诊断出一些恶性病变(严重),对少许良性病变进行了进一步检查。
  • 在 0.8 下,我们对大部分良性病变进行了正确分类,但未诊断出许多恶性病变(非常严重)。

因此,在这种情况下,0.2 是否更好还存在争议。

但是,在该模型中,可能会有更好的阈值。这个阈值是多少?
(A).0.1 (B).0.4 (C).0.6 (D). 0.7

ROC 曲线

我们将真阳性率作为水平轴,将假阳性率作为垂直轴。

但是,在这一节课,我将使用不同的 ROC 曲线。我使用的曲线好像是把这个曲线侧翻了一样,如图所示:

我使用这个曲线的原因非常有意思。我们把敏感性作为水平轴、特异性作为垂直轴,就得到了这个曲线!

我再具体一点(一语双关)。我们使用与上一部分相同的直方图。

回想一下,水平轴上的值都是可能阈值。对于 0 和 1 之间的任何阈值 {p},模型的结论如下:“该阈值左边的所有病变都被视为良性,其右边的所有病变都被视为恶性,并会接受进一步检查。”

对于这个模型,我们对敏感性和特异性进行以下计算:

  • 敏感性:在所有恶性病变中,位于阈值右侧的病变(正确分类)的百分比是多少?
  • 特异性:在所有良性病变中,位于阈值左侧的病变(正确分类)的百分比是多少?

我们将(敏感性,特异性)作为坐标系,绘制出这个点。如果绘制出与 0% 和 100% 之间的每个可能阈值对应的所有点,则会得到我在上面绘制的 ROC 曲线。因此,也可以将 ROC 曲线称为敏感性-特异性曲线

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容