2018-11-09 会议

  • 预测区间(Prediction Interval):
    给定一个概率\sigma,确定预测区间[y_1, y_2 ]。该区间有\sigma的概率包含真实值y_{true}。预测区间可以反映预测值是否可靠,预测区间越大,该预测值越不可信。

  • 计算预测区间有两种方式:

    • Conformal Prediction
    • Quantile RF
  • Conformal Prediction

    • Assumption: 数据是iid

    • 用于衡量预测是否可信,主要利用NonConformity Measure, 简称nc

    • 为计算nc, 构建了两个学习器:

      • Regressor. 拟合<X, Y>之间的关系,用y = f(x)来表示;
      • Normalizer. 拟合<X, ln^{|Y - \hat{Y}|}>之间的关系,用于预测给定测试点\hat{x}的误差,的用n(x)表示。
    • 其算法步骤如下:

      • 从数据集D中,构建训练集D^t, 校准集D^c(RF中可用oob instance代替)。

      • D^t用于训练上述提到的Regressor f(x)Normalizer n(x)

      • D^c用于计算nc。对于校准集D^c中的第i个测试点\hat{x}_i(i \in D^c), 计算其NonConformity Score, 如下:
        \alpha_i = \frac{|y_i - \hat{y_i}|}{\sigma_i}
        其中,\hat{y}_i = f(\hat{x}_i), \sigma_i = n(\hat{x}_i)。计算每个值,并按照降序排列,从而得到Set S = {\{\alpha_1, \alpha_2, ... , \alpha_q\}}

      • 给定一个significance level \delta, 利用某公式确定\alpha_{S}^{\delta}

      • 对于新来的测试点x_j(j \in Test), 用Normalizer n(x)预测得到其\sigma_j,该测试点的预测区间为:
        Prediciton \ Interval = \hat{y}_j \ \pm \ \alpha_{S}^{\delta}\sigma_j

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容