登录注册写文章

2018-11-09 会议

2018-11-09 会议

预测区间（Prediction Interval):
给定一个概率 $\sigma$ ，确定预测区间 $[y_1, y_2 ]$ 。该区间有 $\sigma$ 的概率包含真实值 $y_{true}$ 。预测区间可以反映预测值是否可靠，预测区间越大，该预测值越不可信。
计算预测区间有两种方式：
- Conformal Prediction
- Quantile RF
Conformal Prediction
- Assumption: 数据是iid
- 用于衡量预测是否可信，主要利用NonConformity Measure, 简称 $nc$
- 为计算 $nc$ , 构建了两个学习器：
  - $Regressor$ . 拟合 $<X, Y>$ 之间的关系，用 $y = f(x)$ 来表示；
  - $Normalizer$ . 拟合 $<X, ln^{|Y - \hat{Y}|}>$ 之间的关系，用于预测给定测试点 $\hat{x}$ 的误差，的用 $n(x)$ 表示。
- 其算法步骤如下：
  - 从数据集 $D$ 中，构建训练集 $D^t$ ，校准集 $D^c$ （RF中可用oob instance代替）。
  - $D^t$ 用于训练上述提到的 $Regressor$ $f(x)$ 和 $Normalizer$ $n(x)$
  - $D^c$ 用于计算 $nc$ 。对于校准集 $D^c$ 中的第 $i$ 个测试点 $\hat{x}_i$ ( $i \in D^c$ ), 计算其NonConformity Score, 如下：
    $\alpha_i = \frac{|y_i - \hat{y_i}|}{\sigma_i}$
    其中， $\hat{y}_i = f(\hat{x}_i)$ , $\sigma_i = n(\hat{x}_i)$ 。计算每个值，并按照降序排列，从而得到Set $S = {\{\alpha_1, \alpha_2, ... , \alpha_q\}}$
  - 给定一个significance level $\delta$ ，利用某公式确定 $\alpha_{S}^{\delta}$ 。
  - 对于新来的测试点 $x_j$ ( $j \in Test$ ), 用 $Normalizer$ $n(x)$ 预测得到其 $\sigma_j$ ，该测试点的预测区间为：
    $Prediciton \ Interval = \hat{y}_j \ \pm \ \alpha_{S}^{\delta}\sigma_j$

最后编辑于：2018.11.13 16:44:20

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

友情链接更多精彩内容

赞1赞

赞赏

手机看全文