[算法] 模型选择 Model Selection

ESL "模型选择"章的中文小结
https://cosx.org/2015/08/some-basic-ideas-and-methods-of-model-selection/

内容补充:

  1. 符号表示汇总:
  • 测试误差test-error(或称泛化误差 generalization error):Err_\tau=E[L(Y,\hat{f}(X)|\tau],其中\tau为已知的训练集,但预测的时候X和Y是新的测试集,可以理解为基于\tau求得了拟合函数,但计算的是新数据集的误差
  • 测试误差期望:
    Err = E[L(Y, \hat{f}(X))] = E[Err_\tau],如果有很多个训练集,Err是所有\tau_i所得的测试误差的期望,同样是对于新的数据集计算loss function
  • 训练误差 Training error:
    \bar{err} =\frac{1}{N} \sum_{i=1}^N L(y_i, \hat{f}(x_i)),计算的是训练集上的loss function的平均
  • 样本内误差 in-sample error:
    \text{Err}_{in} = \frac{1}{N}\sum^N_{i=1}E_{Y^0_i}[L(Y^0_i, \hat{f}(x_i))|\mathcal{T}]
    X还是训练集中的,但Y是新的数据。引入原因:

由于Err_\tau要引入新的X_0,Y_0有难度,那么退一步看
X 不变动而仅引入新的Y_0的预测误差

  • E_yErr_\tau 一致
  1. Bias-Variance Decomposition:
    Err(x_0) = E[(Y-\hat{f}(x_0))^2|X=x_0]
    \hat{f}(x_0)=\hat{f}, f(x_0)=f
    \begin{aligned} E[ (Y - \hat f)^2 ] &= E[(f + \epsilon - \hat f )^2] \\ & = E[\epsilon^2] + E[(f - \hat f)^2] + 2 E[(f - \hat f)\epsilon] \\ & = (E[\epsilon])^2+Var(\epsilon) + E[(f - \hat f)^2] + 2E[(f−\hat{f})ϵ] \\ & = \sigma^2_\epsilon + E[(f - \hat f)^2] + 0 \end{aligned}

\begin{aligned} E[(f - \hat f)^2] & = E[(f + E[\hat f] - E[\hat f] - \hat f)^2] \\ & = E \left[ f - E[\hat f] \right]^2 + E\left[ \hat f - E[ \hat f] \right]^2 \\ & = \left[ f - E[\hat f] \right]^2 + E\left[ \hat f - E[ \hat f] \right]^2 \\ & = Bias^2[\hat f] + Var[\hat f] \end{aligned}

  1. (2.2.2上方公式的错误)\sum^N_{i=1}\text{Cov}(y_i, \hat{y}_i) = \sum^N_{i=1}\text{Cov}(y_i, \mathbf{Sy}_i) = \text{trace}(\mathbf{S})\sigma_{\epsilon}^2 = d \sigma_{\epsilon}^2

  2. AIC, BIC中的loglik是将MLE代入log likelyhood方程的结果

  3. 解析法和CV之类方法的区别:解析法仅限于线性方法,非解析法跟通用一点,因为他直接估计了extra-sample error,可以适用于任何loss function

  4. CV-一般选5/10折

  5. 正确的进行cross validation的步骤:

  • S1: 获得K-cv groups
  • S2: 对于每个group, 做feature selection找到最佳的subset来拟合
  • S2:得到k个model以后对于全部的数据集求loss function,找到最小的那个

7.
常用模型选择方法
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容