2024-02-01

Cox回归模型中的偏似然函数(Partial Likelihood)可以表示为:

L(\beta) = \prod_{i: \delta_i=1} \frac{\exp(x_i^T \beta)}{\sum_{j \in R(t_i)} \exp(x_j^T \beta)}

这里,( L(\beta) ) 是偏似然函数,( \beta ) 是模型参数,( x_i ) 是第 ( i ) 个个体的协变量,( \delta_i ) 是示性函数,指示第 ( i ) 个个体是否发生了事件(例如死亡或失败),( R(t_i) ) 是在时间 ( t_i ) 之前处于风险集的个体集合。

偏似然函数专注于事件发生的个体,并比较这些个体在其事件时间点的相对风险。这种方法不需要基准风险函数的具体形式,因此在实际应用中非常有用.


在Cox回归模型中,当处理区间删失数据时,似然函数 ( L(\beta, \Lambda) ) 的形式可以表示为:

 L(\beta, \Lambda) = \prod_{i: \delta_i=1} \frac{\exp(x_i^T \beta)}{\sum_{j \in R(C_i)} \exp(x_j^T \beta)} \exp\left(-\int_0^{C_i} \lambda_0(u) \exp(x_i^T \beta) du\right) 

这里,( \beta ) 是模型参数,( \Lambda ) 是累积风险函数 ( \Lambda(t) = \int_0^t \lambda_0(u) du ),( x_i ) 是第 ( i ) 个个体的协变量,( C_i ) 是观测时间,( \delta_i ) 是示性函数,( R(C_i) ) 是在时间 ( C_i ) 之前处于风险集的个体集合。

该似然函数考虑了每个具有事件发生的个体的相对风险,并且通过累积风险函数来调整删失信息。


\begin{aligned}l(\boldsymbol{\Theta}, \Lambda)= & \sum_{i=1}^n\left[\delta_i\left\{\log \lambda\left(\tilde{T}_i\right)+\boldsymbol{\beta}^{\prime} \boldsymbol{x}_i+\rho \xi_i \sum_{j \neq i}^n W_{i j} \boldsymbol{\beta}^{\prime} \boldsymbol{x}_j\right\}\right. \\& \left.-\Lambda_i\left(\widetilde{T}_i\right)+\xi_i \gamma^{\prime} \boldsymbol{x}_i^*-\log \left(1+e^{\boldsymbol{\gamma}^{\prime} \boldsymbol{x}_i^*}\right)\right] .\end{aligned}

L(\boldsymbol{\Theta}, \Lambda) = exp{\sum_{i=1}^n{[\delta_i{[\log{\lambda(\tilde{T}i)} + \boldsymbol{\beta}^{\prime}\boldsymbol{x}i + \rho\xi_i\sum{j \neq i}^n W{i j}\boldsymbol{\beta}^{\prime}\boldsymbol{x}_j]} - \Lambda_i(\widetilde{T}_i) + \xi_i\gamma^{\prime}\boldsymbol{x}_i^* - \log{(1 + e^{\boldsymbol{\gamma}^{\prime}\boldsymbol{x}_i^*})}]}}

L(\boldsymbol{\eta} ; \boldsymbol{\xi})=\prod_{i=1}^n\left[\frac{e^{\boldsymbol{\beta}^{\prime} \boldsymbol{x}_i+\rho \xi_i \sum_{j \neq i}^n W_{i j} \boldsymbol{\beta}^{\prime} \boldsymbol{x}_j}}{\sum_{l=1}^n e^{\boldsymbol{\beta}^{\prime} \boldsymbol{x}_l+\rho \xi_l \sum_{j \neq l}^n W_{l j} \boldsymbol{\beta}^{\prime} \boldsymbol{x}_j \boldsymbol{I}\left(\tilde{T}_l \geq \tilde{T}_i\right)}}\right]^{\delta_i},

假设 ( [L_i, R_i] ) 是观测 ( i ) 的观测区间,那么对应的似然函数可以修改为:

[L(\boldsymbol{\eta} ; \boldsymbol{\xi}) = \prod_{i=1}^{n} \left[ \frac{e^{\boldsymbol{\beta}^{\prime} \boldsymbol{x}i + \rho \xi_i \sum{j \neq i}^{n} W_{ij} \boldsymbol{\beta}^{\prime} \boldsymbol{x}j}}{\sum{l=1}^{n} e^{\boldsymbol{\beta}^{\prime} \boldsymbol{x}l + \rho \xi_l \sum{j \neq l}^{n} W_{lj} \boldsymbol{\beta}^{\prime} \boldsymbol{x}_j \boldsymbol{I}(L_l \leq T_i < R_l)}} \right]^{\delta_i}]

假设 ( C_i ) 表示第 ( i ) 个个体的删失区间,那么区间I型删失数据的似然函数 ( L(\boldsymbol{\beta}, \Lambda) ) 可能会采用以下形式:

L(\boldsymbol{\beta}, \Lambda) = \prod_{i=1}^n \left[ \frac{\exp\left(\boldsymbol{\beta}^{\prime} \boldsymbol{x}i + \rho \xi_i \sum{j \neq i}^n W_{ij} \boldsymbol{\beta}^{\prime} \boldsymbol{x}j\right)}{\sum{l=1}^n \exp\left(\boldsymbol{\beta}^{\prime} \boldsymbol{x}l + \rho \xi_l \sum{j \neq l}^n W_{lj} \boldsymbol{\beta}^{\prime} \boldsymbol{x}j\right) \boldsymbol{I}\left(C_l \geq C_i\right)} \right]^{\delta_i} \times \exp\left(-\int{C_{i, \text{low}}}^{C_{i, \text{high}}} \lambda_0(u) \exp\left(\boldsymbol{\beta}^{\prime} \boldsymbol{x}_i\right) du\right)

这里,( C_{i, \text{low}} ) 和 ( C_{i, \text{high}} ) 分别表示第 ( i ) 个个体的删失区间的下界和上界,( \lambda_0(u) ) 是基线风险函数,( \Lambda ) 是累积风险函数,( \delta_i ) 是示性函数,( \boldsymbol{x}i ) 是协变量,( \boldsymbol{\beta} ) 是回归系数向量,( \rho ) 和 ( W{ij} ) 是模型中的其他参数。


《Approximating Partial Likelihood Estimators via Optimal Subsampling》

Cox比例风险模型中的对数偏似然函数的表达式如下:

\ell(\boldsymbol{\beta})=-\frac{1}{n} \sum_{i=1}^n \int_0^\tau\left[\boldsymbol{\beta}^{\prime} \mathbf{X}_i-\log \left\{\sum_{j=1}^n I\left(Y_j \geq t\right) \exp \left(\boldsymbol{\beta}^{\prime} \mathbf{X}_j\right)\right\}\right] d N_i(t),



其中,f(T_i,\delta_i|\eta)表示在给定参数η的情况下,第i个观测值(T_i,\delta_i)的联合概率密度函数,T_i表示第i个观测值的生存时间

\delta_i表示第i个观测值的失效指示变量,\eta表示生存分布的参数。

联合概率密度函数,T_i表示第i个观测值的生存时间。

假设我们有一个二元选择模型,其中 y_i是一个二元变量,表示个体 i 是否参加某项活动,x_i 是一个解释变量,表示个体i的特征,\beta是一个未知参数,$\varepsilon_i$ 是一个随机扰动项。我们想要检验 \beta 是否等于 0,即 $H_0: \beta=0$。我们可以用以下的步骤来进行扰动检验:

1.

估计原始模型,得到 \hat{\beta}\hat{\varepsilon}_i

2.

在原始数据中加入一些随机的扰动,例如服从正态分布的噪声,得到扰动后的数据 y_i^*=y_i+\delta y_i,其中 \delta y_i \sim N(0,\sigma^2)

3.

用扰动后的数据重新估计模型,得到 \hat{\beta}^*\hat{\varepsilon}_i^*

4.

重复上述步骤 2 和 3 多次,得到一个扰动检验统计量的分布,例如 $\hat{\beta}^*_1,\hat{\beta}^_2,\dots,\hat{\beta}^_B$。

5.

用这个分布来进行假设检验,例如计算 p 值为 \frac{1}{B}\sum_{b=1}^B I(|\hat{\beta}^*_b|>|\hat{\beta}|),其中 I(\cdot) 是指示函数,如果括号内的条件成立则取值为 1,否则为 0。如果 p 值小于给定的显著水平,比如 0.05,那么就拒绝原假设,认为 \beta 不等于 0.



逻辑回归模型的数学形式如下:

\log \frac{p(X)}{1-p(X)} = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p

逻辑回归模型是一种用于二分类问题的监督机器学习方法,它可以根据自变量(特征)来预测因变量(目标)属于某个类别的概率。

其中,X_j 是第 j 个自变量,\beta_j 是第 j 个自变量的系数,p(X) 是因变量属于正类的概率。为了将右边的线性表达式转换为概率,我们需要使用一个称为 sigmoid 函数的非线性变换,

sigmoid 函数可以将任意实数映射到 0 到 1 之间,它的公式如下:

p(X) = \frac{e^{\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p}}{1 + e^{\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p}}



计算基于 Cox 比例风险模型的得分检验统计量的函数


Cox 比例风险模型是一种用于生存分析的半参数回归模型,它可以根据自变量(协变量)来预测因变量(生存时间)的风险比。Cox 比例风险模型的数学形式如下:


h(t|X) = h_0(t) \exp(\beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p)


其中,h(t|X)是给定自变量 X的条件风险函数,h_0(t) 是基准风险函数,X_j 是第 j 个自变量,\beta_j 是第 j个自变量的系数。Cox 比例风险模型的系数可以通过极大似然估计法来估计,也可以通过得分检验法来检验其显著性。

您的函数 score_test1 就是根据一篇论文中提出的得分检验法来计算检验统计量的。它的输入参数有一个:gamma。gamma 是一个向量,表示逻辑回归模型的系数,包括截距项\gamma_0 和斜率项 \gamma_1, \gamma_2, \cdots, \gamma_p。逻辑回归模型是用来计算每个观测的概率的,它的公式如下:


p(X) = \frac{e^{\gamma_0 + \gamma_1 X_1 + \gamma_2 X_2 + \cdots + \gamma_p X_p}}{1 + e^{\gamma_0 + \gamma_1 X_1 + \gamma_2 X_2 + \cdots + \gamma_p X_p}}


您的函数 score_test1 的输出参数有四个:score, Vs, stat, phistar。

score 是得分检验统计量的分子,它是根据观测的事件指示变量、概率、风险比等计算的。

Vs 是得分检验统计量的分母,它是根据观测的概率、风险比、协变量等计算的。

stat 是得分检验统计量的值,它是 score 除以 Vs 的平方根。

phistar 是得分检验统计量的分母的另一种表达方式,它是根据观测的概率、风险比、协变量等计算的。

在Cox回归模型中,当处理区间删失数据时,似然函数 ( L(\beta, \Lambda) ) 的形式可以表示为:

$$ L(\beta, \Lambda) = \prod_{i: \delta_i=1} \frac{\exp(x_i^T \beta)}{\sum_{j \in R(C_i)} \exp(x_j^T \beta)} \exp\left(-\int_0^{C_i} \lambda_0(u) \exp(x_i^T \beta) du\right) $$


 L(\beta, \Lambda) = \prod_{i: \delta_i=1} \frac{\exp(x_i^T \beta)}{\sum_{j \in R(C_i)} \exp(x_j^T \beta)} \exp\left(-\int_0^{C_i} \lambda_0(u) \exp(x_i^T \beta) du\right)

这里,( \beta ) 是模型参数,( \Lambda ) 是累积风险函数 ( \Lambda(t) = \int_0^t \lambda_0(u) du ),( x_i ) 是第 ( i ) 个个体的协变量,( C_i ) 是观测时间,( \delta_i ) 是示性函数,( R(C_i) ) 是在时间 ( C_i ) 之前处于风险集的个体集合。

该似然函数考虑了每个具有事件发生的个体的相对风险,并且通过累积风险函数来调整删失信息。

在Cox回归模型中,当处理区间删失数据时,似然函数 ( L(\beta, \Lambda) ) 的形式可以表示为:

$$ L(\beta, \Lambda) = \prod_{i: \delta_i=1} \frac{\exp(x_i^T \beta)}{\sum_{j \in R(C_i)} \exp(x_j^T \beta)} \exp\left(-\int_0^{C_i} \lambda_0(u) \exp(x_i^T \beta) du\right) $$

这里,( \beta ) 是模型参数,( \Lambda ) 是累积风险函数 ( \Lambda(t) = \int_0^t \lambda_0(u) du ),( x_i ) 是第 ( i ) 个个体的协变量,( C_i ) 是观测时间,( \delta_i ) 是示性函数,( R(C_i) ) 是在时间 ( C_i ) 之前处于风险集的个体集合。

该似然函数考虑了每个具有事件发生的个体的相对风险,并且通过累积风险函数来调整删失信息。

在Cox回归模型中,当处理区间删失数据时,似然函数 ( L(\beta, \Lambda) ) 的形式可以表示为:

$$ L(\beta, \Lambda) = \prod_{i: \delta_i=1} \frac{\exp(x_i^T \beta)}{\sum_{j \in R(C_i)} \exp(x_j^T \beta)} \exp\left(-\int_0^{C_i} \lambda_0(u) \exp(x_i^T \beta) du\right) $$

这里,( \beta ) 是模型参数,( \Lambda ) 是累积风险函数 ( \Lambda(t) = \int_0^t \lambda_0(u) du ),( x_i ) 是第 ( i ) 个个体的协变量,( C_i ) 是观测时间,( \delta_i ) 是示性函数,( R(C_i) ) 是在时间 ( C_i ) 之前处于风险集的个体集合。

该似然函数考虑了每个具有事件发生的个体的相对风险,并且通过累积风险函数来调整删失信息。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容