生存分析8-参数模型

Cox回归模型为半参数模型,它不对基线风险函数进行估计。如果生存资料确实符合某一特定分布,采用实际分布能够更准确的估计对应参数。对半参数回归对应为参数模型(parameteric models)。包括指数分布和weibull分布等。

-各个函数之间的关系

     - 死亡概率密度函数: f(t)=lim_{△t->0}P(t≤T<t+△t)

     - 死亡累积概率密度函数:F(t)=\int_0^tf(u)du

     - 生存函数:S(t)=P(T>t)=1-P(T≤t)=1-F(t)

     - 风险函数:h(t)=\frac{f(t)}{S(t)}=lim_{△t->0}P(\frac{t≤T<t+△t}{△t})

     - 累积风险函数:H(t)=\int_0^th(u)du

     - 生存函数与累积风险函数的关系:S(t)=exp(-H(t)),H(t)=-log(S(t))

-指数分布

     -概率密度函数:f(t)=λe^{-λt}

     -累积概率密度函数:F(t)=1-e^{-λt} (F(t)求导为f(t))

     -生存函数:S(t)=1-F(t)=e^{-λt}

     -风险函数:h(t)=\frac{f(t)}{S(t)}=λ,由此可见指数分布的风险恒定为λ

     -累积风险函数:H(t)=\int_0^tf(u)du=λt

     -中位数:F(t)=0.5; 1-e^{-λt}=0.5; t=\frac{ln(2)}{λ}=median

     -均值:mean=\frac{1}{λ}

     由生存函数可得, -log{S(t)}=λt,即与生存时间t呈线性。因此可以通过对-log(S(t))与t绘图是否呈过原点的直线来判断该生存资料是否符合指数分布。
     SAS中通过proc lifetest data=XX plots=(logsurv) 绘图实现。

-威布尔分布

     - 死亡概率密度函数: f(t)=γλt^{γ-1}exp(λt^γ)

     - 死亡累积概率密度函数:F(t)=exp(-λt^γ)

     - 生存函数:S(t)=exp(-λt^γ)

     - 风险函数:h(t)=λγt^{γ-1}

     当γ=1时,为指数分布。
     分布具有两个参数:
          γ:Shape parameter
          λ:Scale parameter
          中位数:t(50)=(\frac{1}{λ}log2)^\frac{1}{γ}

     对生存函数取log(-log):log(-logS(t))=γlogλ+γlogt。当log(-logS(t))logt呈直线时,可以考虑符合weibull分布。该图的截距为logλ近似估计参数λ,斜率近似为γ。如果两条线平行,则考虑符合等比例风险假设。      当斜率γ=1,此时为指数分布。log(-logS(t))=logλ+logt=logλt

-参数估计

均通过极大似然估计(Maximum likelihood estimation)求参数。似然函数
                                                              \prod_{i=1}^nf_{Ti}(ti)^{δi}S_{Ti}(ti)^{1-δi}
其中n为受试者数,δi=1(事件发生),δi=0(删失)。将对应的f(t)及S(t)带入后求极大值(求对数后求导,导数为0时即最大值)

指数分布
image.png

e.g.

变量
t_i 1 1 2 3 3 5 8 10 16 18
δ_i 1 1 1 0 1 1 1 1 0 1

λ=\frac{8}{1+...+18}

S(t)=e^{-0.2294t}

Weibull分布

weibull分布的参数估计需要通过迭代的方法计算。

-引入协变量

当生存资料中除时间以外还存在其他变量的影响时,需要将变量考虑进回归模型。与Cox回归类似。
由于时间t不为负,将其取对数后变换为在(-∞,∞)之间,可以采用线性回归模型(对数时间线性模型)。
lnT=a_0+a_1x_1+ ... +a_mx_m+\sigma\varepsilon\sigma为常数,\varepsilon为随机误差服从某一特定分布。
T=exp(a_0+a_1x_1+ ... +a_mx_m+\sigma\varepsilon)=exp(a'x')exp(\sigma\varepsilon) ,当所有协变量为0时为不受协变量影响时的基准生存时间,a_0需要包括在模型中。

*加速失效模型
*\varepsilon服从极值分布f_\varepsilon=e^{x-e^x}时,对应指数分布和weibull分布

指数分布:当\sigma=1时,\varepsilon的分布为f_\varepsilon=e^{x-e^x}时,为指数分布 f(t)=λexp(-λt)λ=exp(-(a_0+a_1x_1+ . . .+a_mx_m))

weibull分布:当\sigma为常数(需要从数据中估计),\varepsilon分布不变,
为weibull分布 f(t)=γλt^{γ-1}exp(λt^γ)h(t)=λγt^{γ-1}
γ=1/\sigmaλ=exp(-(a_0+a_1x_1+ . . .+a_mx_m)/\sigma))
表示为风险函数:h_i(t)=exp((β_1x_1+ . . .+β_mx_m)h_0(t)=exp(β'x')λγt^{γ-1},此时scale变为λexp(β'x'),shape仍为γ不变。当所有协变量为0时,基准风险率为h_0(t),此时模型中不需要包括β_0

-SAS 实现

Proc lifereg data=XXX
Class XX;
model timestatus()=XX XX /dist=exponential;
model time
status()=XX XX /dist=weibull;
run;
计算出线性模型中a_0, a_1, . . . , a_m, \sigma后,可以通过相应的公式估算γλ的值。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 一、生存分析(survival analysis)的定义 生存分析:对一个或多个非负随机变量进行统计推断,研究...
    Seurat_Satija阅读 8,560评论 0 12
  • 白话统计-----基础篇读书笔记 第一章:为什么要学统计学 1.1为什么要学习统计学? (1)对于医学生从实际用途...
    173acaf78e0c阅读 2,879评论 1 2
  • 按照用途分类出以下统计函数: AVEDEV 用途:返回一组数据与其平均值的绝对偏差的平均值,该函数可以评测数据(例...
    四方院祭司阅读 2,983评论 0 3
  • 统计学第二弹 1. 分布 随机变量取一切可能值的概率的规律称为概率分布(probability distribut...
    阿乜太帅阅读 3,733评论 0 2
  • 读书笔记(R语言) 作者:曾健明公众号: 生信技能树整理原因:在公众号这篇文章中看到如下一段话,自己最近又在练习用...
    6102阅读 1,733评论 0 5