生存分析7-样本量的计算

  假设某试验两组分别为标准治疗组(Standard treatment)及新疗法组(New treatment),t时刻,标准治疗组的风险函数为h_S(t),新疗法组的风险函数为h_N(t),风险比为ψ。即
  h_N(t)=ψh_S(t)
  S(t)=exp(-H(t)) --> S_N(t)=S_S(t)^ψ
使θ=logψ;
   当θ=0时,此时ψ=1,h_N(t)=h_S(t),两组无差异
   当θ<0时,此时ψ<1,h_N(t)<h_S(t),新疗法组的风险小,生存时间长
   当θ>0时,此时ψ>1,h_N(t)>h_S(t),标准组的风险小,生存时间长

生存分析中,首先需要考虑事件数(如死亡例数)。K-M曲线图中,如果事件数不够,那么中位生存时间很可能就无法估计(50%生存率没有达到,无法对应到X轴上的生存时间)。事件数估计出来之后,再通过事件数估计所需的病例数,即总样本量。

   假设θ为实际风险比,θ_R为目标值,一类错误为α,把握度为1-β。
   则事件数为d=\frac {c(α,β)}{π(1-π)θ_R^2}c(α,β)=Z_{α/2}+Z_β
   π为组间分配比例,当组间比例为1:1时,π=0.5,d=\frac {4c(α,β)}{θ_R^2}
--------------------------推断过程---------------------------

假设有r个互不相同(不打结)的死亡时间,t(1)<t(2)<...<t(r),组别i=1/2,时间点j=1,2,...,r。在时间点t(j),第i组期初人数(at risk)为n_{ij},总例数为n_j=n_{1j}+n_{2j},死亡例数为d_j=d_{1j}+d_{2j}
   Log-rank统计量为U=\sum_{j=1}^r(d_{1j}-e_{1j})
   方差为 V=\sum_{j=1}^r \frac {n_{1j}n_{2j}d_j(n_j-dj)}{n_j^2(n_j-1)}
   e_{ij}为理论死亡例数,e_{1j}=n_{1j}d_j/n_j

  • 当统计量|U|>k时,拒绝原假设θ=0。
    原假设成立时,P(|U|>k;θ=0)=α
    备择假设成立时,P(|U|>k;θ=θ_R)=1-β
    U~N(θV,V),统计量U符合均值为θV,方差为V的正态分布。
    P(|U|>k;θ=0)=P(U>k;θ=0)+P(U<-k;θ=0)
  • 当原假设成立时,θ=0,此时U~N(0,V),此时为以0对称的正态分布,
    P(U>k;θ=0)=P(U<-k;θ=0)
    P(U>k;θ=0)=1-P(U≤k;θ=0)=1-Φ(\frac{k}{\sqrt[]{V}})=\frac{α}{2},Φ为标准正态分布的累计概率密度函数。
    U~N(θV,V) 经过变化可化为标准正态分布 Y=\frac{X-μ}{δ}~N(0,1),即
       \frac{U}{\sqrt[]{V}}~N(0,1)
       Φ(\frac{k}{\sqrt[]{V}})=1-\frac{α}{2}
       \frac{k}{\sqrt[]{V}}=z_{α/2}
       k=z_{α/2}{\sqrt[]{V}}

  • 当备择假设成立时,θ=θ_R,此时U~N(θ_RV,V),此时, P(|U|>k;θ=θ_R)=P(U>k;θ=θ_R)+P(U<-k;θ=θ_R)
    正态分布均值要么在0左右要么在0右边,此时两边中的其中一边可以忽略,所以简化为
    P(|U|>k;θ=θ_R)≈P(U<-k;θ=θ_R)=Φ(\frac{-k-θ_RV}{\sqrt[]{V}})=1-β

    \frac{-k-θ_RV}{\sqrt[]{V}}=z_β

  • 由上述得到两个等式
    k=z_{α/2}{\sqrt[]{V}}\frac{-k-θ_RV}{\sqrt[]{V}}=z_β
    将k、α及β代入式2后得到 V=(z_{α/2}+z_β)^2/θ_R^2
    同时 V=\sum_{j=1}^r \frac {n_{1j}n_{2j}d_j(n_j-dj)}{n_j^2(n_j-1)}
    当死亡人数很少时,上式可以近似为 V=\sum_{j=1}^r \frac {n_{1j}n_{2j}d_j}{n_j^2}
    更进一步,如果θ很小,且每组受试者入组的概率近乎相同,则
    \frac {n_{1j}n_{2j}}{n_j^2}=\frac {n_{1j}n_{2j}}{(n_{1j}+n_{2j})^2}≈\frac {n_{1j}n_{2j}}{(2n_{1j})^2}=1/4
    V≈\sum_{j=1}^r \frac {d_j}{4}=d/4
    d=\frac {4(z_{α/2}+z_β)^2}{θ_R^2}
    当不同组入组比例不相同时,
    \frac {n_{1j}n_{2j}}{n_j^2}=\frac {πn_j(1-π)n_j}{n_j^2}≈π(1-π)
    d=\frac {π(1-π)(z_{α/2}+z_β)^2}{θ_R^2}

---------------------由死亡事件数计算样本量--------------------
由事件数计算所需病例数,需要考虑研究过程中的死亡概率。假设受试者入组时长为a(accrual period),入组结束后还有一定的随访时长f(follow-up period),试验的总时长为a+f。当随访时间f较短时,可能出现的死亡事件数越少,因此对于同样的事件数,f越短,所需的病例数越多。
当受试者的死亡概率确定后,总样本量为
n=\frac{d}{P(death)}
d为前面算出的死亡例数,P(death)为死亡概率。

P(death)=1-\frac{1}{6}(S^-(f)+4S^-(0.5α+f)+S^-(a+f))     (1)
其中S^-(t)=\frac{S_S(t)+S_N(t)}{2}
S_S(t)S_N(t)分别为标准治疗和新治疗的生存函数时刻t时的估计值。

对于组别1:P(death; Group I)=1-\frac{1}{6}(S_S(f)+4S_S(0.5α+f)+S_S(a+f))
对于组别2:P(death; Group II)=1-\frac{1}{6}(S_N(f)+4S_N(0.5α+f)+S_N(a+f))

当组间分配比例为1:1时,P(death)=\frac{P(death; Group I)+P(death; Group II)}{2}
由此得出式(1)。
当组间分配比例不为1:1时,假设组1为π,组2为1-π。P(death)=πP(death; Group I)+(1-π)P(death; Group II)

*参考《Modelling Survival Data in Medical Research》和B站[潘老师学肿瘤设计],讲的很清楚

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容