Table 1是总结研究样本中变量组成及变量间关系的一张表。
R语言可以通过几行代码快速生成Table 1。
本期用到的是“tableone”,是我制作Table 1时最喜欢用的包
欢迎大家关注我的公众号:一只勤奋的科研喵
原文链接:R语言轻松绘制临床基线表Table 1
目录
一. 文献中的Tabl 1
二. tableone包制作Table 1(2列)
三. tableone包制作Table 1(4列)
四. tableone包制作Table 1(5列)
五. tableone其他代码展示
一、文献中的Table 1
连续和分类变量相关性检验见:连续变量相关性比较 和 分类变量相关性检验。
类型1. 变量名+总人群(两列)
研究目的为“xx疾病的预后因素分析”时常用,即不涉及比较。
这种表只需把握好连续变量为正态还是非正态分布即可。正态分布写均值±标准差,非正态分布写中位数+上下四分位数。分类变量写数目和百分数。
类型2:变量+某变量分列+p值
研究目的为 “xx变量对预后的比较分析” 时常用。
因涉及比较,所以在Table 1常将用该变量将全部人群分为几类,观察其他变量在这几个分类中是否有差异(p值)。
这种表就涉及到了连续变量和分类变量的相关性检验
类型3. 变量名+总数+某变量分组+p值
1和2的综合。可以向读者展示更多细节。通常5列。
二、tableone包制作Table 1(2列)#
以下数据来自SEER数据库的5000例乳腺癌病例。
过程其实就是输入3个条件【指定需要汇报的变量;指定这些变量中的分类变量;指定哪些连续变量是非正态分布】-----构建函数-----输出表格
1、安装R包、数据放入工作目录
#install.packages("tableone") #1.加载R包,电脑里若无tableone,去掉下面的#
library(tableone)
rm(list = ls()) #2.清理运行环境
aa<- read.csv('20210126.csv') #3.读入数据
2、查看数据构成
head(aa) #查看数据前6行
str(aa) #查看数据数据性质
names(aa) #提取变量的名字
age=年龄,age70=以70岁为界分组的年龄,race=种族,marry=婚姻,t=t分期,n=n分期,tnm=tnm分期,er=雌激素受体,pr=孕激素受体,her2,g=组织分级,sur=手术,rt=放疗,che=化疗,status=死亡否,time=时间3、连续变量正态性检验
shapiro.test(aa$age) #p>0.05才符合正态分布
shapiro.test(aa$time) #p>0.05才符合正态分布
前面的代码是只是查看数据性质,从第4步开始正式写Table 1代码。
4、输入Table 1的条件
条件1# myVars的()中输入想要在Table 1出现的变量【英文引号以英文逗号隔开】
myVars <-c ("age","age70","race","marry","t", "n", "tnm", "er", "pr", "g","her2",
"sur","rt","che", "time","status")#16个变量
条件2# catVars的()内指明上述中哪些是分类变量
catVars <- c("age70","race", "marry", "t", "n", "tnm", "er", "pr","g","her2",
"sur","rt","che", "status")#14个分类变量
条件3# tableone包默认输出均数+标准差,所以nonvar的()输入那些连续变量是非正态分布的(输出中位数+四分位数)
onvar <- c("time","age") # 指定哪些变量是非正态分布变量
5、构建Table 函数 CreateTableOne()
table<- CreateTableOne(vars = myVars,#条件1
factorVars = catVars,#条件2
data = aa, #源数据
addOverall = TRUE) #增加overall列
6、输出结果
table1 <- print(table, #构建的table函数(包括条件1.2)
showAllLevels=TRUE, #显示所有变量
nonnormal = nonvar) #条件3
7、保存至Excel
write.csv(table1, file = "table1.csv")
三、tableone包制作Table 1(4列)
4列的Table 1其实就是在构建table 1时加入了一个变量分列条件而已。需要注意的是此时应先验证连续变量和分类是哪种检验方法。
详见:连续变量相关性比较 和 分类变量检验
前面操作1-4步不变
library(tableone) *#1.加载R包*`
rm(list = ls()) *#2.清理运行环境*`
aa<- read.csv('20210126.csv') *#3.读入数据*`
head(aa) *#4.查看数据前6行*`
str(aa) *#5.查看数据数据性质*`
names(aa) *#6.提取变量的名字*`
条件1不变 myVars的()中输入想要在Table 1出现的变量
myVars <- c("age","age70","race","marry", "t","n", "tnm","er","pr",
"g","her2", "sur","rt","che","time","status") #16变量
条件2不变 catVars的()内指明上述中哪些是分类变量
catVars <- c("age70","race", "marry", "t", "n", "tnm", "er", "pr","g","her2",
"sur","rt","che","status")
5、构建Table函数
构建table 函数,加入条件4,strata = " " 。英文引号内填入需要分列的变量,例如本研究想探索放疗对预后的影响,则为strata = "rt"
table <- CreateTableOne(vars = myVars, *#条件1*
factorVars = catVars,*#条件2*
strata = "rt", *#条件4*
data = aa, *#原始数据*
);table
条件3不变 指定非正态分布连续变量变量
nonvar <- c("time","age")
条件5新加入 假如有T<5变量应使用Fisher精确检验,本文数量大,无需Fisher精确检验
exactvars <- c("a", "b")
附加细节:catDigits = 2, contDigits = 3, pDigits = 4,修改连续变量小数位数为2位,分类变量百分比位数为3位,调整小数位数为4位;
6、输出结果
把构建的table+条件1-5+附加细节条件放入print()函数
table1<- print(table, #构建的table函数(带条件1.2.3)
nonnormal = nonvar,#条件4
#exact = exactvars, #条件5
catDigits = 2,contDigits = 3,pDigits = 4, #附加条件
showAllLevels=TRUE, #显示所有变量
quote = FALSE, # 不显示引号
noSpaces = TRUE, # #删除用于对齐的空格
printToggle = TRUE) #展示输出结果*`
四、tableone包制作Table 1(5列)
制作4列的所有条件不变(1-5+附加条件),在构建table函数时的代码增加一个addOverall = TRUE
5、构建Table函数
table <- CreateTableOne(vars = myVars, #条件1
factorVars = catVars,#条件2
strata = "rt", #条件4
data = aa, #原始数据
addOverall = TRUE
);table#条件6加入overall
6、输出Table 1(代码不变)
table1<- print(table, #构建的table函数(带条件1.2.3)
nonnormal = nonvar,#条件4
#exact = exactvars,#条件5
catDigits = 2,contDigits = 3,pDigits = 4, #附加条件
showAllLevels=TRUE, #显示所有变量
quote = FALSE, # 不显示引号
noSpaces = TRUE, # #删除用于对齐的空格
printToggle = TRUE) #展示输出结果
五、tableone包其他细节
函数CreateTableOne()所以细节条件汇总,即第5步。
5、构建Table函数
table <- CreateTableOne( vars, #指定哪些变量是Table 1需要汇总的变量
strata,#指定进行分类的变量,不写则只出Overall列
data,# 变量的数据集名称
factorVars,#指定哪些变量为分类变量,指定的变量应是vars参数中的变量
includeNA = FALSE,#为TRUE则将缺失值作为因子处理,仅对分类变量有效
test = TRUE,#默认为TRUE,当有2个或多个组时, 自动进行组间比较
testApprox = chisq.test,#默认卡方检验
argsApprox = list(correct = TRUE),# 进行连续校正的chisq.test
testExact = fisher.test,#进行fisher精确检验
argsExact = list(workspace = 2 * 10^5),# 指定
fisher.test分配的内存空间
testNormal = oneway.test, # 连续变量为正态分布进行的检验,默认为 oneway.test,两组时相当于t检验
argsNormal = list(var.equal = TRUE), # 假设为等方差分析
testNonNormal = kruskal.test,# 默认为Kruskal-Wallis秩和检验
argsNonNormal = list(NULL),#传递给testNonNormal中指定的函数的参数的名列表
smd = TRUE,#如果为TRUE(如默认值)并且有两个以上的组,则将计算所有成对比较的标准化均值差。
addOverall = FALSE#仅在分组时使用)将整个列添加到表中。Smd和p值计算仅使用分层的列阵进行。
);table
print()函数细节汇总,即第6步
6、输出Table 1
table1<- print(x, #CreateTableOne()的 <- 前的名字(x=table)
catDigits = 1, #连续变量小数位1位
contDigits = 2,#分类变量保留2位
pDigits = 3,#p值保留3位
quote = FALSE,#默认值为FALSE。如果为TRUE#则包括行名 和列名在内的所有内容都用引号引起来,以便您可以轻松地将其复制到Excel。
missing = FALSE,#是否显示丢失的数据信息
explain = TRUE,#显示百分比时是否在变量名称中添加解释,即(%)添加到变量名称中。
printToggle = TRUE,#如果为FALSE,则不输出
test = TRUE,#是否显示p值。默认为TRUE。
smd = FALSE,#是否显示标准化均值差异。默认为FALSE。如果存在多个对比,则显示所有可能的标准化均值差的平均值。
noSpaces = FALSE,#是否删除为对齐而添加的空格。
padColnames = FALSE,#是否用空格填充列名以居中对齐。默认值为FALSE。如果noSpaces = TRUE,则不进行
varLabels = FALSE,#是否用从labelled :: var_label()函数获得的变量标签替换变量名。
format = c("fp", "f", "p", "pf")[1],#默认值为“ fp”频率(百分比)。您也可以选择仅“ f”频率,“仅p”百分比和“ pf”百分比(频率)。
showAllLevels = FALSE,#是否显示所有级别。
cramVars = NULL,#字符向量,用于指定两个级别的分类变量,对于这两个级别的变量,应在一行中显示两个级别。
dropEqual = FALSE,#是否删除“ =第二级名称”描述,指示为两级分类变量显示哪个级别。
exact = NULL,#字符向量,用于指定p值应为精确测试值的变量。
nonnormal = NULL,#字符向量,用于指定p值应为非参数检验的变量的变量。
minMax = FALSE#对于非正态变量,是否使用[min,max]而不是[p25,p75]。默认值为FALSE。
)