#2.1请绘制年龄age变量分布的柱形图和核密度曲线图(要求在同一个图中绘制)。
a1<-barplot(table(test$age))
par(new=TRUE)
d <- density(test$age)
a1<-plot(d)
#2.2请编制一个自定义函数(function),要求:能够计算定量资料的四分位数,并以“P50(P25-P75)”的形式输出,如年龄age: 60 (53-65)岁。然后输出体重指数bmi和吸烟强度packyr的结果
mystats<-function(x){
x1<-quantile(x,0.5,na.rm=TRUE)
y<-quantile(x,0.25,na.rm=TRUE)
z<-quantile(x,0.75,na.rm=TRUE)
result<-paste0(x1,"(",y,"-",z,")")
return(result)
}
mystats(test$bmi)
mystats(test$packyr)
#2.3年龄age,教育程度education,体重指数bmi,吸烟smoke,上述哪几个因素在不同性别间差异显著?请使用适当统计学方法评价。
t.test(age~sex,test)
wilcox.test(education~sex,test)
t.test(bmi~sex,test)
table<-xtabs(~sex+smoke,data=test)
chisq.test(table)
#2.4使用适当的广义线性模型评估肺癌风险与基线因素的关联强度,总结哪些因素关联性较强
summary(test)
full<-glm(lung_ca~age+sex+edcation+bmi+family_ca+smoke+packyr+respdis+secsmoke+exposure+drink+exercise)
summary(full)