公众号有何AI与医学:孟德尔随机化准备从大家问题多地方以及简单介绍写起来,然后补全整个分析流程!欢迎转发关注哦!
UK Biobank
生物银行(Biobank)是指通过标准化流程,收集并长期储存人体生物样本(如血液和 DNA)及采集对象生理、病理、社会经济信息的资源库,本质上也是一种大样本的人群前瞻性队列研究。英国生物银行(UK Biobank,简称UKB;官网:https://www.ukbiobank.ac.uk/)作为目前世界上最为知名和开放的生物银行,自2006年建立以来已收集了英国各地50万名参与者的血液、尿液和唾液样本,以及完善的人口学、社会经济、生活方式和健康信息。这里我们主要介绍UKB公开的GWAS数据,对其它付费数据感兴趣可以参考下边链接(https://zhuanlan.zhihu.com/p/532396312)。
汇总数据库
UKBB-gwas数据被很多汇总数据库收纳,最出名的当属IEU OPEN GWAS(https://gwas.mrcieu.ac.uk/)。
使用IEU调取UKB-gwas比较简单,直接搜索表型,然后UKBB的也会被搜索出来,通过ID直接调取就好了,IEU已经对数据重新进行了质控和检验,所需要的变量都应经存在。
GWAS Catalog数据库也纳入了很多UKB数据(https://www.ebi.ac.uk/gwas/search?query=breast%20carcinoma),但是没有IEU的全面。GWAS Catalog更新的要比IEU快。内部消息IEU后边可能要停更了。GWAS Catalog用法下期详解。
UKBB-gwas详解
UKBB-gwas目录保存在谷歌的table中,地址(https://docs.google.com/spreadsheets/d/1kvPoupSzsSFBNSztMzl04xMoSC3Kcx3CrjVf4yBmESU/edit#gid=227859291)
我们可以看到,一个表型更具数据类型,性别做了6次GWAS分析,这是UKB原始库最大的特点,当我们的疾病和性别有关系时候那么选择UKB原始数据再好不过。性别很好理解,但是irrt和raw数据有什么区别,这里使用表型Food weight 来一探究竟,分别下载下载双性别irrt和raw数据。
1服务器下载:
2
3wget https://broad-ukb-sumstats-us-east-1.s3.amazonaws.com/round2/additive-tsvs/100001_irnt.gwas.imputed_v3.both_sexes.tsv.bgz -O 100001_irnt.gwas.imputed_v3.both_sexes.tsv.bgz
4
5wget https://broad-ukb-sumstats-us-east-1.s3.amazonaws.com/round2/additive-tsvs/100001_raw.gwas.imputed_v3.both_sexes.tsv.bgz -O 100001_raw.gwas.imputed_v3.both_sexes.tsv.bgz
由于.bgb不好解压,也不好读入,这里直接改成.gz,本地操作直接重命名,服务器代码如下:
1mv 100001_irnt.gwas.imputed_v3.both_sexes.tsv.bgz 100001_irnt.gwas.imputed_v3.both_sexes.tsv.gz
2
3mv 100001_raw.gwas.imputed_v3.both_sexes.tsv.bgz 100001_raw.gwas.imputed_v3.both_sexes.tsv.gz
4
5# 使用R语言读入
6
7f<-fread("100001_raw.gwas.imputed_v3.both_sexes.tsv.gz")
8g<-fread("100001_irnt.gwas.imputed_v3.both_sexes.tsv.gz")
9
10# 查看
11head(f)
12head(g)
我们观察发现,两者共同点都没有rsID,两者最大的区别就是Beta值的不同,raw的Beta比较大,显然不符合我们做孟德尔随机化研究。
新年快乐
祝大家2023新年快乐,2023将继续保持极简的风格分享知识。行路难!行路难!多岐路,今安在? 长风破浪会有时,直挂云帆济沧海。一句诗词与大家共勉。