大家好,好久不见,这个号目前只有我在写,所有更新随心所欲,想起来什么就发点啥,也不为挣钱,希望能跟大家分享一些自己在生信学习中的感受。
今天我们来学习一个有意思的事情,IEU数据库做孟德尔随机化分析的应该都很熟悉了,平时我们都直接使用TwoSampleMR包里的extract_instruments函数提取p<5-e8数据了,但是进行一些特殊处理,如共定位分析的时候,需要提取完整数据,今天教大家怎样从IEU数据库提取一个GWAS的完整数据。
首先,直接用原来的函数extract_instruments,然后把p1参数改成1是不行的,因为有的GWAS数据库比较大,在线提取的时候超过300秒会报错。
不用害怕,非常简单,现成的包和代码已经有官方或者前辈写好了。我们需要3步,1.下载vcf文件,如图,和平时下载数据是一样的,下载完后放在工作目录;
2. 在R里面使用VariantAnnotation包readVcf函数读取,例如data0=VariantAnnotation::readVcf("ieu-b-4979.vcf.gz");3. 使用gwasvcf包里的vcf_to_tibble函数,例如data1=gwasvcf::vcf_to_tibble(data0,id='ieu-b-4979'),得到一个数据框,里面有我们需要的全部信息。
这样就把完整的vcf数据提取出来了,完整的数据对于我们提取其他有效信息非常有用,不过这个数据框的列名有些比较令人费解,并不是我们数据的命名形式。下一次我们讲这个完整数据每一列的列名代表什么意思。
R语言是生信学习避不开的语言,在孟德尔随机化领域,基本上只有R可以做完所有的分析,R在绘图上也有很完善的语法,也是比较简单的语言,我目前学习上碰到的事情大部分都是R完成的,少量使用到python,希望大家能学好R。