由于HapMap网站关闭,许多网上流传的选择tagSNP的方法不能用了,但是还有千人基因组网站的数据能用,本文详述如何从千人基因组网站下载某个区段的位点信息并导入Haploview来选择tagSNP。
1、VCF to PED Converter 是千人基因组网站自带的将vcf转换为HapMap格式的在线工具,数据现在可以不用下载,直接输入基因的位置信息就可以转换了,但是使用前要注册下。
VCF to PED Converter: http://www.internationalgenome.org/vcf-ped-converter#online-version
2、以COMT基因为例,打开http://grch37.ensembl.org/Homo_sapiens/Info/Index,输入基因名,点击Go后进入COMT的信息界面,会出现此基因在染色体上的位置。将此信息复制到VCF to PED Converter界面里。
-
注意这一步让倒计时跑完,自动进入页面
-
将此页面信息都填写完整
-
点击run后等待刷新完毕(refresh)
-
跑完就显示done, 点击查看结果
- 下载ped和info文件
- 解压这两个文件放入同一文件夹
- 打开Haploview,输入文件,同名可以自动识别这两个文件,只用输入一个。
-
提示more than two alleles at marker 64, 去文件里删除这个位点还是不行,不知道咋回事。一般0=missing,1=A, 2=C, 3=G, 4=T。换成FMO1基因就可以导入。
-
一般r2>0.8认为一个位点可以代表另外一个,这两个位点是高度连锁的,点击run tagger。
-
结果说明82个位点可以100%覆盖这个基因,如果不需要这么多位点,可以把外显子上的挑出来,降低覆盖度。
- 直接在选择的位点后面选force include, 再run后会发现Haploview给出了这几个位点的覆盖度,只有9%。
方法二:
有些基因下载的文件导入haploview会报错,经过研究发现另一种手动的方法也可以(๑◡๑)。
- 打开http://grch37.ensembl.org/index.html网站,输入基因名,如下:
选择go,选第一个,就是我们要的基因了
可以看出左边几乎列出了所有的基因相关信息!我们选variant table,就可以把所有的SNP列出来啦!
我只选了MAF在0.05-0.5(tag SNP 一般选common的位点)之间的位于外显子上的位点,可以看出只剩下4个了,但是这4个竟然是同一个位点!
可以在我们设置过滤条件后挑选SNP啦!但是有可能会选到连锁的位点,最好看下有没有连锁的,有的话连锁位点选一个就可以了。
用HaploReg v4.1 (http://archive.broadinstitute.org/mammals/haploreg/haploreg.php)看下连锁位点:
可以看出这个数据库集成了很多其他数据库,可以挑选有功能的位点进一步研究。