由于HapMap网站关闭,许多网上流传的选择tagSNP的方法不能用了,但是还有千人基因组网站的数据能用,本文详述如何从千人基因组网站下载某个区段的位点信息并导入Haploview来选择tagSNP。
1、VCF to PED Converter 是千人基因组网站自带的将vcf转换为HapMap格式的在线工具,数据现在可以不用下载,直接输入基因的位置信息就可以转换了,但是使用前要注册下。
VCF to PED Converter: http://www.internationalgenome.org/vcf-ped-converter#online-version
Paste_Image.png
2、以COMT基因为例,打开http://grch37.ensembl.org/Homo_sapiens/Info/Index,输入基因名,点击Go后进入COMT的信息界面,会出现此基因在染色体上的位置。将此信息复制到VCF to PED Converter界面里。
Paste_Image.png
Paste_Image.png
-
注意这一步让倒计时跑完,自动进入页面
Paste_Image.png
Paste_Image.png
-
将此页面信息都填写完整
Paste_Image.png -
点击run后等待刷新完毕(refresh)
Paste_Image.png -
跑完就显示done, 点击查看结果
Paste_Image.png - 下载ped和info文件
Paste_Image.png
- 解压这两个文件放入同一文件夹
Paste_Image.png
- 打开Haploview,输入文件,同名可以自动识别这两个文件,只用输入一个。
-
提示more than two alleles at marker 64, 去文件里删除这个位点还是不行,不知道咋回事。一般0=missing,1=A, 2=C, 3=G, 4=T。换成FMO1基因就可以导入。
Paste_Image.png
-
一般r2>0.8认为一个位点可以代表另外一个,这两个位点是高度连锁的,点击run tagger。
Paste_Image.png -
结果说明82个位点可以100%覆盖这个基因,如果不需要这么多位点,可以把外显子上的挑出来,降低覆盖度。
Paste_Image.png - 直接在选择的位点后面选force include, 再run后会发现Haploview给出了这几个位点的覆盖度,只有9%。
Paste_Image.png
方法二:
有些基因下载的文件导入haploview会报错,经过研究发现另一种手动的方法也可以(๑◡๑)。
- 打开http://grch37.ensembl.org/index.html网站,输入基因名,如下:
image.png
选择go,选第一个,就是我们要的基因了
image.png
可以看出左边几乎列出了所有的基因相关信息!我们选variant table,就可以把所有的SNP列出来啦!
image.png
我只选了MAF在0.05-0.5(tag SNP 一般选common的位点)之间的位于外显子上的位点,可以看出只剩下4个了,但是这4个竟然是同一个位点!
image.png
可以在我们设置过滤条件后挑选SNP啦!但是有可能会选到连锁的位点,最好看下有没有连锁的,有的话连锁位点选一个就可以了。
用HaploReg v4.1 (http://archive.broadinstitute.org/mammals/haploreg/haploreg.php)看下连锁位点:
image.png
可以看出这个数据库集成了很多其他数据库,可以挑选有功能的位点进一步研究。