1. 有现成的工具
https://zhuanlan.zhihu.com/p/389602337
https://zhuanlan.zhihu.com/p/650938857
第二个帖子介绍了不少R包,不过我个人更推崇SNP文件比对加NCBI检查的方案
2. SNPdb文件比对
需要注意版本问题,经常会碰到不同的基因组assembly版本,如hg18, hg19, GRCh37, GRCh38
此外还有0-1问题(https://arnaudceol.wordpress.com/2014/09/18/chromosome-coordinate-systems-0-based-1-based。),这个怎么说呢,比对完了去ncbi的网页工具上验证一下
https://zhuanlan.zhihu.com/p/510331018
dbsnp 144/155
https://qinqianshan.com/bioinformatics/biodatabase/dbsnp/
https://www.ncbi.nlm.nih.gov/snp/
3. 补充
如果想综合多个sumsat文件,可能会涉及到多个版本,需要一些工具进行版本间转化。
Remap:https://www.jianshu.com/p/41e5280f59c3
USCS的LIFTOVER:https://www.jianshu.com/p/c6da6f4dadd3
一些版本的总结:https://gwaslab.org/2021/03/31/%e4%ba%ba%e7%b1%bb%e5%8f%82%e8%80%83%e5%9f%ba%e5%9b%a0%e7%bb%84-human-reference-genome/
因为本人经常用ensembl,但是我没找到SNP文件哈,uscs上都有,也挺全的,不费劲了,官网尚未找找就有了
https://www.jianshu.com/p/71333d152c32
https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1820013238_FsgqqSc7Tc3HaEAAYHa3rTZxWtw7&c=chr2&g=snp151
这还有个用ncbi下载的vcf提取常见snp
https://cloud.tencent.com/developer/article/1880338
另一个用uscs的帖子:https://zhuanlan.zhihu.com/p/410164485
下载这类文件,千万别改名,不然搞忘版本了很麻烦
看了这么多,我自己选择哪个呢?
我选择R library(MungeSumstats)
哈哈,不过用函数就失去了掌控感,懒得看里面。
用函数的话需要内存大点哈,反正32g是不够滴
自己搞替换文本的话可以拆分文件,多线程也可以很快。