【MR】snp——chr:pos

1. 有现成的工具

https://zhuanlan.zhihu.com/p/389602337
https://zhuanlan.zhihu.com/p/650938857
第二个帖子介绍了不少R包,不过我个人更推崇SNP文件比对加NCBI检查的方案

2. SNPdb文件比对

需要注意版本问题,经常会碰到不同的基因组assembly版本,如hg18, hg19, GRCh37, GRCh38
此外还有0-1问题(https://arnaudceol.wordpress.com/2014/09/18/chromosome-coordinate-systems-0-based-1-based。),这个怎么说呢,比对完了去ncbi的网页工具上验证一下
https://zhuanlan.zhihu.com/p/510331018

dbsnp 144/155
https://qinqianshan.com/bioinformatics/biodatabase/dbsnp/
https://www.ncbi.nlm.nih.gov/snp/

3. 补充

如果想综合多个sumsat文件,可能会涉及到多个版本,需要一些工具进行版本间转化。
Remap:https://www.jianshu.com/p/41e5280f59c3
USCS的LIFTOVER:https://www.jianshu.com/p/c6da6f4dadd3
一些版本的总结:https://gwaslab.org/2021/03/31/%e4%ba%ba%e7%b1%bb%e5%8f%82%e8%80%83%e5%9f%ba%e5%9b%a0%e7%bb%84-human-reference-genome/
因为本人经常用ensembl,但是我没找到SNP文件哈,uscs上都有,也挺全的,不费劲了,官网尚未找找就有了
https://www.jianshu.com/p/71333d152c32
https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1820013238_FsgqqSc7Tc3HaEAAYHa3rTZxWtw7&c=chr2&g=snp151

data access

这还有个用ncbi下载的vcf提取常见snp
https://cloud.tencent.com/developer/article/1880338

另一个用uscs的帖子:https://zhuanlan.zhihu.com/p/410164485
下载这类文件,千万别改名,不然搞忘版本了很麻烦

看了这么多,我自己选择哪个呢?
我选择R library(MungeSumstats)
哈哈,不过用函数就失去了掌控感,懒得看里面。
用函数的话需要内存大点哈,反正32g是不够滴
自己搞替换文本的话可以拆分文件,多线程也可以很快。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容