GEMINI软件使用介绍--连续纯合子片段分析

软件名:GEMINI

版本号:0.20.2-dev

1. 软件用途综述

GEMINI (GEnome MINIng)是一款基因组变异挖掘软件。该软件依赖强大的注释文件,故仅适用于人基因组分析。该软件在进行分析时是将遗传变异、表型、基因型及注释信息整合形成SQLite数据库,在此基础上进行种类多样的分析。改软件使用范围很广:家系分析(新生突变、常染色体显性遗传突变、常染色体银杏果遗传突变)、群体分析、成对样本肿瘤分析。

网址:http://gemini.readthedocs.io/en/latest/content/installation.html

2. 分析原理

该软件上游可以是VCF也可以使PED格式。该软件在进行分析时是将遗传变异、表型、基因型及注释信息整合形成SQLite数据库,在此基础上进行种类多样的分析。该软件自带很多数据库,如ENCODE tracks, UCSC tracks, OMIM, dbSNP, KEGG, HPRD等,整合了注释功能。

image.png

3. 实现方法

3.1 使用示例

1)软件安装:

wget https://github.com/arq5x/gemini/raw/master/gemini/scripts/gemini_install.py
python gemini_install.py $tools  $data
PATH=$tools/bin:$data/anaconda/bin:$PATH
$ gemini update --dataonly --extra cadd_score
$ gemini update --dataonly --extra gerp_bp
#其中$tools是软件安装路径,$data是软件数据库所在路径。

2)分析前准备:

GEMINI的上游输入文件为VCF或者ped文件。0.12.2以后的版本需要对VCF文件进行预处理,如分解多于两个allele的变异位点并用VT工具包进行格式化。该数据库也对将用于VCF注释的数据库文件进行了同样的处理,具体如下:

  1. If working with GATK VCFs, you need to correct the AD INFO tag definition to play nicely with vt.
  2. Decompose the original VCF such that variants with multiple alleles are expanded into distinct variant records; one record for each REF/ALT combination.
  3. Normalize the decomposed VCF so that variants are left aligned and represented using the most parsimonious alleles.
  4. Annotate with VEP or snpEff.
  5. bgzip and tabix.

流程如下:

*# setup*
VCF=/path/to/my.vcf
NORMVCF=/path/to/my.norm.vcf.gz
REF=/path/to/human.b37.fasta
SNPEFFJAR=/path/to/snpEff.jar
*# decompose, normalize and annotate VCF with snpEff.*
*# NOTE: can also swap snpEff with VEP*
zless $VCF  **\**
 | sed 's/ID=AD,Number=./ID=AD,Number=R/'  **\**
 | vt decompose -s - **\**
 | vt normalize -r $REF - **\**
 | java -Xmx4G -jar $SNPEFFJAR GRCh37.75 **\**
 | bgzip -c > $NORMVCF
tabix -p vcf $NORMVCF
*# load the pre-processed VCF into GEMINI*
gemini load --cores 3 -t snpEff -v $NORMVCF  $db
*# query away*
gemini query -q "select chrom, start, end, ref, alt, (gts).(*) from variants"  **\**
 --gt-filter "gt_types.mom == HET and \
 gt_types.dad == HET and \
 gt_types.kid == HOM_ALT"  **\**
 $db

3)使用示例

将待分析VCF导入 数据库:

gemini load -v snp.filter.vcf --cores 8 test.db

ROH分析:

gemini roh --min-snps 50 --min-gt-depth 20 --min-size 1000000 -s S138 test.db

3.2 程序说明

该程序可以输入文件可以是VCF格式(单样本或者群体均可)或者是ped格式,该程序可调用VEP 或者snpEff进行注释,故可接受未注释的文件,也可以接受注释后的文件,主要参数说明如下

-v 待分析VCF;
--cores 导入vcf时使用的线程数
Roh roh分析

3.3软件参数详细说明

gemini roh --min-snps 50 \ROH****包含的****SNP****数
--min-gt-depth 20 *样本的最低深度*
--min-size 1000000 \ROH****的最小片段长度
-s S138 *样本名*
roh_run.db \vcf****导入后的数据库名

3.4 结果展示及说明

chrom start end sample num_of_snps density_per_kb run_length_in_bp
chr2 233336080 234631638 S138 2583 1.9953 1295558
chr2 238341281 239522281 S138 2899 2.4555 1181000

注:结果是屏幕输出,中间还夹杂着log日志,如下图所示:


image.png
  1. chrom:染色体
  2. start:变异位点在染色体上的起始位置
  3. end:变异位点在染色体上的终止位置
  4. sample:样本名
  5. num_of_snps:roh内的snp数目
  6. density_per_kb:单位长度上的密度
  7. run_length_in_bp:roh长度

4. 注意事项

a) GEMINI solely supports human genetic variation mapped to build 37 (aka hg19) of the human genome.
b) GEMINI is very strict about adherence to VCF format 4.1.
c) For best performance, load and query GEMINI databases on the fastest hard drive to which you have access.
d) 软件安装时需要下载数据库,安装时自带月15G数据库,额外还需要下载两个数据库:CADD(39G)和GERP(7G)
e) 该软件注释需要VEP 或者snpEff
f) 该软件要输入VCF严格要求vcf4.1
g) 该软件在分析前需要将VCF导入SQL数据库,一个723M的vcf需要16h!
h) 该软件安装需要依赖

  1. Python 2.7.x
  2. git
  3. wget
  4. a working C / C++ compiler such as gcc
  5. zlib (including headers)

5. 软件相关文献引用

Paila U, Chapman BA, Kirchner R, Quinlan AR (2013)GEMINI: Integrative Exploration of Genetic Variation and Genome Annotations.PLoS Comput Biol 9(7): e1003153. doi:10.1371/journal.pcbi.1003153

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,204评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,091评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,548评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,657评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,689评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,554评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,302评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,216评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,661评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,851评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,977评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,697评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,306评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,898评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,019评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,138评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,927评论 2 355

推荐阅读更多精彩内容