家系分析软件汇总

作者:charon
审稿:童蒙
编辑:amethyst

二代测序技术蓬勃发展,已经用于临床上辅助疾病诊断,利用二代测序数据挖掘孟德尔遗传病相关的基因及变异位点也是越来越普遍。近年来,研究人员开发出很多工具,帮助分析人员可以更简单,快速的分析数据。今天我们就来介绍3个常用的软件,利用父母-子代的trio家系数据来挖掘孟德尔遗传相关的变异。

一、GEMINI

1、软件概述

GEMINI ( GEnome MINIng ) 旨在为个人和医学遗传学开发的一个简单、灵活和强大的框架来探索遗传变异。GEMINI将遗传变异(VCF文件)和丰富的基因组注释集成到统一的数据库(sqlite)中,利用这个集成的数据库作为分析框架,可以充分利用SQL的快速计算能力。此外,通过定义样本关系的PED文件,GEMINI允许探索满足特定遗传模式(比如,隐性,显性等)的变异。

GEMINI 能在人类疾病遗传基础的广泛研究中应用,包括研究个人基因组,未解决的孟德尔疾病,探索大系谱中的罕见变异,以及全基因组病例对照研究。

可检测变异类型:SNPs, INDELs 和 structural variants。

官网:https://gemini.readthedocs.io/en/latest/index.html
gitlab:https://github.com/arq5x/gemini

  • 注意事项:
  1. GEMINI只支持检测人基因组变异,参考基因组版本仅支持37(hg19)
  2. GEMINI只支持的VCF版本为4.1
  3. GEMINI数据库需要有访问权限

2、软件安装

GEMINI提供了一个自动安装脚本,非常方便:

wget https://raw.github.com/arq5x/gemini/master/gemini/scripts/gemini_install.py
python gemini_install.py $tools  $data   # $tools是软件安装路径,$data是软件数据库所在路径
export PATH=$PATH:~/gemini/bin
# 下载数据库
gemini update --dataonly --extra cadd_score
gemini update --dataonly --extra gerp_bp

注意事项,首先需要安装以下依赖包:

  • Python 2.7.x
  • git
  • wget
  • a working C / C++ compiler such as gcc
  • zlib (including headers)

3、软件运行

数据准备
合并后的vcf文件
家系信息ped文件
参考基因组文件

运行命令

##setup

   VCF=/path/to/my.vcf
   NORMVCF=/path/to/my.norm.vcf.gz
   REF=/path/to/human.b37.fasta
   SNPEFFJAR=/path/to/snpEff.jar

   ##decompose, normalize and annotate VCF with snpEff.

   ##NOTE: can also swap snpEff with VEP

   zless $VCF \
      | sed 's/ID=AD,Number=./ID=AD,Number=R/' \
      | vt decompose -s - \
      | vt normalize -r $REF - \
      | java -Xmx4G -jar $SNPEFFJAR GRCh37.75 \
      | bgzip -c > $NORMVCF
   tabix -p vcf $NORMVCF

   ##load the pre-processed VCF into GEMINI

   gemini load --cores 3 -t snpEff -v $NORMVCF $db

   ##test autosomal recessive 

   gemini autosomal_recessive $db >$output

结果说明
输出结果文件包含166列,每列之间制表符(tab键)分割,第一行是表头,随后每行代表一个符合该遗传模式的变异,此时变异个数会有数万甚至数百万,因此我们需要对结果进行过滤。

首先,impact_severity这列表示变异的影响,值有HIGH、MED、LOW,通常过滤掉LOW对应的变异,剩下的变异位点将会急剧减少,一般只有几十到几百个。另外,该软件还将变异注释到了很多数据库,或者利用不同的方法对变异进行了注释,比如Clinvar,千人基因组,SIFT等,分析人员都可以根据自己的研究进一步过滤。

二、Exomiser

1、软件概述

2、软件安装

需要java环境、软件包和依赖数据库。

软件包可以直接下载解压,链接如下:

https://data.monarchinitiative.org/exomiser/latest/exomiser-cli-12.1.0-distribution.zip

依赖数据链接如下:

https://data.monarchinitiative.org/exomiser/data/

3、软件运行

数据准备

运行命令

  • step1:修改示例yml文件的信息:vcf,ped,proband,hpoIds,inheritanceModes,outputPrefix,outputFormats(可选TSV-GENE, TSV-VARIANT, VCF, HTML)
  • step2:java -Xms4g -Xmx8g -jar exomiser-cli-7.2.3.jar --analysis your-analysis.yml

结果说明
yml文件中设置的outputFormats 对应格式的文件都会输出,html文件方便查看,其他格式方便脚本批量处理。

查看html文件,可以看到得分最高的基因及变异,html的详细解读可以参考 https://cloud.tencent.com/developer/news/390442

三、VAAST

1、软件概述

全称为Variant Annotation, Analysis, and Search Tool ,是一个集变异注释,分析和搜索的工具,整合氨基酸替换和等位频率等信息。其中pVAAST模型用于识别家系的突变分析,识别家庭成员在特定遗传模式中的变异情况,进而判断真正的致病突变。

2、软件安装

压缩包获取地址:http://www.yandelllab.org/software/vaast.html

3、软件运行

数据准备

  • 合并后的vcf文件
  • 家系信息ped文件
  • 参考基因组文件
  • 基因组注释GFF3文件

运行命令

  • step1:创建cdr文件
    $VAAST_dir/bin/vaast_tools/vcf2cdr.pl --vcf $vcf --output $outprefix --build hg19 --fasta $ref --gff3 $gff3 --info $info

  • step2:修改配置文件

所有遗传模式的配置文件在目录$VAAST_dir/data/pvaast/下,根据自己的数据选择相应文件,然后修改文件内参数,主要修改项为:input_ped_cdr_files,pedigree_representatives,inheritance_model

  • step3:运行VAAST
    $VAAST_dir/bin/VAAST -m pvaast -o $output -pv_control $ctl --gw 1e6 $gff3 $outprefix-step4/family.cdr $outprefix-step4/case.cdr

结果说明
输出目录中有个以 .simple结尾的文件,格式如下:该文件按照P-value对基因进行了排序。进一步可以根据自己的需求取排名靠前的基因位点作为候选集。

总结

软件结果

模拟数据测试结果:

从我自己的测试结果来看,GEMINI结果比较全面,但是假阳性比较多,需要另外过滤;Exomiser结果最好,假阳性结果也是最少的;VAAST的召回率比较低,会漏掉一些真阳性结果。

可检测遗传模式

输入参数

参考文献

1、Paila U , Chapman B A , Kirchner R , et al. GEMINI: Integrative Exploration of Genetic Variation and Genome Annotations[J]. PLoS Computational Biology,9,7(2013-7-18), 2013, 9(7):e1003153.
2、Smedley D , Jacobsen J O B , J?Ger M , et al. Next-generation diagnostics and disease-gene discovery with the Exomiser.[J]. Nature Protocols, 2015, 10(12):2004-2015.
3、Hu H , Huff C D , Moore B , et al. VAAST 2.0: Improved Variant Classification and Disease-Gene Identification Using a Conservation-Controlled Amino Acid Substitution Matrix[J]. Wiley-Blackwell Online Open, 2013, 37(6).

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容