MutSigCV进行突变负荷分析寻找Driver Gene

本文的安装方法是有Matlab授权,运行MutSig源代码的方法。

如果没有Matlab授权,可以

http://www.mathworks.com/products/compiler/mcr/安装MatlabMCR

还有一种在线进行MutSigCV分析的网站:

http://genepattern.broadinstitute.org/gp/pages/index.jsf?lsid=MutSigCV 通过简单注册,就可以在线使用,运算速度还没有测试。

安装环境

Windows10

软件的下载及安装

1.安装Matlab环境

MutSig是基于Matlab的一款程序,首先要安装Matlab。

登陆智慧华中大的资源页面可以下载到有授权的Matlab,按操作指南去MathWorks的主页进行用户注册>下载Matlab3合一版本>安装。

2.安装MutSigCV及下载必要文件

进入https://software.broadinstitute.org/cancer/cga/mutsig_download下载最新版本“MutSigCV_1.41.zip”安装包>解压

进入https://software.broadinstitute.org/cancer/cga/mutsig_run下载最新版本的5个依赖文件:

genome reference sequence:   chr_files_hg18.zip    or   chr_files_hg19.zip (有可能需要翻墙下载)

mutation_type_dictionary_file.txt

exome_full192.coverage.txt.zip

gene.covariates.txt (以上三个文件目前官网下载路径有错,可以从ftp://ftp.broadinstitute.org/pub/genepattern/example_files/MutSigCV_1.3/下载)

其中

mutation_type_dictionary_file.txt 当MAF文件没有effect列时是必须的,另外4个文件是当我们只有MAF文件的时候需要的,建议也同时下载。

建议大家下载Example数据LUSC.MutSigCV.input.data.v1.0.zip,了解数据格式,并试运行。

Input文件

1.突变文件(必须):mutations.maf(Tab分隔,有表头)

"gene" 列:突变所在的基因的名字  (也可以称为 "Hugo_Symbol")

"patient" 列: 突变所在的病人的名字 (也可以被称为 "Tumor_Sample_Barcode")

"effect" 列:突变在这个基因上所产生的作用类型:分为 "nonsilent" (蛋白质序列改变或可变剪切), "silent" (同义突变),或"noncoding" (内含子区或UTR区)"categ" ’列:突变分类.  MutSigCV依据突变所在的DNA序列将突变分成了7类,对于每一种分类,有不同的风险值. 如果用户不知道每一行的categ类型,从版本1.3开始程序可以自动计算,只需要用户提供Variant_Classification, Reference_Allele, and Tumor_Seq_Allele1+2这4列的信息即可

1. CpG transitions

2. CpG transversions

3. C:G transitions

4. C:G transversions

5. A:T transitions

6. A:T transversions

7. null+indel mutations

转换(transitions)和颠换(transversions)

转换:嘌呤和嘌呤之间的替换,或嘧啶和嘧啶之间的替换。

颠换:嘌呤和嘧啶之间的替换

http://dridk.me/transition_transversion.html

2.覆盖度文件(非必要):coverage.txt

"gene"列: 基因名, 与突变文件的基因名列对应

"effect"列: 分类为"silent", "nonsilent", or "noncoding"

"categ"列: 与突变文件一致

: number of sequenced bases for patient#1 in this gene and effect/categ bin

: number of sequenced bases for patient#2 in this gene and effect/categ bin

(etc.)

但是这个文件通常不容易得到,因此MutSig提供了exome_full192.coverage.txt文件作为替换

3.协变量文件(非必要):gene.covariates.txt

"gene"列: 与上述两个文件一致.

<covariate_name_1>:  the value of the first covariate for each gene

<covariate_name_2>:  the value of the second covariate for each gene

<covariate_name_3>:  the value of the third covariate for each gene

etc.

协变量被用来计算每对基因之间的距离,从而确定每个基因最近的邻居基因,以及局部背景突变率。

Example中的协变量文件已经被证实可以用于多种肿瘤的分析。每个基因包含一下3个信息:  (1) global expression, derived from RNA-Seq data and summed across the 91 cell lines in the CCLE (Barretina et al.).  (2) DNA replication time (from Chen et al.).  (3) the HiC statistic, a measure of open vs. closed chromatin state (from Lieberman-Aiden et al.).

软件运行

1.如果有完整的Input文件:

将上述3个文件及mutation_type_dictionary_file.txt放在MutSigCV.m所在的文件夹中

双击

MutSigCV.m启动Matlab

>>MutSigCV('mutations.maf','coverage.txt','covariates.txt','output.txt')

2.如果只有MAF文件:

将MAF文件,及genome reference sequence(chr_files_hg18.zip    or   chr_files_hg19.zip),mutation_type_dictionary_file.txt ,exome_full192.coverage.txt.zip和gene.covariates.txt文件放在MutSigCV.m所在的文件夹中

双击MutSigCV.m启动Matlab

>>MutSigCV('my_mutations.maf','exome_full192.coverage.txt','gene.covariates.txt','my_results','mutation_type_dictionary_file.txt','chr_files_hg19')

结果解读

output.txt.sig_genes.txt文件中包含了Driver Gene,从P值由小到大排列。

TCGA数据实战

从TCGA上下载MAF的open的文件,文件内包括四种MAF文件:mutect,varscan,somaticsniper,muse,不同的算法和统计模型用于检测体细胞突变,目前最受欢迎的有Varscan、SomaticSniper、 Strelka 和MuTect2 。

1. 下载chr_files_hg38

如果有需要这部分hg38的文件,可以找我要完整版,不需要再下载和修改了。

TCGA上下载的数据是GRCh38(hg38)版本的,而MutSig的官网上没有提供hg38的chr_file,所以我们从https://www.ncbi.nlm.nih.gov/grc/human/data?asm=GRCh38上下载hg38的每个染色体的序列,例如点击

NC_000001.11,进入NCBI页面后,点击Send To,选择:Compelete Record-File-FASTA保存,保存后的文件命名为“chr1.txt",本地打开该文件,去除>开头第一行信息,并去除文件中所有换行符(替换\n为空)。将22+XY染色体的文件都保存于子文件夹”chr_files_hg38“中。

2. 将mutect文件放入MutSigCV.m所在文件夹下

3. 确保mutation_type_dictionary_file.txt ,exome_full192.coverage.txt.zip ,gene.covariates.txt也都在

4. 修改MutSigCV.m源文件

原版本有bug,要做如下修改 #在Ubuntu系统中似乎不需要修改:

360行附近:

f2 = regexprep(uchr,'^(.*)$',[chr_files_directory '/chr$1.txt']);

f3 = regexprep(uchr,'^(.*)$','chr$1.txt');  #添加f3变量

chr_file_available = ismember(f3,f1); #将f2改为f3

5. 运行程序

>>MutSigCV('TCGA_ESCA_mutect.maf','exome_full192.coverage.txt','gene.covariates.txt','my_results','mutation_type_dictionary_file.txt','chr_files_hg38')

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349

推荐阅读更多精彩内容

  • @所有人 明天一天的练习: 练习三: 第3天: 觉察跟伴侣面对【同一件事情】时, 观察女人的卵子属性 与 精子属性...
    盎然生机阅读 155评论 0 0
  • 圣诞老人来萌逗有机厨房 圣诞老公公: 你好,我叫Hope。我住在中国上海。 我给你写信是想知道,今年圣诞节,我会收...
    萌逗幼儿食育阅读 154评论 0 0
  • 第二个90天目标: 1、 体重减到55KG,9:30睡觉,4:30起床 2、 每月阅读2本书,一本关于工作/践行小...
    zhanglinna阅读 99评论 0 0
  • 1)保障因素不一定会产生满足感,也不一定会立马产生绩效,它只是人们工作的基本保障,所以保障因素需要大部分人都能得到...
    野问阅读 367评论 0 0
  • 【学汉字】 【词语】戢枻 【读音】jí yì 【释义】停船。比喻家居不仕。 【出处】晋·陶潜《庚子岁五月中从都还阻...
    年年有余_85d6阅读 138评论 0 0