2020-01-05 Day15-Day20 学习免疫基因预后模型

image.png

image.png

image.png

image.png

conmean在正常样品中表达均值,treatmean在肿瘤样品中表达均值,logFC>0说明在上调<0下调,fdr为校正后p值,一般删选按照logFC的绝对值>1,fdr<0.05。


image.png

验证模型准确性,大于0.7,说明准确性良好。
image.png

单因素和多因素预后风险都小于0.05,说明可以作为单独的预后因子
image.png

M0表示没有发生远处转移,M1表示发生转移

1 转录组数据下载

搜索tcga gdc,进入后清空cart。选择download data。
进入选择疾病类型,program-TCGA,project-STAD。Files,Data Category-Transcrptome Profling,Data type-gene expression Quantification,Workflow type-HTSeq-FPKM,。add to cart 然后下载。


image.png

都下,1会告诉我们样品的数量。2为数据文件,关键。3,也要下


image.png

image.png

如果cart文件下载不下来,就需要下载工具
image.png

解压后得到下载工具。下载 cmd cd空格+目录 软件名(包括后缀)空格 download空格-m manfast.txt文件名


image.png

复制cart文件和meta文件到3中,cart文件不要解压到当前
image.png

将移动文件的脚步复制到解压的文件夹中,同一目录下。cmd cd空格加路径回车,perl空格加脚步名称回车,将所有文件移动到一个目录下-files。
image.png

将merge脚本和meta文件移动到files目录下,然后将所有文件解压到当前文件夹。
cmd cd空格加路径回车,perl空格加脚本名称空格meta文件名回车
image.png

image.png

2 ID转换

image.png

准备输出文件,复制到4中。
cmd cd空格加路径回车,perl空格加脚本回车


image.png

3 临床数据下载

搜索TCGA GDC。 进入下载页面,清空CART。进入download data,对疾病进行筛,选择癌症类型,Progarm-TCGA,project-STAD。 FILe,Data Category-clincial,Data Format-BCR XML。添加到cart,然后下载。
对临床数据进行整理


image.png

fustat生存状态,0活1死。
将下载的cart文件解压,并将6脚本拷贝到共同目录下。然后运行,cmd cd空格加路径回车,perl空格加脚本回车,最后目录下出现clinical.xls文件。

4 差异分析

image.png

logF>0基因在肿瘤样品中上调,为比值。fdr为校正后p值。一般筛选时按照logFC绝对值大于1,fdr值<0.05.


image.png

热图横坐标样品,纵坐标基因。
复制4中symbol.txt到7中。打开R安装limma包,安装pheatmap包。复制脚本到R中。
得到文件,all.txt,为所以基因的表达差异。diif.xls,为满足条件的表达差异。diffgeneexp.txt,为有表达差异的基因的表达量。得到2个表,3个文件。

5 免疫基因分析

查询免疫基因,知道哪些是免疫基因
搜索www.immport.org,进入Gene lists。下载资料

image.png

拷贝到文件8.
从文件7中复制all.txt和diffGeneExp.txt到文件9中,复制文件8中Geneappend3.XLS到文件9.打开Geneappend3.XLS,选择第一列所有的免疫基因名称,单机第一个和最后一个,按住SHIFT,然后复制到新建gene.txt。
打开脚本,修改数据。然后复制脚本到R中,运行。得到免疫基因的热图和火山图。
image.png

文件10-输出文件,差异免疫基因的表达文件9中immuneGeneExp.txt,6文件中clinic.xls(对其按生存时间排序,删掉未知的。删除生存时间小于90天的。然后拷贝前3列,复制数据到新建time.txt)
cmd cd空格加路径回车
perl空格加脚本全程回车
image.png

打开文件11,输入文件-文件10中expTime.txt文件。然后打开脚本,设置好,复制脚本到R中,运行。得到3个新文件。

5 转录因子分析

打开网站-肿瘤相关的转录因子Cistrome


image.png

image.png


复制所有转录因子名称,点击第一个和最后一个按住SHIT建,新建复制到12中,命名TF.txt。 复制文件7中all.txt和diffGeneExp.txt到文件12中。


image.png

然后打开R,复制改好的脚本,运行,得到两个图和TFdiff.xls和TFgeneEXP.txt。

6 转录因子和免疫基因相关性分析

差异的转录因子和与预后相关的免疫基因的相关性分析


image.png

COR为相关性,大于0为正相关,p越小说明越相关
打开文件13.输入文件-复制12中差异转录因子的表达量TFgenEXP.txt。11中uniCox.txt和uniSignExp.txt。
打开13脚本,定义相关系数过滤标准(0.3-0.8),按照做出的图进行调整。复制到R中,运行,得到nodeTYPE.txt节点属性文件和corResult.txt相关性文件。


image.png

三角形-转录因子,红色圆圈高风险免疫基因,绿色圆圈低风险免疫基因,红色线关系为正调控,绿色线负调控。
打开14文件,软件为cytoscape。Files-import-network from file,打开14中corResult.txt,然后选择TF-为source node。免疫基因选择Target node。关系选择三角形
image.png

image.png

再选择Files-import-table from file,打开14中nodeTYPE.txt。再选择style,选择第三个。


image.png

选择线的属性,选择中间的,调整粗细和颜色,type,离散型
image.png

然后node类型,颜色
image.png

找到与预后相关的免疫基因后,去构建免疫基因的模型,然后可以将其分为高低风险
image.png

(基因不要太多)
打开脚本15,准备输入文件, 11小节中uniSigExp.txt。然后复制脚本到R中运行。得到两个文件。
image.png

对得到的高低风险组进行生产分析
打开16文件,输入文件,15中风险文件-risk.txt。

打开R,复制脚本,运行。得到生存分析的图片。然后查看5年生存率和95%CI在R中。


image.png

然后做ROC曲线验证模型的可靠性
image.png

主要看AUC,大于0.7最好
打开文件夹17,输入文件-文件15中risk.txt,打开脚本安装survialROC包。
打开R运行,得到ROC.pdf。
########风险曲线
image.png

风险值,生存状态图,生存热图。横坐标一样,病人,按风险值排序的。
竖线,将病人分为高风险和低风险组。
风险值图,纵坐标为风险值。
生存状态图,纵坐标为生存时间,红点死,绿点活。
生存热图,纵坐标为基因。
打开文件夹18,输入文件打开文件15中risk.txt。
运行18脚本,得到3个图形。
独立预后分析

得到的模型是否可以独立于其他的临床因素进行分析


image.png

打开19文件夹,输入文件,临床数据文件6中clinical.xls。病人风险值,文件15中risk.txt。
整理数据,打开clinical.xls,按照生存时间进行排序,删除生存时间小于90天的,删除unload和空的。按照生存状态排序,删空。对年龄进行排序,删空。按性别排序,女性数字0,男性数字1.分级排序,G1改为1,G2改为2.分期排序。然后T,M,N分期,改为1,2,3,4.整理好之后,复制到新建clinical.txt中。
然后将clinical.txt与risk.txt进行合并。通过19脚本。
cmd cd空格加路径回车
perl空格加脚本全称回车
得到新文件indepInput.txt。


image.png

在单因素和多因素都有关,说明可以
打开文件夹20,输入文件,19中indepInput.txt。打开R复制,运行,得到单因素预后分析。

多因素预后分析,21文件夹,输入文件,19中indepInput.txt。打开R复制,运行,得到多因素预后分析。

临床相关性分析
image.png

打开22文件夹,输入文件,15文件中risk.txt,文件6中clinical,xls。对临床信息进行整理,二分类变量整理。按照生存时间进行排序,删除生存时间小于90天的,删除unload和空的。然后删除生存时间和生存状态两列。对年龄进行排序,删空,对年龄小于65的,改为<=65,大于65岁的改为>65。按性别排序,删空,其余不变。分级排序,G1和G2放一起改为G1&2,G3不改。分期排序,1和2一组,3和4一组,1&2,3&4。然后T,M,N分期,T1-2,T3-4。N0一组,N1-3一组。
整理好二分类的数据后,保存新建到clinical.txt。


image.png

然后对其clinical.txt和risk.txt进行合并。
cmd cd空格加路径回车
perl空格加脚本全称回车
得到新文件immuneClinical.txt

打开文件23,输入文件22中immuneClinical.txt,打开脚本23,按顺序修改


image.png

定义临床性状个数,即immuneClinical.txt中前多少个为临床性状。

免疫细胞相关性分析
image.png

首先要得到免疫细胞含量。网站


image.png

image.png

下载得到所有的免疫细胞含量的矩阵immuneEstimation.txt
打开24文件夹,输入文件immuneEstimation.txt,15中risk.txt。打开R,复制运行。得到图形。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,277评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,689评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,624评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,356评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,402评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,292评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,135评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,992评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,429评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,636评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,785评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,492评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,092评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,723评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,858评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,891评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,713评论 2 354

推荐阅读更多精彩内容

  • 花了5天,把视频看完。顺便整理了一下。IF4.5分左右套路:TCGA数据下载,选择想要研究的基因,然后对基因ID进...
    卅衣阅读 4,771评论 3 5
  • Web网站测试流程和方法(转载) 1测试流程与方法 1.1测试流程 进行正式测试之前,应先确定如何开展测试,不可盲...
    夏了夏夏夏天阅读 1,295评论 0 0
  • 个人学习批处理的初衷来源于实际工作;在某个迭代版本有个BS(安卓手游模拟器)大需求,从而在测试过程中就重复涉及到...
    Luckykailiu阅读 4,718评论 0 11
  • 基础命令 主要的命令和快捷键 Linux系统命令由三部分组成:cmd + [options]+[operation...
    485b1aca799e阅读 1,095评论 0 0
  • linux简介 linux 是一套操作系统 Linux系统内核为linux。 内核是一个电脑程序组成操作系统的核心...
    shannonnana阅读 896评论 0 2