GEO数据挖掘视频笔记

项目总览

第一个视频主要是项目总览,介绍了整个课程的结构,每一讲主要要讲得东西,介绍了jimmy的github形式的教学,学员可以在clone or download里download整个项目文件夹,按照github上的提示完成整个流程。jimmy提醒大家学习R语言的时候要养成用文件夹+Project的形式来组织内容,即,在项目文件夹下面具有一个 XXX.Rproj的文件以及所有输入的数据以及所有产出的结果。这样做的好处有三点:

  • 可以直接定位到所有数据以及代码
  • 不用考虑环境变量
  • 不需要修改路径。
    理解这3个好处还是得先有环境变量、路径这些的概念。下载好github的文件夹之后,需要总览一下代码,需要理解一下每行代码的意思。在下载的时候需要考虑网络的问题,下载失败很可能是因为网络不好。
    最后本课程是有偿学习,自愿付费,付费可以扫描最后的二维码,给jimmy的邮箱jmzeng1314@163.com发邮件,也会有意外的惊喜。也可以选择在腾讯课堂进行购买学习。

P1-通用文献阅读及规律

本个视频主要介绍了阅读做GEO数据分析的文献阅读技巧。首先,要知道数据来源,看文献,可以找到GSE号,不是GEO数据库的在此不做讨论;找到GSE号,可以采用URL拼接的方式,来到数据的主要,可以了解到实验室在哪个平台做的,实验的样本数以及分组情况。文献中还可以知道该分析用什么R包做了差异基因分析,知道筛选的阈值,即P值,logFoldchange等。知道了这些之后,我们接下来就要对数据进行下载以及处理。

P2-了解GEO数据库

这个视频主要介绍了GEO数据库,可以通过jimmy的微信推文,https://mp.weixin.qq.com/s/4tKmmxXrGoTfH3-sYLnRcg详细地了解,主要要知道的是四个简称:

  • GEO platform,即GPL,是指该实验是在什么芯片或者测序仪上做的,单独定制的芯片也会有一个GPL号,GPL会记录探针以及基因的对应关系;
  • GEO series,即GSE,一个实验或者一篇文章会给一个GSE号,当然有些文章会有多个GSE号;
  • GEO sample, 即GSM,指一个实验中每一个独立样本的编号;
  • GEO dataset,即GDS,用到的比较少,指根据研究目的将多个样本整合成一个数据集。
    本视频还介绍了RefSeq数据库,http://www.biotrainee.com/thread-213-1-1.html这篇文章有详细的介绍,主要知道NG、NM、NP、XM,XR、XP分别代表什么。
    本视频还介绍了关于芯片的基础知识,http://www.biotrainee.com/thread-899-1-1.html,此处有详细得介绍,当然还是要自己结合其它的资料进行总结的。
    另外关于GEOquery包的介绍,应该是在下一讲中有具体的介绍。

P3- 数据下载的3种方式

这一讲介绍了三种下载GEO数据的方式,分别为:

  • 下载raw data,存在问题:不同芯片的原始数据处理方式不一样;
  • 下载series matrix,存在问题:网速问题;
  • 在R里面读取GSE号,即使用GEOquery包,getGEO函数,存在问题:国内网络问题,无解;
    getGEO的演示:
  1. 安装GEOquery包;
  2. library这个包,出现红字没有问题;
  3. 对照说明书操作。操作中出现问题的话,可以参考这两篇文章(后面更新的):
  1. 读取压缩包,a=read.table('文件名');参数:(sep='\t',quote="",fill=T,comment.char="!",head=T)
    思路:
    1.先看一眼表达矩阵,前面的!不需要,看一眼字符间是使用什么分割的。
    2.使用步骤4的代码来操作。

P4- ID转换技巧大全

此视频介绍了将下载过来的数据进行转换的预处理,要解决的问题就是:一个基因可能会设置多个探针去测它,所以就会有多个探针对应一个基因名,我们想要知道的是一个基因对应的表达量,所以要把探针与基因进行对应,修改这个下载过来的表达矩阵。
所以要做的事情包括:

  1. 获取探针信息
  2. 获取探针信息与基因的对应关系(有两种方式,可以下载Bioconductor的包或者用getGEO来获得GPL的平台信息)
  3. 将探针与基因的顺序对应好
  4. 把一个基因对应对个探针的探针给过滤掉,选择均值最大的探针对应的表达量
  5. 把探针替换成相对应的基因
    思路大概是这样的,通过这样的方式,我们就可以获得第一列是基因名,第一行是样品名,中间都是表达量的一个矩阵,可以进行下一步的操作了。
    具体的代码还要自己照着再运行一遍。

P5 了解你的表达矩阵

下载好数据,处理好基因ID之后的表达矩阵,我们得知道这个表达矩阵是不是对的,所以要根据分组信息等对表达矩阵进行处理(20题中有范例)。
检验常见管家基因的表达量,做PCA分析以及Hclass图,判断所分析的矩阵的质量情况
1.可以检测一下表达矩阵中的内参基因的表达量,看是否与实际情况相符合,如GAPDH,ACTB等

  1. 看表达矩阵的分布图:各个样本表达量的boxplot,可以学习使用ggplot画图的方法,有一些原理的介绍,可以自己再延伸学习。
  2. 若分组之间的样本的表达水平差异较大,则需要进行校正。
  3. PCA图以及Hclass图:hclass的图可以出聚类以及进化图。PCA图:ggfortyify包,关键成分的分析。
    对于课程的数据:下载好的数据需要将它保存为对象,下次只需要再load它就好。

P6 差异分析

这一文介绍了使用limma包来做差异分析,对于所有的函数或者是包,我们得先明白它要求的Input是什么以及它可以给我们的Output是什么。而Limma包需要的是表达矩阵以及分组矩阵以及差异比较矩阵;接下来视频介绍了一下流程,还是需要根据代码自己运行一遍;这一讲更加加强了包以及函数的概念,也介绍了一些代码的使用原因。最重要的还是自己运行以后自己梳理一遍。代码网址为:http://www.bio-info-trainee.com/bioconductor_China/software/limma.html

P7 火山图及热图制作及美化

本视频介绍了火山图的绘制以及使用clusterprofiler来进行富集分析,火山图就是一个横坐标为logFC,纵坐标为-log10(p value)的点状图;而富集分析就是对差异基因的结果进行的注释,它是通过数据库以及得到的差异分析做而做的一个超几何分布检验,原理的话视频中有讲,也需要自己结合统计来学习。通过已经有的包clusterprofilter可以进行富集分析,需要自己操作一下。

P8 KEGG,GO等数据库的注释及GSEA分析

通过KEGG,GO等数据库等进行的注释进行的分析,是假定每个基因的地位都是相等的,而在现实中,我们常常是有自己关心的基因,所以说基因是有重要不重要的区别的,这个时候就需要用到GSEA分析,本视频主要是通过clusterprofilter这个包进行GSEA分析,中间涉及到数据格式的转换,主要要熟悉R语言,原理的东西可以看之前的培训视频。

P9 收尾

最后介绍了GEO project这个项目的使用方法。需要对这个文件进行每一步的运行,如果需要进阶的话则需要看paper进行学习。

P10 批量生存分析代码大放送

本视频是一个福利,jimmy对一个数据集进行了一系列的操作演示,并加入了生存分析的操作。可以根据视频以及代码进行运行。其中的根据感兴趣的基因做差异分析很适合结合到自己的课题中。最后,R语言是生信编程里很重要的一部分,R语言得花时间去学习。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,658评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,482评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,213评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,395评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,487评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,523评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,525评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,300评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,753评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,048评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,223评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,905评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,541评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,168评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,417评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,094评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,088评论 2 352

推荐阅读更多精彩内容