试图厘清热图相关的一些细节

森严森语:

生活中很多时候我都习惯于不知所以而为之,其结果通常坏。原因在于经常的盲目自信和偶尔不愿承认自己的无知。

上篇推文介绍了利用Origin绘制热图的方法,推文一经发出,我就察觉到这是极其草率的。原因在于我自己压根儿还没有搞清楚热图的来龙去脉,就拿一堆乱七八糟的数据乱搞一通。

我觉得草率,还有几点:

  • 我不是很清楚应该拿什么数据来做热图;
  • 我不是很清楚需不需要对拿到的数据进行处理,如果需要处理,应该采取怎样的方法;
  • 热图做好之后应该从哪些视角进行分析。
  • 于是,这两天就试图写一篇关于热图细节性问题的推文,以期扩展对热图的认知。

    事先说好,这篇推文可能还是不能说的很清楚。因为下面的有些观点我没有去找源头。

    【进入正题】

    先上一组数据。还是使用上篇推文中的数据。

    先不着急可视化,先来想一个问题,这个数据是什么呢?

    因为我找来的数据,我肯定知道这是tpm值。先不管什么是tpm值。

    再想一个问题,tpm能不能直接拿来做热图?如果不能直接拿来用,要进行怎样的处理?

    此时显然还不能回答这样的问题。

    【基本的认知】

    不管上面的数据到底是什么,都知道这些数据来自于RNA-Seq,那就先来想为什么要做RNA-Seq?

    这个问题比较好回答。

    当条锈菌侵染小麦后会出现表型的变化。

    这时,我们会以常理推测表型出现变化,很大程度上是由于小麦被条锈菌侵染后,小麦的某些蛋白含量出现了变化,而影响蛋白含量变化的直接原因就是来自基因表达的变化。于是,我们就要想办法测量小麦被条锈菌侵染后小麦全部基因表达变化的基因列表。

    这就需要进行RNA-Seq了。

    【RNA-Seq】

    RNA-Seq之后,通常会得到count和tpm值。较早些时候进行RNA-Seq后,可能会得到除了count之外的FPKM值或RPKM值。

    这里长话短说。

    实际上RNA-Seq之后并不会直接得到FPKM值、RPKM值或tpm值。那为什么会有这些值出现呢?

    思考一个问题:

    gene1有1000条测序reads,gene2有10000条测序reads,那么是不是可以说gene2的表达量一定比gene1高?

    显然,没那么简单。至少我们可以考虑到造成这种情况的一部分原因在于gene1和gene2的长度不一样,此时,就需要对mapping到gene的reads count进行矫正。

    再思考一个问题:

    gene1有1000条测序reads,条锈菌侵染后gene1有2000条测序reads,那么是不是可以说gene1的表达量在条锈菌侵染后发生了变化呢?

    至少这个时候就需要考虑整体测序量的问题,同样需要矫正。

    至此,就产生了FPKM值、RPKM值或tpm值。

    【FPKM值、RPKM值或tpm值的概念】

    RPKM:Reads Per Kilobase per Million

    FPKM:Fragments Per Kilobase per Million

    TPM:Transcripts Per Kilobase Million

    这里具体的理解和推导就不重复了,感兴趣的可以去下面链接仔细查看。

    https://zhuanlan.zhihu.com/p/325902055

    https://zhuanlan.zhihu.com/p/38536790

    https://zhuanlan.zhihu.com/p/50811365

    https://www.plob.org/article/16013.html

    https://www.rna-seqblog.com/rpkm-fpkm-and-tpm-clearly-explained/

    https://www.jianshu.com/p/cecc5bc62105

    (部分内容参考以上来源)

    扯的有点远。

    FPKM、RPKM和TPM都是对数据进行了标准化之后的数值。目前来说,主流使用TPM值。具体的答案可在上面的链接中寻找。

    【回归主题】

    迫不及待就像作图,已经知道,上述我展示的数据就是经过标准化的tpm值了,这个值是可以直接拿来热图可视化的。话不多说,直接出图。

    这个结果其实还蛮不错。乍一看感觉挺像那么回事。但是仔细一看,还是存在一些问题。这么看可能不是很明显。我们换种效果再看。

    可以很直观的发现,图中红色圈内和绿色圈内的tpm值命名相差很大,但是在颜色上很难区分,这就没有达到我们要进行比较的目的。

    而且这种情况通常很难避免。这时候就需要在tpm的基础上进一步处理。之所以可以对tpm值进行进一步处理,是因为更多的时候我们并不关心基因表达量的高低,我们更关心的是类似小麦gene1在pst侵染之后表达趋势的问题。

    通常我们会对tpm值进行取对数、正态标准化和0-1标准化。

    【对数转换】

    取对数时,我们经常在论文中看到log2(tpm+1),实质上这个底数我们可以取2,也可以取e或10. 

    之所以不用log2(tpm)是因为很多时候我们得到不少基因在某些sample中没有表达,即tpm值为0,而对数的真数不能为0,于是,一般的,我们会进行log2(tpm+1)来处理。

    这里我分别取底数为2和10来看看。

    底数取2或10似乎没什么变化,但是可以很明显的看到刚才红色圈和绿色圈内的色差很容易区分了。

    这样就达到目的了。

    需要思考一个问题:

    此时,同一gene在不同sample间,或者同一sample中不同gene的表达量是否可以比较?

    【正态标准化】

    这里通常需要思考,要进行行标准化还是列标准化?很显然,行标准化与列标准化是不同的。

    行标准化后,可以比较每个gene在不同sample中的表达情况。但,行与行之间绝对数值不能再进行比较了。

    列标准化后,可以比较每个sample中不同gene的表达情况。但,列与列之间绝对数值不能再进行比较了。

    不过,不管进行列标准化还是行标准化,表达趋势是可以在跨行列进行比较的。通过下图来体会一下。

    【0-1标准化】

    0-1标准化和正态标准化类似,同样,通过下图进行体会。

    能发现什么呢?

    对行进行0-1标准化后,使得每一行表达量最高值为1,最低值为0;

    对列进行0-1标准化后,使得每一列表达量最高值为1,最低值为0。

    【聚类】

    对tpm值进行以上三种方式的转换之后,使得可视化效果极大地改善,但是,有时为了对表达模式进一步分析,就需要聚类分析,以便通过热图可视化挑选最优的候选基因进行后续研究。那就聚类看看

    可以看到,通过行聚类,将表达趋势相似的行聚类到一起,这样看起来就更舒服了。

    先写到这里,关于热图,以后应该还会写。

    -----------“但愿每次回忆,对生活都不感到负疚。”-----------

    ©著作权归作者所有,转载或内容合作请联系作者
    • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
      沈念sama阅读 204,921评论 6 478
    • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
      沈念sama阅读 87,635评论 2 381
    • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
      开封第一讲书人阅读 151,393评论 0 338
    • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
      开封第一讲书人阅读 54,836评论 1 277
    • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
      茶点故事阅读 63,833评论 5 368
    • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
      开封第一讲书人阅读 48,685评论 1 281
    • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
      沈念sama阅读 38,043评论 3 399
    • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
      开封第一讲书人阅读 36,694评论 0 258
    • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
      沈念sama阅读 42,671评论 1 300
    • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
      茶点故事阅读 35,670评论 2 321
    • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
      茶点故事阅读 37,779评论 1 332
    • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
      沈念sama阅读 33,424评论 4 321
    • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
      茶点故事阅读 39,027评论 3 307
    • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
      开封第一讲书人阅读 29,984评论 0 19
    • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
      开封第一讲书人阅读 31,214评论 1 260
    • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
      沈念sama阅读 45,108评论 2 351
    • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
      茶点故事阅读 42,517评论 2 343

    推荐阅读更多精彩内容