今天要讲的是如何将昨天得到的矩阵转换为以下这个矩阵,
我们来看一下这里面包含什么,里面行名是基因名称,列名是样本名称,里面是基因的表达量,要得到这个矩阵,我们需要准备一个输入文件,就是上次推文中讲的那个文件,还需要准备一个配置文件,如下图所示:
这个配置文件里面有esymbolid和基因id一一对应的关系,接下来我们需要一个脚本,就在上面图片里,然后将输入文件里面的esymbolid按照这个gtf配置文件里面的esymbolid和基因id一一对应的关系将esymbolid换成基因id,从而得到我们今天需要的这个矩阵,这个矩阵里面的基因名称和样本名称在发文章的时候,都是要用到的。这个矩阵里面包括的是基因名称和样本名称,而对应的数值就是基因在这个样本里面的表达量。得到这个矩阵后,转录组的数据就整理完成了。后面就直接算某个基因在样本里面高、低表达的数据就整理好了。
下面是具体的操作过程:在搜索框中输入cmd,点击命令提示符,输入cd加空格,加复制黏贴当前文件夹的路径,如下图所示。按回车,接下来输入perl加空格,加复制黏贴脚本名称,加空格,按回车,等光标回到大于号后,就可以了。我已经运行过了,所以就没有按回车了。
如果大家需要练习的gtf文件和脚本文件,可以在后台留言,我们发给您,如果有什么疑问也可以在后台留言,我们看到的话,会及时回复的。如果觉得本文对你们有用的话,欢迎点赞,关注和分享。谢谢大家。