这是我从CCLE下载到的一部分数据,目的是想看看差异表达基因的特征,包括,是否编码蛋白质,位于哪条染色体,或更详细的特征。
然而,我的解题思路从一开始就没有GTF这个关键词,当我在电脑面前拿着symbol搜索时,经一名生信经验长我五年的优秀博士提点
我才发现我并没有意识到从熟悉文件的格式和内容开始来接触生信是一件很重要很重要的事情
-
以下是在linux中看到的GTF文件的样子:
- 格式解释如下:
列号 | 内容 |
---|---|
1 | 染色体名称(染色体号) |
2 | 注释机构 {ENSEMBL,HAVANA} |
3 | 类型{gene,transcript,exon等} |
4 | 起始绝对位置 (1-based) |
5 | 终止绝对位置 |
6 | . |
7 | 正负链 |
8 | 仅对注释类型为“CDS”有效,表示起始编码的位置,有效值为0、1、2. |
9 | 其他信息,以key-value形式展示 |
- 以下是提取第9列的gene_id和gene_biotype去重后,对gene_biotype
的统计信息,以及对自以为理解的RNA-seq的RNA的重新认识:
https://www.gencodegenes.org/pages/biotypes.html