「TBtools」提取的 CDS 序列 ID 很复杂,怎么办?

写在前面

做生信数据分析时,最常遇到的问题,仍然是文本处理。主要原因简单,我们永远不知道上一个人会给我们什么样的东西,而我们要的又常常不是他们给的。基于 GFF 提取 CDS全长,相关讨论很多,没想到今天还会遇其他问题。

「TBtools」提取的 CDS 序列 ID 很奇怪

有用户使用 TBtools 提取物种的 CDS 序列,得到的文件如下



简单来说,文件前面多了一堆标识符。这类文本常常会影响下游数据分析。当然,主要出现在 NCBI 下载的 GFF 中。我第一反应是用户是否选错标签,但看到 GFF3 文件后。



还是文件问题,似乎无解。用户提议,是否可以使用 locus tag。
但这个不行,因为 locus tag 本身是用来组织转录本为基因的,不是组织CDS为转录本全长CDS的。所以只能 Parent 或 transcript_id。我的第一反应是使用 GXF ID Rename。只是这个准备文件还是麻烦

几乎所有 ID 要去除的,其实是完全相同的 TAG。我们当然可以使用 GXF Pos & Info. Extract 得到信息文件,随后整理成两列。但这个似乎还是麻烦。最好的办法是直接文本替换。
于是我想起了 「Batch String Replace」,用户可以简单通过下述操作,完成修改



注意,制表符分隔。
rna-gnl\|WGS:JAEACU\|(\w+)  $1

可以看到,已经调整好了。直接使用即可。

写在后面

「Batch String Replace」,事实上,写这个功能,我就没想着用它,只是后面似乎又很经常被使用。而我常常非常看到的功能,用的人反而不错,或许这就是:
有心栽桃桃不成,无心栽柳柳成荫。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容