「TBtools」提取的 CDS 序列 ID 很复杂，怎么办？

写在前面

做生信数据分析时，最常遇到的问题，仍然是文本处理。主要原因简单，我们永远不知道上一个人会给我们什么样的东西，而我们要的又常常不是他们给的。基于 GFF 提取 CDS全长，相关讨论很多，没想到今天还会遇其他问题。

「TBtools」提取的 CDS 序列 ID 很奇怪

有用户使用 TBtools 提取物种的 CDS 序列，得到的文件如下

简单来说，文件前面多了一堆标识符。这类文本常常会影响下游数据分析。当然，主要出现在 NCBI 下载的 GFF 中。我第一反应是用户是否选错标签，但看到 GFF3 文件后。

还是文件问题，似乎无解。用户提议，是否可以使用 locus tag。
但这个不行，因为 locus tag 本身是用来组织转录本为基因的，不是组织CDS为转录本全长CDS的。所以只能 Parent 或 transcript_id。我的第一反应是使用 GXF ID Rename。只是这个准备文件还是麻烦

几乎所有 ID 要去除的，其实是完全相同的 TAG。我们当然可以使用 GXF Pos & Info. Extract 得到信息文件，随后整理成两列。但这个似乎还是麻烦。最好的办法是直接文本替换。
于是我想起了「Batch String Replace」，用户可以简单通过下述操作，完成修改

注意，制表符分隔。

rna-gnl\|WGS:JAEACU\|(\w+)  $1

可以看到，已经调整好了。直接使用即可。

写在后面

「Batch String Replace」，事实上，写这个功能，我就没想着用它，只是后面似乎又很经常被使用。而我常常非常看到的功能，用的人反而不错，或许这就是：
有心栽桃桃不成，无心栽柳柳成荫。

最后编辑于：2022.02.23 10:07:24

「TBtools」提取的 CDS 序列 ID 很复杂，怎么办？

写在前面

「TBtools」提取的 CDS 序列 ID 很奇怪

写在后面

推荐阅读更多精彩内容