写在前面
昨天带娃一天,晚间21点回到办公室,顺手写了「GXFcat」,尽管实际功能是前天写的。昨晚主要是调试和打了一个界面。上午来到办公室,想起来一个事情,如果没有切分(split),那么为什么需要合并(cat)?于是,为了让「所有有想法进行全基因组基因结构注释校正」的朋友都能轻松合理切分 GFF/GTF 文件,为此,我还是决定写一个「GXFsplit」功能。
这个功能实现需要考虑的是两个问题:
- 每一个基因是一个单元,不能按行甚至不能按某个基因来切分,因为可能会有重叠基因,尽管概率比较小在植物上;
- 尽量让每个人都平均分配到等量基因数,主打一个公平。
GXFsplit
总而言之,我写了一个非常有趣的功能,「GXFsplit」。我甚至觉得有了或者功能,我们基本就可以切分文件,然后交给一堆学生去做某个物种的校正,然后最后再「GXFcat」,然后全面查看一下就完事了。
使用起来非常简单,就是:
- 设置输入的待切分的 GFF3/GTF 文件
- 设置输出文件路径前缀
- 设置需要分割的文件数(注意到,有可能会多一个文件出来....完全平均比较麻烦,我就不写完全平均了)
大体操作如下:
运行后结果如下
然后就搞定了,可以分配出去开始校正了
简单查看分配准确和合理性
顺手统计了下,没啥问题,我还统计了其他....
写在最后
有一些事情,所有人都知道可以做,但是做了也不会有理想的回报。但这些事情,总要有人去做,一直放着,也不是办法。傻人有傻福。真正有趣的现象时常是青年发现,或许原因不在于能力,而在于“无知”。