最近在写文,其实写结论反倒是最简单的(这里的简单不是说传统意义上的简单,只是不麻烦,动脑子查查其他论文,实在不行扔给我导就行(并不)),我最讨厌的是把数据描述出来的最基础那块的统计。比如原始数据质量啊,基因组基础数据啊,(这就体现了为什么雅思考试要求让你会各种各样的图表描述),我这手上四个物种,数据上都大差不差的,所以要格外小心别弄串了。然而我天生就是那种大大咧咧的性格,所以很让我抗拒这个阶段。
一边总结流程一边写文章。
1.得到下机原始数据后,生信步骤|kmc+genomescope进行基因组调查 - 简书 (jianshu.com)。
基因组servey之后就是组装,现在我看大多数都有HiC(hifiasm软件组装),组装这块我却哈斯哈斯不太懂,我了解到的是用二代补三代。
2.然后就是基因组注释。分重复序列和基因集结构注释。也可以加ncRNA注释【基因组注释】ncRNA注释 - 简书 (jianshu.com)
重复序列:repeatmasker repeatmodeler 我用的是陈连福老师的geta流程的重复序列注释部分。然后把生成的lib,和EDTA的lib合并 再重新运行pararepeatmasker,最后的重复序列含量会多一些。
基因集结构注释:分同源和denovo,同源就是找拟南芥 水稻那种已经有注释结果gff,pep的物种,传统注释是有genewisehegenemark,最后用的是gemoma(好像conda可以安装),但是需要有转录组数据。denovo我用的是maker流程,但是在maker流程里面我也添加了同源的证据,也用了augustus,和snap之类的 (Introduction to Maker - Bioinformatics Workbook
)。如果有转录组注释就是,先给基因组index,trimmomatic(需要你知道你测序的adaptor是什么)生成paired结果,然后hisat-stringtie组装转录组基因组(或者直接trinity),transdecoder注释。
最后最后就是用EVM整合所有手段得到的gff文件。
然后可以和近缘已研究的物种进行比较,出一个大表格。
3.全基因组复制。
得到gff之后可以做的事更多了。jcvi(就是MCScan的python版本)做共线性,ParaAT.pl和KaKs_Calculator3.0找4dtv位点计算WGD时间。之后找一堆你想做树的物种的pep,把基因ID和物种对应上方便后面提取。还有个好玩的网站是Orthovenn(OrthoVenn3 (bioinfotoolkits.net)
)。这个结果可以做着玩看一眼。然后Orthofinder。有单拷贝基因之后可以用做树的软件(RAxML 或者iqtree 再或者MEGA)做树,添加化石时间证据还可以生成带时间的树(mcmctree或者r8s)。画树可以用Figtree或者在线的iTOL。然后cafe5能找扩张和收缩的基因家族,找到扩张的基因家族就可以做个功能注释(eggnog-mapper)主要就是找大背景然后自己研究物种的里面有哪些是相对富集的。GO:从eggNOG进行GO注释到使用clusterProfiler富集分析_comparecluster-CSDN博客。 KEGG:使用clusterprofiler中的enrichr对非模式植物进行KEGG分析 - 简书 (jianshu.com)。 KEGG做植物的分析要注意有可能会注释到动物,要记得筛选玩转KEGG (二)——植物富集到了动物通路?难不成咱研究的植物人儿😂 - 知乎 (zhihu.com) 。
我打算是年前先把这些描述写完...