gemoma是根据已知参考基因组的注释,给未知基因组注释的软件,貌似网上仅仅有提到,却没有具体的用法,笔者研究了一下,写下以下傻瓜式攻略,给大家参考
安装很简单,直接用conda:
conda install gemoma
但是安装完不能直接输入名字直接用,而是要进入gemoma所在目录:
cd miniconda所在目录/pkgs/gemoma-(版本号)/share/gemoma
里面有一个pdf是详细说明
带转录组的话用法如下
./pipeline.sh <search> <target-genome> <ref-anno> <ref-genome> <threads> <out-dir> <lib-type> <mapped-reads>
说明如下:
- search is a switch for the search algorithm to be used, either tblastn or
mmseqs(一般人都用tblastn吧) - target-genome is the genome of the target organism (FastA)
- ref-anno is the annotation of the reference organism (GFF/GTF)(参考基因组的gff或gtf注释文件)
- ref-genome is the genome of the reference organism (FastA)(参考基因组)
- threads the number of threads to be used(也就是使用的线程数,只要计算资源够,当然是越大越好,哈哈)
- out-dir is the output directory(结果路径)
- lib-type is the RNA-seq library type({FR_UNSTRANDED, FR_FIRST_STRAND, FR_SECOND_STRAND}) (转录组文件的类型FR_UNSTRANDED就是没方向,FR_FIRST_STRAND定向转录的正义链)
- mapped-reads are the mapped RNA-seq reads (SAM/BAM)(把转录组的read,map到自己基因组上可得,可用STAR/hisat等生成)
注意:<search>等为bash脚本要输入的参数,参数间用空格隔开。如果没有转录组的话,直接不填7和8就好
示例用法如下:
./pipeline.sh tblastn ~/data/genome.fa ~/data/ref.gff ~/data/ref.fa 30 ~/result FR_UNSTRANDED ~/data/RNA.bam
注意1: 如果没有转录组的话,直接不填7和8就好
注意2: 该命令要cd到pipeline.sh所在目录,也就是上文所说目录运行,或者使用绝对路径。
注意3: 笔者运行时出现java类型的错误,应该是conda默认的java版本太低,conda deactivate后再运行,使用系统自带的高版本java就成功了。