由于需要做微生物的De novo无参组装,查了一些资料发现大多软件需要先确定K值,而kmergenie能够根据数据的得到最佳的K值,下边记录一下安装过程
依赖:
python >= 2.7
R (r-base) (如果没有直接使用 conda install r-base 进行安装)
1、使用conda安装(失败)
conda 是生物信息学学习的必须要掌握的软件!!!
首先在anaconda 中查到kmergenie,搜索结果如下:
然后使用命令:
conda install kmergenie 进行安装
安装后使用时发现出现错误:
ModuleNotFoundError: No module named 'readfq'
然后我继续用conda安装readfq:
conda install readfq
仍然没有解决这个问题,查找了资料说是要把readfq的依赖放到kmergenie中:
kmergenie missing readfq · Issue #37856 · bioconda/bioconda-recipes · GitHub
果断放弃,选择自己安装:
2、编译安装
首先从官网(KmerGenie)下载安装包,安装步骤如下:
tar -xzvf kmergenie-1.7051.tar.gz
cd kmergenie-1.7051/
make
python setup.py install --user (--user 没有管理员权限的用户要加上,不然会报错)
完成后执行命令试下: kergenie -h
这就安装成功了。下边将其添加进环境变量就行了,一般我是更改.bashrc 文件在最后一行添加下边内容:
export PATH=$PATH:/public2/home/Software/kmergenie-1.7051
然后 source .bashrc 就ok啦!
3、使用
kergenie sequence.txt -o kergenie_output/sample -k 140 -l 15 -s 10 -t 10
sequence.txt 为分析文件(fastq)的绝对路径,多个文件要换行
-k 为选择分析最大的K值
-l 为选择分析最小的K值
-s 最小值到最大值的步长
-t 线程数
注意:第一次分析是s可以设大点,可以根据分析结果给出的最佳K值再缩小再进一步的分析(第一次:I:15,k:140,s:10 第二次I:15,k:80,s:6)