最近在搞基因组,前面contig的组装难度不大,用wtdbg2、raven、mecat2、flye等组装就可以了。
组装完毕后,contig挂载成染色体,可以采用高密度遗传连锁图、bionano光学图谱等进行挂载,但是现在大多数文章采用的是HI-C数据进行挂载。
目前最经典的HI-C挂载流程应当是juicer-3D DNA-Juicerbox流程了。其中3D-DNA和juicerbox没啥好说的,juicer中间有点坑,最近搞了几天时间。
整个历程大体可以参考该文章 利用3D-DNA挂载基因组。但是由于Juicer更新一下,引入了一些bug,所以需要做一些修改。
我的机器的ubuntu的系统,单机160核心。通过git clone而得到的juicer是2.0版本,采用的/CPU文件夹下的脚本,但是Juicer2.0中CPU下的文件目录不对,以及脚本本身有点小问题,导致运行出错,需要做几个修改:
1 juicer/cpu文件夹下新建scripts文件
mkdir scripts
2 将common文件夹整体复制到scripts下
cp /juicer/CPU/common /juicer/CPU/scripts/
3 下载Juicer_tools.jar 文件,并放入 /juicer/CPU/scripts/文件夹下
cd /juicer/CPU/scripts/
wget https://github.com/aidenlab/Juicebox/releases/download/v.2.13.07/juicer_tools.jar
这是个很神奇的设定,juicer软件,无论你是git clone还是直接下载包,里面都是不包含最重要的juicer_tools.jar的,不明白作者的脑洞在哪里。
/gpfs03/home/jingjing/software/juicer-master/scripts/juicer.sh -t 30 -g RT -z reference/genome.fa -y restriction_sites/genome_DpnII.txt -p restriction_sites/genome.chrom.sizes -d /xxxxx/xxxxx -D /gpfs03/home/jingjing/software/juicer-master/CPU -s DpnII --assembly
主意 -D参数 指定工作文件夹 用tab补齐最后一定会有/ 也就是 /juicer-master/CPU/ 这是不行的,不能有斜杠,运行会出错。
-d /xxxxx/xxxxx 也是一样 不能有斜杠。