3D-DNA&Juicer升级单倍型基因组至染色体水平

数据准备:单倍型基因组(hap1.p_ctg.fa和hap2.p_ctg.fa)和HIC数据

软件安装:3D-DNA、Juicer、BWA、Juicebox(win或mac安装)

3D-DNA 挂载染色体 - 简书 (jianshu.com)

https://www.jianshu.com/p/62ed25b70194

Juicer: 辅助基因组组装 - 简书 (jianshu.com)

https://www.jianshu.com/p/a889e2f7cef2

3.大致流程

Juicer分析Hi-C数据,3D-DNA进行scaffolding,使用Juicebox对组装结果进行手工纠正,最终得到准染色体水平的基因组。

4.软件安装:

Juicer安装:juicer需要一个固定的目录结构,新建一个文件夹命名为juicer,在此文件夹中安装juicer;然后新建四个文件夹,分别为:

references

work

scripts

restriction_sites

references目录用于存放参考基因组相关文件work文件夹新建fastq子文件夹并存放HiC二代双端测序结果,read_R1_fastq.gz,      read_R2_fastq.gz(注意fastq如果是fq.gz则运行失败)scripts 用于存放软件运行所需的脚本restriction_sites用于存放参考基因组酶切图谱

juicer安装相对简单,按照下面指令即可:

mkdir -p ~/opt/biosoft/juicer

cd ~/opt/biosoft/juicer

git clone https://github.com/theaidenlab/juicer.git (VPN)

cd juicer

ln -s CPU scriptscd scripts/common

wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar

ln -s juicer_tools.1.9.9_jcuda.0.8.jar  juicer_tools.jar

然后检查是否有帮助信息输出(成功)(路径取决于软件juicer.sh所在目录)/public/home/bsun/opt/biosoft/juicer/scripts/juicer/CPU/juicer.sh -h

3D-DNA安装

cd ~/opt/biosoft

git clone https://github.com/theaidenlab/3d-dna.git

测试是否成功/public/home/bsun/opt/biosoft/3d-dna/run-asm-pipeline.sh

Juicebox

安装在windows或mac系统上

BWA(conda安装即可)

5.运行文件准备

准备juicer所需文件:即它的4个固定文件夹所需的的文件

第一步:bwa为基因组建索引--放入references中

bwa index hap1.p_ctg.fa.fa

第二步: 根据基因组构建创建可能的酶切位点文件(必须提交到集群运行,否则killed)酶的选择参考自己的HIC数据报告;本人选择DpnII--放restriction_sites中

bsub -J bwa -n 20 -R span[hosts=1] -o %J.out -e %J.err -q smp "python /public/home/bsun/opt/biosoft/juicer/scripts/juicer-1.6/misc/generate_site_positions.py DpnII hap1 hap1.p_ctg.fa"

第三步: 根据第二步的结果(hap1_DpnII.txt)提取每条contig的长度(不用提交到集群运行)--放入restriction_sites中

awk 'BEGIN{OFS="\t"}{print $1, $NF}' hap1_DpnII.txt > hap1.chrom.sizes

运行Juicer

需要先调用bwa,否则报错需要参数

bash juicer.sh -d /juicer/work2 -D juicer-1.6 -g loach -z /juicer/references/hap2.fasta -y /juicer/restriction_sites/hap2_DpnII.txt -p /juicer/restriction_sites/hap2.chrom.sizes -s DpnII -t 20

参数含义-d fastq储存位置-D juicer script (cpu)的路径-g 基因组名称-z contig路径-y 酶切位点路径-p 染色体大小路径-s 酶切位点-t 线程数

本人的代码,推荐使用绝对路径;可按照一下代码根据自己的路径修改即可bsub -J juicer -n 30 -R span[hosts=1] -o %J.out -e %J.err -q normal "bash /public/home/bsun/opt/biosoft/juicer/scripts/juicer-1.6/CPU/juicer.sh -d /public/home/bsun/bsun/fourgenome/hic/juicer-hap1/work -D /public/home/bsun/opt/biosoft/juicer/scripts/juicer-1.6 -g loach -z /public/home/bsun/bsun/fourgenome/hic/juicer-hap1/references/hap1.p_ctg.fa -y /public/home/bsun/bsun/fourgenome/hic/juicer-hap1/restriction_sites/hap1_DpnII.txt -p /public/home/bsun/bsun/fourgenome/hic/juicer-hap1/restriction_sites/hap1.sizes -s DpnII -t 30"

输出的结果文件都在aligned目录下,其中"merged_nodups.txt"就是下一步3D-DNA的输入文件之一。3D-DNA&Juicer升级单倍型基因组至染色体水平

运行3d-dna

本步必须在下面juicer的文件夹下跑,否则出现下方报错

解决方法1.基因组文件必须以fasta命名。

2.将juicer跑好的work文件和fasta文件分别移动到juicer目录下和references文件中记得做好标记,

3.然后只需改动fasta文件和work文件名就可以使用下面的代码。运行3ddna,推荐绝对路径

bsub -J3d-1-n30-R span[hosts=1] -o %J.out -e %J.err -qnormal "bash /public/home/bsun/opt/biosoft/3d-dna/run-asm-pipeline.sh /public/home/bsun/opt/biosoft/juicer/references/hap2.fasta /public/home/bsun/opt/biosoft/juicer/work2/aligned/merged_nodups.txt"

#Juicebox手动调整

将下图中的3ddna输出的文件导出至win或mac桌面,用juicebox人工调整

上述结果推荐都尝试一下看看那个版本效果好,最终选择一个修正

Juicebox 教程(中文字幕)_哔哩哔哩_bilibili

https://www.bilibili.com/video/BV1xD4y1m712/?vd_source=4b4d7664f83a31f63f4c075e8915a189

【基因组组装】HiC挂载软件以及如何用Juice_box手工纠错?- 生物信息与育种 - 博客园 (cnblogs.com)

https://www.cnblogs.com/miyuanbiotech/p/14590564.html

值得注意:人工修正不得马虎;一定多多询问,一步一步进行;不得随意删除片段;记得保存;

再次运行3d-dna

将人工修正后导出的文件(.review.assembly结尾)作为3ddna的二次输入文件bsub -J 3ddna2 -n 20 -R span[hosts=1] -o %J.out -e %J.err -q normal "bash /public/home/bsun/opt/biosoft/3d-dna/run-asm-pipeline-post-review.sh -r /public/home/bsun/opt/biosoft/juicer/3ddna-hap2/hap2.0.review.assembly /public/home/bsun/opt/biosoft/juicer/references/hap2.fasta /public/home/bsun/opt/biosoft/juicer/work2/aligned/merged_nodups.txt"

最终得到染色体水平的单倍型基因组

后续还需要进行单倍型之间共线性分析并结合HIC互作信息再次纠正。。。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,122评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,070评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,491评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,636评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,676评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,541评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,292评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,211评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,655评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,846评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,965评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,684评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,295评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,894评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,012评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,126评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,914评论 2 355

推荐阅读更多精彩内容