10X genomics 数据hybrid组装

10xgenomics的官方denovo组装软件是supernova,同时还有其他野生组装软件,如ARCS,fragscaff

ARCS

Scaffold genome sequence assemblies using 10x Genomics data

### ARCS+LINKS 官方组装流程
# -f  Assembled Sequences to further scaffold (Multi-Fasta format),即其他软件组装好的基因组版本
# -a  File of File Names listing all input BAM alignment files。原始fastq文件比对到组装好的基因组版本上
## step 1
# Run ARCS w default params
$ arcs -f $f -a $a -s 98 -c 5 -l 0 -z 500 -m 50-1000 -d 0 -e 30000 -r 0.05 -i 16 -v 1
## steo 2
# Run python script makeTSVfile.py to convert ARCS graph output to LINKS XXX.tigpair_checkpoint file format
$ graph=$f.scaff_s98_c5_l0_d0_e30000_r0.05_original.gv
$ python makeTSVfile.py $graph $f.c5_e30000_r0.05.tigpair_checkpoint.tsv $f
## step 3
#  Run LINKS with generated XXX.tigpair_checkpoint file as input
$ touch empty.fof
$ LINKS -f $f -s empty.fof -k 20 -b $f.c5_e30000_r0.05 -l 5 -t 2 -a 0.3

组装结果

调整多个参数进行多次组装,找到最优参数
该基因组组装结果可知,a = 0.5的结果要优于a = 0.3(default)
s95 > s98 (default)
m 20-2000 > m 50-1000 (default)
e 60000 > e 30000 (default)
最佳组合即:s95c5l0d0e60000r0.05m20-2000
同时可以看出,组装结果旨在提高scaffold的组装水平,对contig没有提升

#file   scaffold length(bp) scaffold number contig length(bp)   contig number
# a = 0.5
s95_c5_l0_d0_e60000_r0.05_m20-2000      450194  648     15339   18522
s95_c5_l0_d0_e60000_r0.05_m50-1000      428476  692     15339   18522
s95_c5_l0_d0_e30000_r0.05_m20-2000      388408  765     15339   18522
s95_c5_l0_d0_e30000_r0.05_m50-1000      358469  820     15339   18522
s95_c5_l0_d0_e20000_r0.05_m20-2000      332662  904     15339   18522
s95_c5_l0_d0_e20000_r0.05_m50-1000      314958  969     15339   18522
s98_c5_l0_d0_e60000_r0.05_m50-1000      310826  976     15339   18522
s98_c5_l0_d0_e30000_r0.05_m50-1000      283164  1122    15339   18522
s98_c5_l0_d0_e20000_r0.05_m50-1000      267372  1209    15339   18522
# a= 0.3
s95_c5_l0_d0_e60000_r0.05_m20-2000      373219  799     15339   18522
s95_c5_l0_d0_e60000_r0.05_m50-1000      358835  816     15339   18522
s95_c5_l0_d0_e30000_r0.05_m20-2000      357761  823     15339   18522
s95_c5_l0_d0_e30000_r0.05_m50-1000      343681  859     15339   18522
s95_c5_l0_d0_e20000_r0.05_m20-2000      325929  929     15339   18522
s95_c5_l0_d0_e20000_r0.05_m50-1000      312389  984     15339   18522
s98_c5_l0_d0_e60000_r0.05_m50-1000      299588  1037    15339   18522
s98_c5_l0_d0_e30000_r0.05_m50-1000      281295  1128    15339   18522
s98_c5_l0_d0_e20000_r0.05_m50-1000      267076  1213    15339   18522

fragscaff

在《A Hybrid Approach for de novo Human Genome Sequence Assembly and Phasing》这篇文章中使用fragscaff,因此也试了试。这篇文件的流程图如下:


流程图

软件使用:

## 软件下载
# https://sourceforge.net/projects/fragscaff/files/
## step 1 准备bam文件
#原始数据bwa比对到其他组装版本基因组(V1.genome.fa)上,proc10xG软件中的samConcat2Tag.py去掉barcode,并samtools转化成bam格式,picard对bam文件sort。
$ bwa index V1.genome.fa -p ref &
$ bwa mem -t 20 ref R1.fastq R2.fastq 2>bwa.log | /XXX/proc10xG/samConcat2Tag.py |samtools view -bS -@ 20 -F 4 -F 256 -F 512 -F 1024 -F 2048 >s.bam 
$ java -Xmx10g -jar /XXX/picard-tools-1.130/picard.jar SortSam TMP_DIR=/XXX/tmp SORT_ORDER=coordinate INPUT=s.bam OUTPUT=s.sorted.bam 2>bam.log
#更改bam格式,格式是安装参考示例更改
$ samtools view -h s.sorted.bam | perl -lne 'if(/^\@/){print;}else{chomp;/(\S+?)\:(\S+?)\:.*/;print "\@RG\tID:$1\tSM:CJ"}' | sort -k2,2 - | uniq | samtools reheader -P - s.sorted.bam >s.rh.bam &
# step 2 生成bed文件
$ makeblastdb -in V1.genome.fa -dbtype nucl -out db && \
blastn -query V1.genome.fa -db db -word_size 36 -outfmt 6 -out blastn.out &>blastn.log && \
/XXX/fragscaff-code/blast_self_alignment_filter.pl blastn.out 95 >blastn.filter.bed && \
bedSort blastn.filter.bed blastn.filter.sorted.bed && \
samtools dict -o V1.genome.fa.dict V1.genome.fa && \
/XXX/fragscaff-code/fasta_make_Nbase_bed.pl V1.genome.fa >V1.genome.fa.bed &
#  step 2 assemble
#可尝试多个参数 -j 1.25/1.0 -p A/2/4/5/8,E5000 E10000o20000等
$ fragScaff.pl -B s.rh.bam -b 1 -F V1.genome.fa -E 5000000 -o 5000000 -p L -t 15 -J blastn.filter.sorted.bed -N V1.genome.fa.bed
$ fragScaff.pl -B s.rh.bam -b 1 -j 1 -C 5 -F V1.genome.fa -E 3000000 -o 3000000 -p -t 15 -J blastn.filter.sorted.bed -N V1.genome.fa.bed
$ fragScaff.pl -B s.rh.bam.E3000000.o3000000.bamParse -j 1 -C 5 -O V1.1j -A -t 20 -p L &

组装结果:

参试多个参数后,这个基因组组装结果“有违常理”,并没有用它的结果。但是别个文章都发了,至少说明那篇文章的作者是用成功了。这个基因组本身杂合度较其他物种基因组高很多,而且染色体数目多,不易组装。

其他软件还有proc10xG ,前期测试组装结果不好,没有继续优化使用。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,525评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,203评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,862评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,728评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,743评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,590评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,330评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,244评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,693评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,885评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,001评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,723评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,343评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,919评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,042评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,191评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,955评论 2 355

推荐阅读更多精彩内容