任意分子标记的组装

  缘起:课题组需要组装一批物种的matKrbcL与ITS分子标记,用于后续的生态学研究。

  对于matKrbcL与ITS这类常用分子标记,根据课题组的经验,都是使用GetOrganelle组装的。前两者是成功组装并注释叶绿体后获取的。ITS则是GetOrganelle附带可组装的对象。于是我以为可以很轻松的做完。但结果是无论如何调整GetOrganelle软件的参数,这包括尝试不同的组装轮数(-R的设置),使用同属物种的参考基因组作为种子与基因标签(seed与label),仍然止步于59.38%的叶绿体组装率与37.5%的ITS组装率。值得一提的是,除了一次性成功的组装,其后的努力对组装质量的提高没有任何效果(通过Bandage查看),这很不尽如人意并使人疑惑。
  对此,我首先考虑了测序问题,我们获得的单样品数据量都是10G。这批样品的采集笔者全程参与,因此可以排除原始样品DNA过度降解的可能(至少不会大比重降解)。至于建库测序,是基于DNBSEQ的BGI方法,我看测序结果报告Q20达99以上,Q30达97以上,故可排除测序误差(这套流程是全自动机械化过程)。其次,考虑到样品涉及大量被子植物的不同科属(均为木本),那么是否可能有些物种的基因组太大导致测序深度不够,使得叶绿体与ITS的组装困难呢?虽然这是有可能的,但我检查了那些失败的组装,物种的基因组并不大(小于1G,几百M,至少在我检查的几个如此)。而且这很可能不是组装失败的主要原因,因为包括一个我非常熟悉且知其拥有组装高成功率的物种也失败了(Quercus jenseniana)。

测序公司的DNA跑胶图

  于是我只能认为是DNA提取存在重大嫌疑。我看了公司的DNA提取报告,最直截了当的琼脂糖凝胶电泳结果大抵还行,但是颜色很寡淡。使用Nanodrop与Qubit对DNA浓度与含量进行检测,结果显示:前者所有物种的C (ng/μl)在15.0–192.9之间,260/280在1.67–2.00之间,260/230在0.75–1.74之间;后者C (ng/μl)在2.16–46.6之间,总量(μg)在0.13–2.80之间。如果单纯看这份报告。首先,毫不意外的是Nanodrop与Qubit检测结果差很多,通常认为前者所得的定性结果误差很大,后者的精度更高。那么有19个物种(59.38%)的总量<1 μg,这非常低。对于DNA总量,在华大基因官网(及其他一些公司的官网)中的送样建议是≥1 μg(对应浓度≥16 ng/μL)。再看Nanodrop检测所能说明的问题,260/280多数在纯DNA的范畴内(1.8–2.0),仅1个不在;但260/230全部低于标准(1.8–2.2),表明DNA提取过程中有很多杂质污染,包括蛋白质、胍盐、苯酚、Trizol、EDTA、乙醇等。综合以上分析,DNA提取的质量应该较差,不仅浓度低还有一定程度的污染。在所有未能组装成功叶绿体的样品中,DNA总量不足1 μg的有7个,占比53.85%,且占所有DNA总量不足1 μg样品的36.84%。以上表明,DNA总量低不一定导致组装失败,并且组装失败还有其它原因。尽管如此,较低的DNA提取总量与浓度,会对测序数据总体质量产生重要影响,如果是做对数据质量要求很高的分析时更为如此。最近,我了解到不同的DNA提取策略、文库制备与样品的存储都会对测序结果产生影响,并且DNA提取对测序的影响最为深远。那么,除却提取浓度与污染,是否是DNA试剂盒影响了我们的结果呢?目前不得而知。
  为了获取到matKrbcL、ITS,我只好另辟蹊径。我采用今年刚发布的新软件Geneminer实现。使用Geneminer,给以参考序列,可以组装任意分子标记。

# 单参考。-rtfa 指定参考序列
geneminer.py -1 skimming_data1.fq.gz -2 skimming_data2.fq.gz -rtfa shallow_ref/ITS.fasta -o ITS_out
# 多参考。
geneminer.py -1 skimming_data1.fq.gz -2 skimming_data2.fq.gz -rtfa shallow_ref/ -o out1 # -rtfa指定到装有多个参考序列的目录。
# 其他常用参数:
-t:线程
-b:基于参考序列组装完成后向序列侧翼延伸多少碱基,默认75 bp。例如-b 200则双端各延伸200 bp。
Geneminer组装结果

注意:
  (1)Geneminer的算法组装特别依赖参考序列(参考基因组),如果亲缘关系较远,则不能获得结果,以至于我在使用同属的物种时也曾发生1次组装失败的案例,但换用更近缘的物种时就能成功。
  (2)如果-rtfa指定文件夹,那么Geneminer会对所有参考进行评估,并找出适用的参考得出结果,因此耗费时间较长。如果有两个参考都能适配样品序列做组装,将输出两条结果。
  (3)Geneminer不依赖其他软件,使用其自开发的算法,其前身是Easy353。就开发者的测试来看,在计算速度、硬盘占用较aTRAM、HybPiper优秀。从对被子植物353个通用低拷贝核基因的组装表现来看,Geneminer的精度、准确度、覆盖度最高。
  由于我没试过HybPiper,无法评价。但在使用Geneminer做组装之前,我试图使用GetOrganelle做组装。

get_organelle_from_reads.py -s seed/Rhua_matK.fasta --genes seed/Rhua_matK.fasta \
-1 resequence1.fq.gz -2 resequence2.fq.gz -o target_dir -R 20 -t 8 -k 21,45,65,85,105 \
-F anonym  
# -s:参考序列,--genes:与-s指定完全相同的文件(因为软件设计限制,必须与-s协同使用,当-F anonym时)。

  GetOrganelle可以得到组装结果,但序列非常长,远大于参考的长度,显然目标序列蕴含在内了,这给后续在NCBI里上传序列带来麻烦。类似地,GetOrganelle组装的ITS也很长,一般的被子植物包含ITS1/2序列的全长只有600–700 bp。我试验了将这么长的序列拿去与长度适当的ITS Mafft,似乎存在对齐偏差。
  由此可见,GetOrganelle组装叶绿体是不二之选,但对分子标记还得靠更专业的软件。


参考资料:

[1] 超详细Nanodrop结果判读!(下)——A260/A280与A260/A230比值偏高怎么办?
[2] 干货分享|一文全面解读迷之又迷的260/280、260/230
[3] 核酸定量哪家强?Nanodrop vs. Qubit
[4] 如何使用酶标仪对DNA和RNA 进行快速准确的检测
[5] Nature:不同提取方法对实验样本DNA的影响
[6] Costea P I, Zeller G, Sunagawa S, et al. Towards standards for human fecal sample processing in metagenomic studies[J]. Nature biotechnology, 2017, 35(11): 1069-1076.
[7] Xie P, Guo Y, Teng Y, et al. GeneMiner: A tool for extracting phylogenetic markers from next‐generation sequencing data[J]. Molecular Ecology Resources, 2024, 24(3): e13924.
[8] Zhang Z, Xie P, Guo Y, et al. Easy353: A tool to get Angiosperms353 genes for phylogenomic research[J]. Molecular Biology and Evolution, 2022, 39(12): msac261.
[9] Genemimer-tutorial online
[10] GetOrganelle-How to assemble a target organelle genome using my own reference?

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,616评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,020评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,078评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,040评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,154评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,265评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,298评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,072评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,491评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,795评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,970评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,654评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,272评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,985评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,815评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,852评论 2 351

推荐阅读更多精彩内容