DADA2是通过错误率模型来衡量扩增子序列是否来自模板的算法。和通过查找样品中物种的组成,比较OTU数据库的聚类算法不同,DADA2采取的是降噪算法。
maxEE值需要灵活调整。maxEE为错误容许。如果发现通过的reads数太少,可以调整maxEE
错误率模型的比对方式
这里表示每个碱基变化方向的错误率,一个黑点就是一个样本。黑线为错误率的收敛线,红线为期望中的错误率。
去重复是将所有相同的测序读数组合成“独特序列”,
其相应的“丰度”等于具有该独特序列的读数的数量。
DADA2核心算法
根据之前算处理的错误率还有消除误差之后的结果,通过dada算法进行调整。
dadaFs <- dada(derepFs, err=errF, multithread=TRUE)
dadaRs <- dada(derepRs, err=errR, multithread=TRUE)
# 检查,这里是检测正向的第一个样本dadaFs[[1]]
## dada-class: object describing DADA2 denoising results
## 127 sequence variants were inferred from 1979 input unique sequences.
## Key parameters: OMEGA_A = 1e-40, BAND_SIZE = 16, USE_QUALS = TRUE
通过上面消除误差后,发现独特的序列有1979条,
而经过dada算法,其中的127条被判定为真实的物种序列。