提高扩增子物种鉴定分辨率利器：Oligotyping

什么是oligotype ?

寡核苷酸: 是一类只有20个以下碱基的短链核苷酸的总称（包括脱氧核糖核酸DNA或核糖核酸RNA内的核苷酸），寡核苷酸可以很容易地和它们的互补链对接，所以常用来作为探针确定DNA或RNA的结构，经常用于基因芯片、电泳、荧光原位杂交等过程中。

寡核苷酸配型技术(Oligotyping)：是一种新型监督计算方法，利用16SrRNA基因扩增子reads中非常微妙的核苷酸变异来分解微生物群落中非常密切相关的分类群。它可以揭示以前未被发现的生态模式以及在环境样品中隐藏的微生物多样性。

通过寡聚分型，高变区不同类型之间的相似性阈值可以低至0.2％，比目前正在使用的OTU聚类方法的3％相似性阈值更低。

什么时候用

各种环境中采集的多个样品产生的16SrRNA基因标签序列来研究横截面或时间序列差异。对16SrRNA reads进行分类（或聚类）分析，您就知道样品的物种组成（OUT_table）。如果一个分类单元（或OTU）在每个样本中都有，并且您怀疑这个分类单元（或OTU）的内容多于满足目标的情况，您认为该单元可能有多种类型被分解成。 Oligotyping可以帮助你调查这个问题，并且大部分情况下都伴随着令人惊讶的答案。

Are all Firmicutes in all samples the same?
if there are different types, how are they distributed?

Oligotyping使用香农熵识别生物相关性，在概念上不同于广泛使用的依赖于成对序列相似性的方法。香农熵是一种衡量信息含量的指标，用于确定显示高度变异的核苷酸位点。寡聚分型利用这一事实，即在基因的特定位置发生系统发生上重要的差异，导致这些位置的高度变异，而许多测序错误在一级近似中沿着序列随机分布。只有高信息核苷酸位置的连接定义了寡核苷酸，然后用于将测序数据划分成高分辨率组，同时丢弃冗余信息和噪声。通过这种方法，寡核苷酸分型技术可以鉴定在测序区域内与单个核苷酸差异很小的分类群。

怎么用

Flowchart

python q2oligo.py rdp_assigned_taxonomy/all_rep_set_tax_assignments.txt  otu_map.txt   all.fna   'Mitochondria'  # 找出'Mitochondria 物种所在的OTU以及序列编号

结果文件

o-trim-uninformative-columns-from-alignment #
o-get-sample-info-from-fasta Mitochondria.fasta # 序列的信息

结果文件

oligotype 分析要求fasta序列长度一致

o-pad-with-gaps Mitochondria.fasta  #对长度不一致的序列用--填补

结果文件

entropy-analysis Mitochondria.fasta-PADDED-WITH-GAPS  # 生成序列香农熵文件

结果文件

Firmicutes1.fasta-ENTROPY.png

根据这一步的文件来确定下一步分析的参数

oligotype Mitochondria.fasta-PADDED-WITH-GAPS Mitochondria.fasta-PADDED-WITH-GAPS-ENTROPY -c 2 -M 10 --quick

Mitochondria-c5-s1-a0.0-A0-M10/
├── COLORS
├── ENVIRONMENT.txt
├── FIGURES
├── MATRIX-COUNT.txt # actual number of reads per oligotype / sample pair
├── MATRIX-PERCENT.txt
├── OLIGO-REPRESENTATIVES # contains all essential files about each individual oligotype
├── OLIGOS.fasta
├── OLIGOS.nexus
├── READ-DISTRIBUTION.txt
├── RUNINFO
├── RUNINFO.log
└── TMP

o-stackbar.R  Mitochondria-c2-s1-a0.0-A0-M10/ENVIRONMENT.txt -o Mito --title Mitochondria

visualize your results

这是一个重要的结果，表明我们区别了2个不同的菌株，它们在16S rRNA基因区域上99％相同。

研究案例

Oligotyping analysis of the human oral microbiome

寡型链球菌在个体样品中的分布。（A）每个采样点V3-V5中8个链球菌寡型的相对丰度，在所有志愿者中平均值。为了简单起见，仅显示与HOMD链球菌参考序列完全匹配且在至少一个口腔位点中具有至少0.2％平均丰度的寡聚体。显示寡核苷酸类型的物种名称是HOMD中相同命名序列的名称; 这些寡核苷酸中的一些还与另外一个未命名的分类群相同，只有一个HOT名称（在数据集S2中列出）。（B）显示每对寡核苷酸之间核苷酸同一性百分比的热图表示。（C）每个志愿者都表示为一列，显示每个志愿者9个口腔位点每个寡核苷酸对链球菌群体的相对贡献。列的顺序由具有Morisita-Horn不相似性指数的SV样本的聚类来定义。

Oligotyping: differentiating between closely related microbial taxa using 16S rRNA gene data

由Yatsunenko等人（2012年）发表研究推断拟杆菌寡型分布。柱形图表明在给定的分组中存在一种寡聚型；全长条代表100％分析样品中出现寡聚体，下面板放大包络图中编号的区域。数字1,2和3是巴氏杆菌寡聚体，其全长相似性超过97％，但在其地理分布上表现出显着的差异。浅黄色标出了NCBI非冗余核苷酸序列数据库中完美匹配的寡聚型。数字4表明几种寡聚型在马拉维和美洲印第安人社区的样本中一直存在，但在美国的样本中不存在。第4号中的所有寡核苷酸都没有在NCBI的nr数据库中完美匹配。另一方面，数字5显示了马拉维和美洲印第安人社区中具有相似发生模式的几种寡聚体，其中第4种显示了这些寡聚体，但在从美国收集的样品中存在着更大的丰度。与第4号相反，第5号中列出的4个同型中有3个在NCBI的nr数据库中完美匹配。

[1]Oligotyping: differentiating between closely related
microbial taxa using 16S rRNA gene data
[2]Oligotyping analysis of the human oral microbiome
[3]Dynamics of tongue microbial communities with single-nucleotide resolution using oligotyping
[4]oligotyping-pipeline
[5]GitHub_oligotyping
[6]expanded Human Oral Microbiome Database (eHOMD)
[7]machine-learning-in-action
[8]q2oligo
[9]Linux系统中NCBI BLAST+本地化教程
[10]python中cPickle用法
[11]OLIGO Primer Analysis Software
[12]Rpackages: oligo
[13]Oligotyping reveals differences between gut microbiomes of free-ranging sympatric Namibian carnivores (Acinonyx jubatus, Canis mesomelas) on a bacterial species-like level

开发者肖像meren