最近在做免疫组库相关的东西,一边看,一边简单翻译一波,也是方便自己回顾,一遍简单吐槽,丢在自己的笔记本里面也没啥意思,有错误的就不管了,可以自己看原文
这是一篇综述,主要讲述了一些免疫组库的指数,以及BCR或者TCR要怎么聚类,计算方法有什么?
T-cell repertoire analysis and metrics of diversity and clonality - ScienceDirect
摘要
高通量bulk cell测序和单细胞测序技术的最新发展加速了对与转录组学相结合的免疫系统动力学复杂性的理解。此外,在健康或疾病中细胞保留体系的分析需要统计指标来捕获克隆多样性/拥有属性克隆的频率、库的丰富性和收敛性。本文介绍了 t 细胞受体整体测序和单细胞测序的常用技术,讨论了基于共享结构模式的计算工具聚类和预测 t 细胞受体序列特异性的现有知识,并回顾了主要的指标指标多样性和收敛性分析。这些工具代表了潜在的生物标志物来破译患者或治疗患者的免疫系统,但也预示和承诺的计算方法,革命性的个性化免疫治疗。
不同于由一般威胁动员起来的先天免疫系统,后天免疫系统卫生组织对抗原具有高度特异性,在对抗病原体和癌症以及自身免疫性或炎症性疾病方面发挥着核心作用。非自身抗原或自身抗原的识别主要是由 t 细胞和 b 细胞驱动的。
T 细胞免疫在识别与 MHC 分子结合的抗原肽片段方面的功效取决于其主要组织相容性复合体的多样性。下一代测序(NGS)和单细胞方法的发展带来了免疫系统角色塑造的革命,允许大规模并行 TCR 测序[1,2]。这导致了一系列广泛的计算和数学工具的发展,以模型之间的相互作用的 TCR 和肽 mhc (pMHC)和描述指令表的多样性。
在本文中,我们描述了 NGS 方法允许 TCRs 的结构角色塑造,这是聚类模型推断免疫系统的共享抗原特异性的基础。除了这些基于特异性的聚类模型,我们还提出了目前用于解释 TCR 多样性和免疫系统集合的不同数学指标。
然而,多样性的措施理解的数量不同克隆和他们的频率在一个组库中是不一致的。因此,可以使用不同的多样性度量,每个度量值都捕捉到细微的差异,从而对相对的单个类型频率赋予不同的权重。
此外,实验抽样只能部分估计免疫组库的多样性[5•]。因此,在解释和比较研究内部和跨研究的免疫系统多样性时必须谨慎。
内容
一,TCR 测序技术知多少
注:但是实际上不只这些技术
横坐标就是测序技术,纵坐标是测序需要的材料,限制
二, 基于序列相似性结构的 TCR 特异性聚类算法理念知多少
基于序列相似性结构的 TCR 特异性聚类
由 TCR 序列中的 t 细胞(即表位)识别的表位的预测仍然是细胞和计算免疫学家面临的最大挑战之一。通过免疫系统的深度测序鉴定 TCR,可以发现可能与抗原特异性或临床结果有关的受体模式。最近的计算机研究表明,与同一表位相互作用的 TCR 序列之间可以推断出共同的模式,从而打开了对靶标TCR进行计算预测,实验获得TCR 序列的多样性和复杂性的前景
1.Global and local motifs similarity: the GLIPH algorithm
17年的文章
Identifying specificity groups in the T cell receptor repertoire | Nature
老版本V1
immunoengineer/gliph: Grouping of Lymphocyte Interactions by Paratope Hotspots (github.com)
20年文章
Analyzing the M. tuberculosis immune response by T cell receptor clustering with GLIPH2 and genome-wide antigen screening (nih.gov)
新版本GLIPH2
GLIPH 2
对52个 TCR-pMHC 结构的分析突出表明,可能确定 CDR3s,特别是 CDR3β 中的 pMHC 接触位点,从而有机会根据共同特异性的预测以高概率聚类 TCRs。
基于这一假设,作者提出了一种基于全局和局部 TCR 序列相似性的聚类算法,称为 GLIPH (通过胞旁热点对淋巴细胞相互作用进行分组,grouping of lymphocyte interactions by paratope hotspots)
根据共有 v 基因的丰富程度、 cdr3基因长度、克隆扩增、参与者之间 HLA 等位基因的共享性、基序显著性和聚类大小对可能识别相同或非常相似 MHC 配体的特异性群进行评分。当在涵盖8个 pMHC 特异性的2068个独特序列的训练集上对 GLIPH 进行基准测试时,即使来自不同的供体,94% 的 TCRs 都以共同的特异性被正确地分组为一组 TCRs。这种方法可以用来预测一个新的 TCR 的特异性,通过验证它隶属于一个由 GLIPH 确定的特异性组。本质上,它也提供了关于一个给定的免疫反应及其复杂性的信息,通过分析的数量和规模的集群确定的 GLIPH。
2.Distance measure: the TCRdist algorithm
注:这里主要讲TCR之间距离的测定,实际上还有一些算法是按照氨基酸或者核苷酸的之间的亲和力进行计算
Quantifiable predictive features define epitope-specific T cell receptor repertoires | Nature
中文介绍文章
10X单细胞(10X空间转录组)TCR数据分析之TCRdist(3) - 简书 (jianshu.com)
10X单细胞(10X空间转录组)TCR数据分析之TCRdist(2) - 简书 (jianshu.com)
本质就是生成一个指令表
同样基于序列相似性,Dash 等人在 TCRs 空间上定义了一种新的距离度量,TCRdist,允许聚类和可视化指令表多样性。
这种定量的相似性度量是通过列出属于 CDR1、2和3 loops的残基来获得的,所有这些残基都可能与 pMHC 接触,并通过计算一个基于 blosum62转移矩阵定义的相似加权不匹配距离来获得 CDR1、2和3循环的长度变化。
值得注意的是,由于 cdr3序列在抗原表位结合中的突出作用,该序列被赋予了更高的权重。然后可以为属于给定指令表的每一个可能的 TCRs 对计算这个距离,生成所谓的距离矩阵。
它可以用于 TCR 聚类或构建层次距离树来分析 TCR 序列的多样性和复杂性。通过距离矩阵的降维,高维 TCR 景观也可以被投影到二维区域中,每个点代表一个 TCR
由于这些基于两个 TCRs 之间距离定义的分析工具,作者发现 TCR 系统往往包含主导的 TCRs 集群,其序列相似性部分来自使用共同的 v 区和 j 区以及 cdr3基序的相似性。
此外,每个抗原表位特有的基因组都包含一组序列相似性很强的集群受体,以及不同的非集群受体,这两者都为 pMHC 的约束挑战提供了不同的解决方案。最后,他们强调了驱动 TCR 与 pMHC 结合的关键保守残基。
3,基于 TCRs 生物物理化学性质的聚类分析
最近,Ostmeyer 等人引入了一类新颖的方法来分析病人的免疫系统,以便聚类和识别与疾病相关的 TCRs。他们的方法包括基于逻辑回归的机器学习技术,利用生物物理化学参数来描述 TCR 交互能力,而不是利用 TCR 序列。(这个角度厉害)
利用密码子多样性、二级结构、分子大小、极性和静电荷的5个 Atchley 因子,描述了 CDR3β 连续4个残基(即所谓的4-mers)的滑动窗口的生物物理化学特性,但不包括前4个和后3个残基。该方法确定了肿瘤中 TCRs 关键位置这些描述符的一个简短的优先值列表,从而可以识别与疾病相关的 TCRs。
尽管这种方法导致了这些 TCRs 具有相同特异性的假设,但是这一假设并没有得到验证。此外,对少数 TCR-pMHC 结构的分析所产生的选择,限制了 CDR3β 的4聚体分析,构成了该方法的局限性。尽管如此,这是朝着物理预测方向迈出的第一步,这种预测方法有可能将免疫受体极大的序列多样性适合于关键位置的数量有限的定量特征。虽然这种方法需要对每组 TCRs 进行重新训练,并且仍然局限于 CDR3β,只限于限制它的预测能力,但这种基于序列的基于“属性”的方法可以克服纯粹基于序列的分析的一些缺点。
事实上,大量与疾病相关的 TCR 序列用于训练已经不再是必要的,而且可以通过与以前遇到的序列不同的序列来检测潜在的抗原结合的 TCR。这种方法也可以用于聚类和分析 TCRs 的特征,通过定义两个受体之间的可能距离作为最相似的一对4-mers 的5个 Atchley 因子从各自的 CDR3β (抽象图中的聚类树示例)之间的差异。
三,TCR 免疫组库的克隆性、多样性和趋同性的量化分析
除了 t 细胞系统抗原特异性的多样性外,克隆型多样性还可以在疾病发展过程中或对治疗作出反应时获得免疫适应性。许多计算算法分析序列读取 TCRs 和表征指令库克隆性建立。
TCRs 具有广泛的结构多样性特征,这使得免疫系统的分析具有挑战性,但在免疫分析研究中,可以在不同的时间点在不同的组织(外周血、肿瘤组织、邻近正常组织等)中追踪 t 细胞克隆的指纹。在过去的几年里,一些研究集中分析 TCR 组库动态变化,作为炎症性疾病的免疫监测指标,如多发性硬化症、自身免疫性疾病、病毒感染或癌症,以及免疫治疗反应的生物标志物。
因此,出现了免疫系统可视化模型和统计派生的描述性指数来估计指数多样性和同源性,而没有描述共识分析方法。在下一节中,我们概括了 t 细胞系统多样性和相似性的主要表征指标,并讨论了它们的局限性。
这里讲述了六种TCR多样性的衡量指标,然后说明在测量到的TCR的数量级在哪种的时候是可靠的
1.Diversity measures: Hill numbers and Rényi entropy
大多数多样性指数是从生态学中广泛使用的信息理论数学推导出来的,用以量化生态系统的生物多样性。
注:怎么说呢,其实多样性测量这东西都是各个领域互相抄,拿过来用的,最初都是发源于信息论老祖宗香农这里(因为他开创了给信息做度量的方法),然后生态学发现信息论可以描述物种丰富变化的信息,进而进一步发扬,然后人们发现生态的话,微环境的生态不也是生态吗?也就拿到了微生物组学上,同样,细胞的生态和TCR不也是生态吗?只要是一群东西混在一起都算生态,所以也就用到了单细胞和TCR上(也就是想要深入了解单细胞技术的算法,除了看论文之外,其实离不开要翻翻数量生态学这些以前的课本)
在 t 细胞系统中,多样性考虑了克隆组成,相当于从现在开始称为丰富度的唯一 TCR 序列的数量,以及这些序列的分布谱(即它们的相对丰度) ,以下简称为均匀度。
多样性涉及到不确定性的程度,即一个 TCR 序列将从一个指令表中排序,并将属于某个 t 细胞克隆(即唯一的 TCR 序列)。
注:涉及到信息不确定性的东西一般都会把信息论巨佬香农拉出来
2.Hill numbers
常用的多样性度量与希尔数有关,也称为有效物种数,从中可以检索到数据集中不同的单序列类型的有效数目(即产生给定的多样性值的同等丰富的序列数目) :
其中 pi 是序列指令表中序列 i 的频率,n 是唯一序列的总数。通过对多样性指数进行参数化,可以计算免疫指标多样性的不同特征。
代码计算的话,从比较好用的免疫组库分析的R包immunarch扒一扒
immunarch/diversity.R at master · immunomind/immunarch (github.com)
其中data是两列,第一列是CDR3的氨基酸序列(或者是核苷酸),第二列是这个序列的定量数字
hill_numbers <- function(.data, .max.q = 6, .min.q = 1,
.do.norm = NA, .laplace = 0) {
.data <- check_distribution(.data, .do.norm = .do.norm, .laplace)
if (.min.q < 0) {
.min.q <- 0
}
res <- c()
for (q in .min.q:.max.q) {
res <- c(res, diversity_eco(.data, q))
}
names(res) <- paste0("q", .min.q:.max.q)
add_class(res, "immunr_hill")
}
diversity_eco <- function(.data, .q = 5, .do.norm = NA, .laplace = 0) {
.data <- check_distribution(.data, .do.norm = NA, .laplace = 0)
if (.q == 0) {
res <- length(.data)
} else if (.q == 1) {
res <- exp(-sum(.data * log(.data)))
} else if (.q > 1) {
res <- 1 / (sum(.data^.q)^(1 / (.q - 1)))
} else {
res <- NA
}
add_class(res, "immunr_div")
}
3.Diversity of order 1: Shannon entropy
1阶多样性:香农熵
这个公式其实和香农最原始的信息论的公式是一模一样的
4.Diversity of order 2: Gini-Simpson index
α1阶多样性:Gini-Simpson
值接近0表示一个无多样性的指数(即高度寡克隆) ,1表示无限多样性(即每个克隆具有等价代表性的多克隆指数),也就是指数越大,克隆性越多
二,基于熵的多样性指数局限性(犀利的吐槽)
如前所述,α 阶决定了指数对稀有或普通物种的敏感性。低于1的orders反映了一种多样性度量,但是这种度量受到稀有种数量的高度影响,而增加 α orders对丰富种的敏感性更高,当 α = 1时,每个物种以其比例丰度加权。因此,香农多样性指数在添加低频无性系时比基尼-辛普森指数有较高的变异。
在图3 a 中,Gini-Simpson 指数,与香农熵相反,几乎没有受到增加的唯一 tcr 的影响。
此外,在一个由相同数量的唯一 TCRs 组成的系统中,香农熵受低频克隆的影响比基尼-辛普森指数更大。
大多数研究没有提到选择多样性指数的理由。此外,所有这些多样性指数都是非线性的,在与生物解释和统计检验相关联时应谨慎从事。正确解释这些源自熵的测量方法的最佳方法是同时分析它们(即“多样性概况”) ,以便能够从观察到的差异中得出任何生物学意义。(也就是大家都是哪种对自己的目的有用就选哪个)
二.Evenness measure:
1.Pielou’s index
除了系统的不确定程度和异质性外,还可以用物种多度的等价描述。这衡量了克隆在一系列克隆多样性或克隆均匀性中的优势度(和下面的DE50差不多)
指数本身是 Shannon 熵与一个样本中物种多样性分布最大化之比得到
2.DE50
在一项描述 ipilimumab 治疗转移性黑色素瘤后外周血 TCR 多样性变化的研究中,作者将克隆多样性定义为占全部序列丰富度50% 的序列数目(即每个序列的累积频率)与全部序列丰富度之间的比值。这个测量被称为多样性均匀度50(DE50) ,用于描述最佳联合免疫疗法治疗黑色素瘤荷瘤小鼠 TILs 中增加的寡克隆反应
Inequality measure: Gini coefficient
另一个指数,基尼系数指数(不要和 Gini-Simpson 指数搞混了)有时被用来表示一个曲目的克隆分布。这是一种广泛用于经济学研究财富分配的衡量不平等的方法。它量化了一个系统的平衡(即分布的均匀性) ,而不是它的多样性(即物种丰富度)[
三, Repertoires overlap measures(计算组库重叠程度)
1.杰卡德系数
2.Sorensen 指数(索伦森指数)
根据索伦森指数,可以推导出 Bray-Curtis 不同指数(s作为索伦森指数的补充(即 Bray-Curtis 指数 = 1-Sorensen 指数)( 注:Bray-Curtis 指数也就是生态学和宏基因组学中很有名的β多样性的指数的指标)
四,采样不足——“看不见的物种”问题
所有上述指标被广泛用于剖析 t 细胞的作品。然而,由于 TCR 序列的高度多样性和测序方法的局限性,一个序列中克隆的频率分布及其丰富性在很大程度上受到这样一个事实的影响,即只有一小部分的克隆被分析,导致抽样不足(即‘看不见的物种’问题)。
这转化为多样性测量中的偏差,如图3b 所示,从一个由180个细胞和10个独特的克隆组成的系统中抽取了18个细胞。不充分抽样重复一千万次,以获得最可能情景出现的频率。基于蒙特卡罗方法的前五个和另外五个随机选择的方法被显示出来。引人注目的是,我们观察到每个抽样情景的概率都很低,即使是第一个情景,概括了总曲目的丰富性和均匀性,显示了通过大量采样 TCR 曲目获得的克隆分布的异质性。重点讨论了每个抽样方案之间的折叠变化和四个多样性指标的总指令。在教学示例中,克隆均匀度(即1-pielou 均匀度)代表了受抽样不足影响最大的指数,因为克隆分布相对于总指数有偏差。同样依赖于克隆分布的基尼系数,对于欠抽样可能不那么明智,因为在总指令表中存在的唯一 TCR 序列消失了,平衡了频率分布变化带来的不平等,例如在场景 # 7和 # 8。
在由 rényi 熵导出的两个多样性指数中,香农熵对采样不足比 Gini-Simpson 指数更敏感,这主要是由于低频克隆数量的变化(即指标丰富度)。此外,情景 # 4和 # 5呈现了索引之间的同质性,因为每个 TCR 序列的数量和频率都是稳定的。然而,我们忽略了从原始序列中抽取的不同序列的信息,每个场景都捕获了另一个结构多样性。
为了解决仅仅通过取样少量细胞而低估 TCR 指标多样性的问题,人们开发了一些物种丰富度的估计器,并可应用于免疫指标分析: chao1,dive等等。
Model for comparative analysis of antigen receptor repertoires - ScienceDirect
Estimating diversity and entropy profiles via discovery rates of new species - Chao - 2015 - Methods in Ecology and Evolution - Wiley Online Library
powerTCR: A model-based approach to comparative analysis of the clone size distribution of the T cell receptor repertoire (plos.org)
有时间一些代码加上,计算每个指数的代码