一、Explainable Artificial Intelligence Helps in Understanding the Effect of Fibronectin on Survival of Sepsis
可解释的人工智能有助于了解纤连蛋白对脓毒症存活率的影响
基于随机森林算法的机器学习模型预测脓毒症患者在入住 ICU 时的生存概率。除了脓毒症患者临床状况的常用指标外,该模型还包括入住ICU当天记录的纤连蛋白浓度。此外,使用可解释的人工智能(XAI)——BreakDown、SHAP、Ceteris Paribus 技术来更好地理解模型预测。
逻辑回归模型、随机森林模型和梯度提升模型。将结果与不同的测试数据集进行比较。基准测试包括将输入数据集划分为测试集和训练集,在训练数据集上准备模型,并在测试数据集上计算曲线下面(AUC)。该过程重复了五次。测试与训练患者的比例为1:2。随机森林模型的平均检验AUC为0.85,梯度提升模型为0.78,logistic回归模型为0.81。
机器学习模型的输入特征包括血浆纤维连接蛋白浓度、INR 值、SOFA 评分、患者年龄、APACHE II 评分、降钙素原水平、血小板计数和 d-二聚体水平。为了优化随机森林模型参数和独特的过拟合,进行了 10 次交叉验证。对测试数据集计算的 10 次交叉验证平均 AUC 为 0.82。最终模型是在训练数据集上建立的。随机森林模型的 ROC 曲线分析表明,使用该模型对患者进行分类的成功率为 0.92(对整个数据集计算的 AUC)(图 3),灵敏度为 0.92(召回率),阳性预测值为 0.76(精确度),准确率为 0.79。
特定特征对预测患者生存概率的重要性。变量的条形越长,该特征在随机森林模型中越重要。根据该图,INR值和血浆纤连蛋白浓度是随机森林模型最重要的变量。APACHE II评分和年龄也是模型的重要变量。该模型表明,SOFA 评分、血小板计数和降钙素原水平是信息量较小的变量。d-二聚体的水平似乎对模型预测没有影响。
根据所提出的随机森林模型,该患者入住ICU时计算的28天生存期预测为0.764,高于平均模型预测。基于BreakDown(Breakdown方法是一种可解释性机器学习方法,用于解释机器学习模型的预测结果。 它可以帮助我们理解模型对不同特征的依赖程度,并揭示出模型中每个特征对最终预测的贡献。)方法,模型中提高预测准确性的最重要变量是 SOFA 评分,贡献 + 0.064,以及 pFN 水平,贡献 + 0.45。其他变量不太重要,唯一对预测有负面影响的变量是年龄。使用SHAP值(SHAP 为每个输入特征生成一个值(也称为 SHAP 值),该值指示该特征如何有助于指定数据点的预测;有些因素会对预测概率产生积极影响,而另一些因素则会对其产生负面影响。)获得了非常相似的结果。此外,当考虑到 Ceteris Paribus (即在其他所有因素保持不变的情况下研究该因素对结果的影响。 它的主要作用是减少干扰因素,从而更好地理解变量之间的关系。)概况时, pFN 值的损失甚至 SOFA 水平的小幅增加都会导致对该患者的预测更差。根据医院文件,该患者在治疗的第28天还活着。
二、Verifying explainability of a deep learning tissue classifier trained on RNA-seq data
验证在RNA-seq数据上训练的深度学习组织分类器的可解释性
作者下载了47 种组织类型的16,651 样本用于分析,将样本中14301个样本用于训练模型,选择47个组织×50个样本=2350个样本作为测试集由训练好的分类模型(CNN)对标签进行预测,然后由测试集标签作用于前两者计算出SHAP值并选择过滤样本,并筛选出47个组织排名前103位的基因(47×103=4841),发现其中大约50%(2423)的基因为SHAP基因,也就是独特基因。之后对整个样本按组织分类鉴定了不同组织间的差异基因,经由FDR<0.01和LogFC>0.4得到排名最高的差异基因,最后和SHAP基因进行比较。
1、测试集数据输入为2,350×18,884的矩阵,一个格子代表某个样本对应的某个基因的表达量。通过模型对测试集的输出,可以看到某一个基因在47类组织下的SHAP值,图中柱子的高低代表SHAP的大小,正负代表在某一类组织上基因更倾向于这类组织和不倾向于这类组织
2、使用不平衡和平衡类大小的卷积神经网络 (CNN) 性能?CNN 性能使用 F1 分数进行测量,F1 分数是精确度和召回率的调和平均值。
(引申:所谓的不平衡指的是不同类别的样本量差异非常大,或者少数样本代表了业务的关键数据(少量样本更重要),需要对少量样本的模式有很好的学习。样本类别分布不平衡主要出现在分类相关的建模问题上。样本类别分布不平衡从数据规模上可以分为大数据分布不平衡和小数据分布不平衡两种。
大数据分布不均衡。这种情况下整体数据规模大,只是其中的少样本类的占比较少。但是从每个特征的分布来看,小样本也覆盖了大部分或全部的特征。例如拥有1000万条记录的数据集中,其中占比50万条的少数分类样本便于属于这种情况。
小数据分布不均衡。这种情况下整体数据规模小,并且占据少量样本比例的分类数量也少,这会导致特征分布的严重不平衡。例如拥有1000条数据样本的数据集中,其中占有10条样本的分类,其特征无论如何拟合也无法实现完整特征值的覆盖,此时属于严重的数据样本分布不均衡。
样本分布不均衡将导致样本量少的分类所包含的特征过少,并很难从中提取规律;即使得到分类模型,也容易产生过度依赖于有限的数据样本而导致过拟合的问题,当模型应用到新的数据上时,模型的准确性和鲁棒性将很差。样本分布不平衡主要在于不同类别间的样本比例差异。
SMOTE过采样方法的主要作用是通过合成少数类样本来增加其在数据集中的数量,以达到样本平衡。这对于改善模型的训练效果至关重要。通过SMOTE过采样,可以使得模型更好地学习到少数类别的特征,从而提高模型的泛化能力和准确性。此外,SMOTE过采样方法还可以减少模型的过拟合倾向,提高模型的稳健性(Robustness)。)
训练集中每种组织类型的样本数量从肾脏-皮层的 35 个到肌肉-骨骼的 753 个不等。评估平衡(753或752)和不平衡的训练样本量对保留测试数据的CNN表现的影响。图中红线与蓝线分别代表平衡和不平衡组,颜色不同的菱形代表47类组织。使用不平衡数据预测组织类型时,CNN 的宏观平均 F1 分数为 95.31%,而使用 SMOTE 平衡数据时为 96.10%。当样本数<200时平衡组F1 分数明显高于不平衡组,随着样本数量的增大,样本数>250时,平衡组和不平衡组F1 分数近似拟合。
3、选择继续使用使用 SMOTE 平衡数据训练的 CNN。该分类器对每个组织的召回率从 58% 到 100% 不等,精确度从 70% 到 100% 不等(图 2b)。召回率最低的组织是食管-GJ(58%)和结肠-Sig(80%),38%(n = 19)的食管-GJ 样本被预测为食管-Mus,20%(n = 10)的结肠-Sig 样本被预测为结肠-Tra 和小肠。平衡后召回率低于 90% 的其他组织包括脑-Hyp、脑-Hip 和脑-ACCB,这三种组织类型的召回率均为 88%,而它们各自的错误分类是其他脑组织类型。(召回率:正确预测为正的占全部实际为正的比例)
人类蛋白质图谱(HPA)的 126 个样本的独立数据集验证
通过按每个组织内的中值 SHAP 值对每个基因进行排序,确定了区分 47 种组织类型的最显着基因。在每种组织排第一的 47 个基因中,93.6%(47 个中的 44 个)是独特的(如果在 > 1 个组织中发现一个基因,则只计算一次),87.2%(47 个中的 41 个)是组织独有的(目前仅在一张组织中)。前 103 个(如何确定)总共包含 4,841 个基因(47 个类别 × 103 个等级 = 4,841),其中大约 50% 的基因(2,423 个基因;称为“SHAP 基因”)是独特的,29.1%(1407 个基因)的基因是组织排他性。组织专有基因的数量因类别而异,睾丸含有最多的专有基因(80 个基因),子宫含有最少的专有基因(14个)。
((a) 折线图显示,在所有 47 个类别(y 轴)中,独特基因(黑线)和组织排他性基因(灰线)在扩展前 n 个可能基因的排名中百分比递减。前 103 个等级(红色虚线)总共包含 4,841 个基因(47 个类别× 103 个等级 = 4,841 个),但有些基因存在于多个组织中,大约 50% 的基因(2,423 个基因)是唯一的。(b) 每个组织类型排名前103位的基因中组织排他性基因的数量。)
为了将 SHAP 基因(2,423 个基因)与非 ML 方法进行比较,EdgeR 鉴定出的显着差异表达基因总数为 30,532 个,睾丸显示出最多数量的上调基因,全血显示出最多数量的下调基因。edgeR和SHAP基因进行比较发现,98.6%的SHAP基因与edgeR识别的基因重叠,只有34个SHAP基因未被edgeR识别为显著基因。后续又将47类组织SHAP基因与edgeR识别的重叠基因分析,作者发现47类组织上调基因大于下调基因数量。
SHAP 方法识别出 4841 个显著基因,edgeR 方法识别出 30,532 个显著基因。SHAP 和edgeR 方法有3499 个共同基因(“SHAP 和edgeR”,紫色)。因此,30,532–3,499 = 27,033 个基因是edgeR 方法特有的(“仅edgeR”,红色),4841–3,499 = 1342 个基因是SHAP方法特有的(“仅SHAP”,蓝色)。