可解释机器学习文章

一、Explainable Artificial Intelligence Helps in Understanding the Effect of Fibronectin on Survival of Sepsis

可解释的人工智能有助于了解纤连蛋白对脓毒症存活率的影响

基于随机森林算法的机器学习模型预测脓毒症患者在入住 ICU 时的生存概率。除了脓毒症患者临床状况的常用指标外,该模型还包括入住ICU当天记录的纤连蛋白浓度。此外,使用可解释的人工智能(XAI)——BreakDown、SHAP、Ceteris Paribus 技术来更好地理解模型预测。


逻辑回归模型、随机森林模型和梯度提升模型。将结果与不同的测试数据集进行比较。基准测试包括将输入数据集划分为测试集和训练集,在训练数据集上准备模型,并在测试数据集上计算曲线下面(AUC)。该过程重复了五次。测试与训练患者的比例为1:2。随机森林模型的平均检验AUC为0.85,梯度提升模型为0.78,logistic回归模型为0.81。


机器学习模型的输入特征包括血浆纤维连接蛋白浓度、INR 值、SOFA 评分、患者年龄、APACHE II 评分、降钙素原水平、血小板计数和 d-二聚体水平。为了优化随机森林模型参数和独特的过拟合,进行了 10 次交叉验证。对测试数据集计算的 10 次交叉验证平均 AUC 为 0.82。最终模型是在训练数据集上建立的。随机森林模型的 ROC 曲线分析表明,使用该模型对患者进行分类的成功率为 0.92(对整个数据集计算的 AUC)(图 3),灵敏度为 0.92(召回率),阳性预测值为 0.76(精确度),准确率为 0.79。


特定特征对预测患者生存概率的重要性。变量的条形越长,该特征在随机森林模型中越重要。根据该图,INR值和血浆纤连蛋白浓度是随机森林模型最重要的变量。APACHE II评分和年龄也是模型的重要变量。该模型表明,SOFA 评分、血小板计数和降钙素原水平是信息量较小的变量。d-二聚体的水平似乎对模型预测没有影响。


根据所提出的随机森林模型,该患者入住ICU时计算的28天生存期预测为0.764,高于平均模型预测。基于BreakDown(Breakdown方法是一种可解释性机器学习方法,用于解释机器学习模型的预测结果。 它可以帮助我们理解模型对不同特征的依赖程度,并揭示出模型中每个特征对最终预测的贡献。)方法,模型中提高预测准确性的最重要变量是 SOFA 评分,贡献 + 0.064,以及 pFN 水平,贡献 + 0.45。其他变量不太重要,唯一对预测有负面影响的变量是年龄。使用SHAP值(SHAP 为每个输入特征生成一个值(也称为 SHAP 值),该值指示该特征如何有助于指定数据点的预测;有些因素会对预测概率产生积极影响,而另一些因素则会对其产生负面影响。)获得了非常相似的结果。此外,当考虑到 Ceteris Paribus (即在其他所有因素保持不变的情况下研究该因素对结果的影响。 它的主要作用是减少干扰因素,从而更好地理解变量之间的关系。)概况时, pFN 值的损失甚至 SOFA 水平的小幅增加都会导致对该患者的预测更差。根据医院文件,该患者在治疗的第28天还活着。

二、Verifying explainability of a deep learning tissue classifier trained on RNA-seq data

验证在RNA-seq数据上训练的深度学习组织分类器的可解释性

作者下载了47 种组织类型的16,651 样本用于分析,将样本中14301个样本用于训练模型,选择47个组织×50个样本=2350个样本作为测试集由训练好的分类模型(CNN)对标签进行预测,然后由测试集标签作用于前两者计算出SHAP值并选择过滤样本,并筛选出47个组织排名前103位的基因(47×103=4841),发现其中大约50%(2423)的基因为SHAP基因,也就是独特基因。之后对整个样本按组织分类鉴定了不同组织间的差异基因,经由FDR<0.01和LogFC>0.4得到排名最高的差异基因,最后和SHAP基因进行比较。


1、测试集数据输入为2,350×18,884的矩阵,一个格子代表某个样本对应的某个基因的表达量。通过模型对测试集的输出,可以看到某一个基因在47类组织下的SHAP值,图中柱子的高低代表SHAP的大小,正负代表在某一类组织上基因更倾向于这类组织和不倾向于这类组织


2、使用不平衡和平衡类大小的卷积神经网络 (CNN) 性能?CNN 性能使用 F1 分数进行测量,F1 分数是精确度和召回率的调和平均值。

(引申:所谓的不平衡指的是不同类别的样本量差异非常大,或者少数样本代表了业务的关键数据(少量样本更重要),需要对少量样本的模式有很好的学习。样本类别分布不平衡主要出现在分类相关的建模问题上。样本类别分布不平衡从数据规模上可以分为大数据分布不平衡和小数据分布不平衡两种。

大数据分布不均衡。这种情况下整体数据规模大,只是其中的少样本类的占比较少。但是从每个特征的分布来看,小样本也覆盖了大部分或全部的特征。例如拥有1000万条记录的数据集中,其中占比50万条的少数分类样本便于属于这种情况。

小数据分布不均衡。这种情况下整体数据规模小,并且占据少量样本比例的分类数量也少,这会导致特征分布的严重不平衡。例如拥有1000条数据样本的数据集中,其中占有10条样本的分类,其特征无论如何拟合也无法实现完整特征值的覆盖,此时属于严重的数据样本分布不均衡。

样本分布不均衡将导致样本量少的分类所包含的特征过少,并很难从中提取规律;即使得到分类模型,也容易产生过度依赖于有限的数据样本而导致过拟合的问题,当模型应用到新的数据上时,模型的准确性和鲁棒性将很差。样本分布不平衡主要在于不同类别间的样本比例差异。

SMOTE过采样方法的主要作用是通过合成少数类样本来增加其在数据集中的数量,以达到样本平衡。这对于改善模型的训练效果至关重要。通过SMOTE过采样,可以使得模型更好地学习到少数类别的特征,从而提高模型的泛化能力和准确性。此外,SMOTE过采样方法还可以减少模型的过拟合倾向,提高模型的稳健性(Robustness)。)

训练集中每种组织类型的样本数量从肾脏-皮层的 35 个到肌肉-骨骼的 753 个不等。评估平衡(753或752)和不平衡的训练样本量对保留测试数据的CNN表现的影响。图中红线与蓝线分别代表平衡和不平衡组,颜色不同的菱形代表47类组织。使用不平衡数据预测组织类型时,CNN 的宏观平均 F1 分数为 95.31%,而使用 SMOTE 平衡数据时为 96.10%。当样本数<200时平衡组F1 分数明显高于不平衡组,随着样本数量的增大,样本数>250时,平衡组和不平衡组F1 分数近似拟合。

3、选择继续使用使用 SMOTE 平衡数据训练的 CNN。该分类器对每个组织的召回率从 58% 到 100% 不等,精确度从 70% 到 100% 不等(图 2b)。召回率最低的组织是食管-GJ(58%)和结肠-Sig(80%),38%(n = 19)的食管-GJ 样本被预测为食管-Mus,20%(n = 10)的结肠-Sig 样本被预测为结肠-Tra 和小肠。平衡后召回率低于 90% 的其他组织包括脑-Hyp、脑-Hip 和脑-ACCB,这三种组织类型的召回率均为 88%,而它们各自的错误分类是其他脑组织类型。(召回率:正确预测为正的占全部实际为正的比例)

人类蛋白质图谱(HPA)的 126 个样本的独立数据集验证


通过按每个组织内的中值 SHAP 值对每个基因进行排序,确定了区分 47 种组织类型的最显着基因。在每种组织排第一的 47 个基因中,93.6%(47 个中的 44 个)是独特的(如果在 > 1 个组织中发现一个基因,则只计算一次),87.2%(47 个中的 41 个)是组织独有的(目前仅在一张组织中)。前 103 个(如何确定)总共包含 4,841 个基因(47 个类别 × 103 个等级 = 4,841),其中大约 50% 的基因(2,423 个基因;称为“SHAP 基因”)是独特的,29.1%(1407 个基因)的基因是组织排他性。组织专有基因的数量因类别而异,睾丸含有最多的专有基因(80 个基因),子宫含有最少的专有基因(14个)。

((a) 折线图显示,在所有 47 个类别(y 轴)中,独特基因(黑线)和组织排他性基因(灰线)在扩展前 n 个可能基因的排名中百分比递减。前 103 个等级(红色虚线)总共包含 4,841 个基因(47 个类别× 103 个等级 = 4,841 个),但有些基因存在于多个组织中,大约 50% 的基因(2,423 个基因)是唯一的。(b) 每个组织类型排名前103位的基因中组织排他性基因的数量。)


为了将 SHAP 基因(2,423 个基因)与非 ML 方法进行比较,EdgeR 鉴定出的显着差异表达基因总数为 30,532 个,睾丸显示出最多数量的上调基因,全血显示出最多数量的下调基因。edgeR和SHAP基因进行比较发现,98.6%的SHAP基因与edgeR识别的基因重叠,只有34个SHAP基因未被edgeR识别为显著基因。后续又将47类组织SHAP基因与edgeR识别的重叠基因分析,作者发现47类组织上调基因大于下调基因数量。

SHAP 方法识别出 4841 个显著基因,edgeR 方法识别出 30,532 个显著基因。SHAP 和edgeR 方法有3499 个共同基因(“SHAP 和edgeR”,紫色)。因此,30,532–3,499 = 27,033 个基因是edgeR 方法特有的(“仅edgeR”,红色),4841–3,499 = 1342 个基因是SHAP方法特有的(“仅SHAP”,蓝色)。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,951评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,606评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,601评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,478评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,565评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,587评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,590评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,337评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,785评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,096评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,273评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,935评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,578评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,199评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,440评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,163评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,133评论 2 352

推荐阅读更多精彩内容