对机器学习模型的可解释性讨论（一）

对论文·“A Survey of Methods for Explaining Black Box Models”的理解和讨论的结果

论文摘要：近年来，许多精确的决策支持系统被构建为黑盒，即向用户隐藏内部逻辑的系统。这种缺乏解释的情况既是一个现实问题，也是一个伦理问题。文献报告了许多旨在克服这一关键弱点的方法，有时以牺牲可解释性的准确性为代价。可以使用黑盒决策系统的应用程序是多种多样的，每种方法通常都是为了为特定问题提供解决方案而开发的，因此，它显式或隐式地描述了自己对解释和解释的理解。本文的目的是就解释的概念和黑箱系统的类型对文献中涉及的主要问题进行分类。对于一个问题的解答，一个黑箱类型，以及一个需要的解释，这个调查应该帮助研究者发现这些建议对他自己的工作更有用。提出的对打开黑箱模型的方法进行分类的方法也应该有助于正确地看待许多研究的开放问题。

一. 背景(论文1,2章)

这种学习过程是通过人们在进行日常活动(例如，在社交网络上的动作、购买评论等)时留下的数字痕迹而实现的。这些庞大的数据可能包含人类的偏见和偏见。因此，在这些模型上学习的决策模型可能会继承这些偏见，可能导致不公平和错误的决策。

欧洲议会最近通过了通用数据保护法规(GDPR)，该法规已于2018年5月成为法律。GDPR的一个创新方面是关于自动决策的条款，包括profiling，它首次在某种程度上为所有个人引入了一种解释权，以便在自动决策发生时对所涉及的逻辑进行有意义的解释。然而，对于类似机器学习算法模型这类黑盒模型中暂时还没有这样一个可解释的逻辑。

由于具有可伸缩、高性能的基础设施，我们依赖于在大量数据集上训练的复杂的机器学习分类模型，因此我们有可能创建和使用我们并不真正理解的决策系统。这不仅影响了伦理信息，还影响了责任[59]、安全[23]和工业责任[53]。

这些组件的另一个固有风险是，由于训练数据收集中存在系统性偏差，可能会从人工制品或训练数据中的虚假关联中学到错误的决策，比如根据背景或光线的属性识别图片中的对象。如果不了解和验证机器学习组件的基本原理，公司如何信任自己的产品?

解释技术对于公司创造更安全、更可靠的产品，以及更好地管理任何可能存在的责任，都是一个巨大的帮助。同样，机器学习模型在医学、生物学、社会经济科学等科学研究中的应用，不仅需要对结果的信任和接受作出解释，也需要对科学发现的开放性和研究的进展作出解释。

因此，解释是跨多个行业和科学学科的负责任的、开放的数据科学的核心。不同的科学团体研究了解释机器学习决策模型的问题。然而，每个社区从不同的角度解决问题，并提供了不同的解释意义。文献中的大部分作品来自机器学习和数据挖掘社区。第一个主要关注于描述黑盒是如何工作的，而第二个更感兴趣的是解释决策，即使不了解不透明决策系统一般是如何工作的细节。

尽管可解释性机器学习已经成为一个话题有一段时间了，并且最近得到了很多关注，但是今天有很多特别分散的结果，这些方法缺乏系统的组织和分类。

二. 讨论什么是可解释性(论文3章)

Interpretable, explainable, and comprehensible models. 在这里，我们将讨论什么是可解释性模型，并分析可解释性模型的各种维度和需求，以及公认的可解释性比较好的模型。

在分析预测模型的可解释性时，我们可以确定一组需要考虑的以下论文中提出的3种维度：

1.全局和局部可解释性:模型可以完全可解释性，即，我们能够理解一个模型的整个逻辑，并遵循整个推理导致所有不同的可能结果。在这种情况下，我们讨论的是全局可解释性。相反，我们用局部可解释性指出，在这种情况下，只可能理解特定决策的原因:只有单个预测/决策是可解释性的。

2.时间限制:一个重要方面是用户可用的时间或允许用户花在理解解释上的时间。用户时间可用性与必须使用预测模型的场景密切相关。因此，在某些情况下，用户需要快速做出决策(例如，灾难即将来临)，最好有一个简单易懂的解释。（与场景有关？）

3.用户专业知识的性质:预测模型的用户在任务中可能具有不同的背景知识和经验:决策者、科学家、法规遵循和安全工程师、数据科学家等等。了解任务中的用户体验是模型可解释性感知的一个关键方面。领域专家可能更喜欢更大、更复杂的模型，而不是更小、有时更不透明的模型。（与用户有关？）

（我理解的是，可以通过上面这三个维度，在具体项目中给出一个我们需要的可解释性。需要考虑我们的对黑盒模型，运用场景和用户进行分析后给出的：解释是全局or局部，解释的受众理解程度，用户理解解释所用的时间等等）

需要一个可解释的模型来提供解释。要实现一个可解释的模型，有必要考虑以下的需求列表：

可解释性:模型和/或其预测在多大程度上是人类可以理解的。讨论最多的是如何度量可解释性。在参考[32]中，度量可解释性的一个组件是预测模型在模型大小方面的复杂性。根据文献，我们把可解释性也称为可理解性。（我的理解：其实这里的可解释性就应该对应上面的3个维度来度量）

准确性:模型准确预测未见实例的程度。模型的准确率可以通过准确率评分、F1评分等评价指标来衡量。在文献中，最常见的目标是生成一个可解释的模型，以保持具有竞争力的准确性。

保真度:模型能够准确模拟黑箱预测器的程度。fdelity捕获了在模拟黑箱行为时一个可解释的模型有多好。与准确性类似，fdelity是根据准确性评分、f1评分等来度量的，但是是相对于黑匣子的结果而言的。

此外，除了这些特性与可解释性严格相关外，根据[5,28,32,45]，数据挖掘和机器学习模型还应该具有其他重要的需求。其中一些欲望与伦理方面有关，如公平和隐私。第一个原则要求模型保证群体免受(直接或间接)歧视[100];而第二个要求模型不泄露关于人们[4]的敏感信息。如果模型是通过尊重用户给出的单调性约束来构建的，那么模型的信任度就会增加[77,87,123]。一个遵守单调性原则的预测器是，例如，当数值属性值的增加趋向于以单调的方式增加或减少记录成为类[32]成员的概率时的预测器。影响模型信任级别的另一个属性是可用性:人们倾向于信任更多的模型，这些模型提供的信息可以帮助他们有意识地完成任务。（这是相对比较重要的性质）

此外，数据挖掘和机器学习模型还应该具有可靠性、鲁棒性、因果性、可伸缩性和通用性等其他常见的重要特性。这意味着模型应该能够独立于参数或输入数据的微小变化(可靠性/鲁棒性)而保持一定的性能水平，并且控制由于扰动而导致的输入变化会影响模型行为(因果关系)。此外，由于我们处在大数据时代，拥有能够伸缩到具有大输入空间的大输入数据的模型是合适的。最后，由于通常在不同的应用场景中，可能使用具有不同数据的相同模型，因此最好使用不需要特殊培训机制或限制(通用性)的可移植模型。（相对没有那么重要的性质）

公认的可说明的模型：

在目前的技术状态下，可以识别出一小部分现有的可解释模型:决策树、规则、线性模型。这些模型被认为很容易被人类理解。(这三个模型都能够在“西瓜书”里面学习到，对应都有相应的章节介绍，确实也比较直观地能让人理解，我们讨论如果能够让决策树和黑盒模型，比如神经网络，之间构建一个对等，用保真度来度量相似程度，从而来用决策树理解黑盒模型，这种可视化就是一种可理解)

对于规则和决策树的解释]的不同方面。决策树被广泛用于图形表示，而规则具有文本表示。主要区别在于文本表示不能立即提供关于规则的更相关属性的信息。然而，特征在树中的层次位置提供了这种线索。规则和决策树之间的另一个关键区别是，在决策树中，每个记录仅由一个叶节点分类，即，通过叶节点集及其到根节点的路径，以相互排斥和详尽的方式表示所预测的类。然而，一个特定的记录可以满足规则的前提条件，因为规则随后会为该记录提供一个不同的类。事实上，基于规则的分类器的缺点是需要额外的方法来解决这种结果冲突的情况。许多基于规则的分类器通过返回有序规则列表而不是无序规则集来处理这个问题。（这里我们讨论决策树和规则是否可以相互转化，决策树可以比较简单的转化为规则，但规则有时会比较难，比如转化的是一个图而不是树；此外上面提到的基于规则的分类器缺点是否也是转化为决策树的一个难点？）

最后，正如最后一句话，我们强调，上述所有提供解释的技术只有在它们具有人类合理的规模时才能得到有效的解释。事实上，这一解释的好处可能会因其规模和复杂性而无效。例如，当线性模型是高维的，解释可能是压倒性的。此外，如果返回的规则集太大，或者树太深太宽，那么它们就无法人为地管理，即使它们完美地捕获了用于分类的黑匣子的内部逻辑。（这里树太深太宽导致的问题，我联想到张民老师研一时上的那个工具，可以快速检查一个树的性质，是否可以解决这个问题）

解释和可解释模型的复杂性：模型复杂性的评估通常与模型的可理解性联系在一起，这是一个非常困难的任务。因此，这种评估通常是用与模型大小相关的粗略近似来估计的。此外，复杂性经常被用作可解释性的对立面。在分析文献中关于模型复杂性的各种概念之前，我们指出，对于黑箱解释问题，复杂性只与模型有关，而与一般未知的训练数据无关。

（我们需要从上面这些概念中提炼出不需要分场景用户改变的性质，在科学程度上共性的性质，然后对其进行形式化；比如两个从相同黑盒模型得到的不同决策树，现在我们要去掉冗余信息，那什么样的信息是冗余的呢？对此导师们提出了一种剪枝；但在“西瓜书”里面对决策树和规则也有剪枝，这里的剪枝是一种解决“过拟合”的方法，应该不是一个概念，通过这种剪枝可以减少决策树的复杂程度，但对可解释性并没有关系。但导师们这个剪枝是需要在黑盒模型转化为决策树方法比较成熟后，对获得的决策树再进行分析，我觉得万一没有冗余呢？）

可解释模型的可解释数据：用于分类的数据类型可能具有不同的性质。不同类型的数据为人类提供了不同级别的可解释性。大多数的数据挖掘和机器学习技术都是在表中组织的数据上工作的，算法可以将这些表作为矩阵来处理。这种类型的数据的优点是，它很容易由这些算法管理，不需要特殊的转换，而且非常简单，可以由人类来解释。然而，表的缺点是，对所表示的信息的解释还需要理解元数据，这些元数据允许我们将含义与表中的值关联起来。（不同的数据的结构也有不同的解释性）

事实上，在图像和文本上，最先进的技术通常采用基于支持向量机、神经网络或深度神经网（这些都是黑盒模型）的预测模型，这些模型通常难以解释。因此，某些公认的可解释模型不能直接用于这类数据，以获得可解释模型或人类可理解的解释。（可解释的模型不方便处理像图像这样的不好理解的数据结构；图像在黑盒模型经过1层处理后，能不能把输出结果转成图像，这样我们可以很方便的理解处理的特征？）

数据挖掘和机器学习算法还可以使用序列、时空数据和复杂网络等其他形式的数据。然而，据我们所知，在文献中还没有针对不同于图像、文本和表格数据的数据的黑盒模型解释的工作。唯一的例外是，使用脑电图数据提供与决策结果相关的数据点热图。（那我们可以对序列、时空数据和复杂网络等其他形式的数据的黑盒模型的可解释性来展开工作）

第四节：讨论如何打开“黑箱问题”

在这个调查中，我们提出了一个分类的基础上面临的问题的类型和使用的解释器打开黑箱。特别地，在我们的分类中，我们考虑了以下特征:

•所面临的问题的类型(根据第4节中的缺陷);•用于打开黑匣子的解释器类型;•解释者能够打开的黑盒模型类型;•黑盒模型输入的数据类型

在每个章节中，我们将所有具有相同问题技巧的论文进行分组，而每个小节对应的是所采用的不同解决方案。反过来，在每个小节中，我们将试图解释同一类型黑匣子的论文分组。最后，我们将黑盒使用的数据类型保留为每个分析工作指定的特性。

我们组织讨论不同问题的部分如下。在第6节中，我们分析了论文提出的解决模型解释问题的方法。这些方法提供了一个全局可解释的预测器，能够模拟黑匣子。第7节回顾了解决结果解释问题的方法:返回的预测器是本地可解释的，只对给定的记录提供解释。在第8节中，我们讨论了提出检查黑匣子方法的论文，即它不是一个可理解的预测器，而是一个可视化工具，用来研究黑盒内部是如何工作的，以及当提供了某种输入时会发生什么。最后，在第9节中，我们报告了设计透明预测器以克服黑盒的“模糊”限制的论文。这些方法试图提供一个全局或局部可解释的模型，而不牺牲学习解决相同任务的黑盒的准确性

第五节：问题和基于解释的分类。（分类的细节和区分各种方法）

简单介绍各种名词：比如：NN，DNN，AGN，TAB，SA这样等等

对机器学习模型的可解释性讨论（一）