AI对齐综述记录笔记

对齐学习：

综述 https://alignmentsurvey.com/uploads/AI-Alignment-A-Comprehensive-Survey-CN.pdf

（1）背景：

①危害描述：大语言模型中出现的安全、偏见、不平等（EX.性别、性身份和移民身份等明显的偏见)；已经出现的一些不良/有害行为（也就是对齐失败）=>规模大、训练意图和人类价值不符导致风险规模庞大。

②RICE原则：鲁棒性（面对多样化场景或对抗压力时的抵抗力，特别是保证其目标的正确性以及能力泛化性）、可解释性（人类能理解人工智能系统的内在推理过程，特别是黑盒神经网络的内部工作原理）、可控性（系统的行动和决策过程始终受到人类监督和约束）、道德性（一个系统在决策和行动中坚定不移地维护人类的规范和价值观）。

③对齐的过程：

前向对齐：从反馈中学习(RLHF及改进、如何在训练中提供到道德反馈）、在分布偏移下学习（目标错误泛化、ADS问题）

后向对齐：对齐保证（安全评估及更高级的方法保证对齐）、人工智能治理（人工监管人工智能，略）

④对齐失败：强化学习的过程：1.创建一个针对奖励的代理 2.建立一个奖励过程，为奖励提供适当的奖励信号。

奖励破解：奖励代理（模型）不能完全替代人类标准，不够严格的特点导致可以被”破解“。

目标错误泛化：[有点像过拟合]和能力泛化的区别在于，在完美的奖励规范下还是会发生错误泛化。

ps：两种失败并不好区分。

风险：权力寻求（控制资源和人类的行为）、度量篡改（在没达到目标的情况下造成有利结果的假象）、不真实回答（幻觉问题）、欺骗对齐和操纵（故意误导监督者、故意产生不准确输出并骗过人类）

（2）从反馈中学习：

反馈类型：①奖励 ②示范（记录专家顾问的行为数据） ③比较（对AI生成的输出进行排名）

偏好建模：

①偏好粒度（动作：比较a1和a2两个动作、状态：比较s1和s2两个状态、轨迹，比较两个完整的状态-动作序列轨迹，每个轨迹包括各个时间的时间-动作对）

②偏好类别（绝对偏好：二元、渐进：使用绝对的数字或者是用序数来描述优、次优、中间；相对偏好：全序：指出所有的从最优到次优，或者是偏序：比较两个数据项之间的）

奖励模型：InstructGPT论文（后续要看）

策略学习：RLHF[重点]：监督微调（SFT）->收集比较数据和奖励建模->通过强化学习进行策略优化。

强化学习（RL）：RL 的目标是学习一个策略 π，在状态 s 中执行动作 a，以最大化在环境转换动态 P 和初始状态分布 ρ0 下的期望累积奖励

基于偏好的强化学习（PbRL）：针对轨迹，适合非专家用户，利用偏好而非显式奖励信号。

模仿学习（IL）：从示范中学习，通过观察示范数据集D来改进自己的策略

逆强化学习（IRL）：从示范数据集D中推导奖励函数，有挑战。

③RLxF：改变收集反馈的来源

RLAIF：从人工智能反馈中进行强化学习，利用AI反馈来解决

RLHAIF：从人工智能和人类反馈中进行

进一步改进：根本目的：评估比完成任务更简单。

IDA（迭代蒸馏扩增）：引入一个构建可扩展监督的框架，通过人类和人工智能迭代协作实现。【概述：初始一个A[0]，模仿人类H的决策->蒸馏：通过训练使得A[0]接近人类H->扩增：H和多个A[0]协作交互形成增强的智能体集合A[1]】

RRM(递归奖励建模）：用训练得到的智能体A（t-1）为A（t）提供反馈，最初始的A（0）从纯人类反馈中学习。[拆解一个大型任务到最小，然后一级一级往上进行递归奖励建模]

辩论（Debate）：两个Agent轮流提供答案和陈述，由人类裁判进行最终结果。

合作逆强化学习（CIRL）：简单来说，AI 系统将人类的真实目标 r(·) 作为自己的目标 (尽管 r(·) 的值并不确定)，并通过观察和

与人类交互来不断尝试弄清楚 r

（3）分布偏移下学习：

1.出现的问题：

①目标错误泛化：人工智能系统在训练分布中表现完美，但在分布外环境中，训练分布中学习到的能力无法泛化，这使得 AI 可能会追求与人类愿望不符的目标。（Ex.总体学习时觉得绿色草地是出现牛的一个高度预测特征，但这可能在另一组数据集下就不可行了。）

[原文链接下]

例子：小球跟随一个专家学习如何以正确顺序访问不同颜色的其他球体，但是在学习之后小球只学会了“跟随”这一行为。在这个例子下，小球可以在测试环境下学会以正确顺序访问其他颜色的小球，但却会被一个假的专家欺骗以错误顺序访问小球。【即使收到了负的loss】

例子有很多，但这个最直接。

②自诱发分布偏移(ads):因为偏移导致数据的分布，比如推荐系统的偏移导致用户分布偏移，然后错误的反馈反过来进一步扩大错误结果。

[原文链接下]ps：这是一个机器学习阶段就出现的问题（2020）

a和c对应好的ADS被鼓励，b和d对应不好的ADS要被避免

需要注意的是ADS在RL中是一个提升指标的方法（因为会取得高奖励），所以在当时论文中的研究中作者希望于改善ADS，而非消除（否则就得把RL中的奖励函数给隐藏起来了，这很反直觉。）

2.解决方案：

第一类：算法干预。

①ERM(经验风险最小化）：希望数据集中的经验数据接近于未知的目标分布，也就是从数据集中抽样以调整分布。（注意35页的公式，它设置了一个目标函数E（w）来表达函数的目标分布，不过，如果测试数据和训练数据的分布源头不一样，这个方法没法解决。）

ERM公式

②DRO（分布鲁棒优化）：减少风险函数集中的最大值，提高在扰动集D中的最差情况性能。【从不同的域中得到训练分布数据的混合，然后最小化目标函数，得到不同训练分布之间标签和表征之间的不变关系；but直接将DRO应用到超参的神经网络会导致次优，所以得采用正则化技术】

ps：因为原文的数学公式多的和鬼一样，所以这里用gpt3.5来解释。

DRO做法

③不变风险最小化（IRM）：IRM 旨在训练一个在各种环境中都有稳健性能的预测模型，同时减少依赖于假相关特征的可能性。

IRM简单解释

④风险外推（REx）：及在外推域的扰动集上进行鲁棒优化 (MM-REx)，并对训练风险的方差施加额外的惩罚 (V-REx)【看P36的公式会更好懂，主要适用于因果分析】

综述中的算法解释

⑤模式连接指引：

模式连通性：在损失空间函数内找到一条路径，使得多个不同的局部最小值连通（也就是连通之后的损失<=多个最小值加起来）

综述中的模式连通性

基于连通性的微调（CBFT）：

CBFT公式

D：数据集 $D_{NC}$ ：不存在假属性C的最小数据集 $L_{CE}$ :表示预测结果 $f（D_{NC};\theta ）$ 和y之间的交叉熵损失，

K：常数

CBFT优化 $L_{CBFT}$ 两个目的：一个是重新定位模型来修改模型的机制，打破最小化损失的线性连接，通过最大化障碍损失 $L_B$ 来实现；另一个是减轻对假属性的依赖，也就是优化 $L_1$

第二类：数据分布干预：

①对抗训练：针对奖励过度优化的问题尤其有效。（详情参考后面的红队训练）

（1）基于扰动的对抗训练：将对抗性扰动的例子（也就是对正常数据做小改动）引入到训练中，包括将一个正则化项添加到损失函数中来评估模型在基于梯度上的扰动对抗性能。

（2）无限制对抗训练：用生成模型从头生成任意的对抗训练。

②合作训练：旨在解决非合作和集体有害行为

引入多智能体强化学习 (MARL) 训练领域的内容。[关注协调能力（EX.足球队），而非合作动机（EX.为了应对囚徒困境而选择合作）]

这里的智能体指的是个体实体，比如神经网络或者模块的部分or整体。

分类：

a.完全合作MARL：所有智能体共享奖励函数。因为激励完全一致，我们只需要关注如何通过协作来有效地实现共同目标。这种方法在解决这个问题时采取了不同的方式，从最基本的独立训练到使用分散通信来补充独立训练的方法，还有一种方法是将全局奖励分解成每个智能体的贡献来确定价值因子化。

完全合作MARL两种方法的例子

b.混合动机MARL：智能体的激励是合作和竞争的混合。与完全合作的设置不同，智能体的奖励不完全相同，也不是完全零和的。这种环境涵盖了团队对抗的游戏和更复杂的情景，例如谈判。

三种技术方法：

（1）从人类交互中学习：使用类似于逆强化学习（IRL）的方法来从人类的交互中学习，以便智能体之间的行为更具有战略性和可选择性。这意味着智能体可能从人类行为中学习某种策略，以便在合作和竞争环境中更好地决策。

例子：考虑一个智能体团队参与谈判的场景，智能体们需要在交易中达成一致。通过观察人类进行谈判的方式和策略，智能体可以学习到如何更好地进行合作、谈判和折衷。比如，智能体可能会从人类的谈判行为中学习到何时采取妥协、何时坚持原则，以及如何根据情境调整策略。

（2）提高交流战略性和可选择性：通过一些方法来提高智能体之间的交流战略性和选择性，使其更能适应不同情况下的合作和竞争需求。这可能包括改进智能体之间信息传递的方式，以便更好地适应不同的战略需求。

例子：在一个团队对抗的游戏中，智能体可以根据情况选择性地与其他智能体进行沟通。这样的场景中，智能体可能学会了何时向队友传递关键信息、何时隐瞒信息或发出误导性信息。智能体可能通过学习来提高信息交流的战略性，以便更好地适应复杂的合作与竞争环境。

（3）让评论家访问全局信息：这种方法允许评论家（一个对智能体行为进行评估的实体）能够访问全局信息，这有助于调整 Actor-Critic 方法。这样可以使智能体更好地理解整体环境，并在合作和竞争中作出更优化的决策。

例子：考虑一个智能体团队在竞技游戏中协作。评论家可以访问全局信息，比如整个游戏场景的状态和其他智能体的行动。评论家可能会评估不同智能体的行动，以便提供更全面的反馈和指导。这种访问全局信息的方法有助于智能体更好地理解整个竞争环境，并做出更明智的决策。

（4）无准备协调：目标是让AI不需要特地训练，也可以和其他的Agent（包括人类协调）。

例子：他人游戏以及离信念学习（Off-Belief Learning）

off-belief learning

（5）环境搭建：Hanabi、Diplomacy和足球游戏、Melting Pot等（都是这个领域的一些经典博弈环境）

四、对齐保证：保证LM在训练之后能符合人类的标准。

（1）安全测评：

①数据集（P42 TABLE3）

数据集一览

专家设计：用于检测毒性的 HateCheck[540]，以及用于检测偏见的 WEAT[538] 和 BBQ[541]

互联网收集：这些数据集的知名实例包括 OLID[544] 和 SOLID[546]，

它们收集原始 Twitter 文本进行毒性评估，WinoBias[543] 和 CrowS- Pairs[545] 从互联网上收集可能包含偏见的内容进行进一步的标注。然而，如 Papernot et al.[542]中也提到的，从互联网收集的数据集自然会带来隐私和安全的风险，因此需要进行额外的标注处理。

人工智能生成：质量较差。

②评估基准：采用交互式的基准构建。

（1）智能体监督：设计一个预定义交互框架，由人类或者更高级的大语言模型来判断对齐效果。（Ex.在instructGPT论文中用GPT4来为两种模型生成的文本进行偏好打分。）

（2）环境交互：多轮交互评估。

a.同行讨论。也就是让其他的LLM来评估是否正确。不过，按照最新论文的结果，让多个LLM来“达成共识”并实现评估的方法是更好的。（来自《PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations》，看完了）

b.构建世界模型。《Emergent world representations: Exploring a sequence model trained on a synthetic task[C/OL]//The Eleventh International Conference on Learning Representations, ICLR 2023, Kigali, Rwanda, May 1-5, 2023. OpenReview.net, 2023》（还没看）

③评估目标：

毒性：是否会输出无用、有害的内容

权力寻求：企图控制人类。

态势感知：会不会远观性太强。

幻觉：产生了非事实的结果，但看起来很像是对的。

其他的一些风险：

a.网络安全与生物武器：大语言模型可能会被误用于进行网络攻击、生产生物武器和其他极度有害的行为。

b.欺骗与操纵：输出文本对人们造成一些不良影响（非缺陷，而是AI的自主行为，所以很危险。）

c.越狱：用户主动跳过开发者给LLM设置的一些紧制。

d.自我保护与增殖：AI自身的复制倾向。（在没有监管的情况下被认为是危险的。）

④红队测试：制造特定语境，诱导其产生不符合预期的输出或者行动，并测试。最先进的模型目前也基本通不过。

goal：(1) 获得对训练系统对齐的保证; (2) 在对抗训练中提供对抗输入的来源

①基于强化学习、优化方法、引导生成或反向生成的上下文构造:训练或调整一个单独的LM，利用RL生成期望的提示词，插入到红队测试中。

②众包测试：招募人类红队成员来进行尝试。

③手动和自动越狱：收集网络上的“越狱”经验（大部分都是非报告的形式）。

④基于扰动的对抗攻击：CV中比较多，通过在图片里更改一点像素点来进行图片的修改。

⑤红队数据集、工业界的红队实践。

（2）可解释性测试：

①事后可解释性（目标是理解神经网络的低级结构和单元及其对宏观行为的因果影响。）

a.通路分析（circuit）。环路指神经网络中可以赋予特定功能的子网络。比如通过通路来分析上下文学习（OLSSON C, ELHAGE N, NANDA N, et al. In-context learning and induction heads[A]. 2022.）

b.归因分析。归因分析是计算某些组件 (包括归纳头、神经元、层和输入) 对神经元响应和模型输出的贡献的技术。=>不能提供因果解释。

一种有潜力的技术：对于Transformer，使用直接logit归因来预测残差流最终状态更有解释性。（论文RAGER C, LAU Y T, DAO J, et al. An adversarial example for direct logit attribution: memory management in gelu-4l[Z]. 2023.）

c.可视化：可视化数据集（尤其降维）、特征、权重、激活、结构，甚至整个神经网络。

d.扰动和笑容：测试推理模型的反事实性。扰动：修改输入观察变化。消融：消除部分神经网络的组件。

e.映射和编辑学习到的表示：Transformer层中的token表示（QKV）、全连接层学习表示；建立线性探针来理解模型是否学习有用信息=>在安全性对齐视角下，这些技术在检测欺骗上十分有效。

②内在可解释性：研究人员使模型本身更容易理解。

a.替换黑盒组件：用SoLU（Softmax线性单元）替换激活函数（ReLU）。

b.机制可解释性的内在可解释性研究。（挺好的逻辑链：对齐中模型危险能力显现->黑盒难以保证安全->为了提高解释性设计了模块化结构->这种结构相当于事后设置模块，但事后研究了内在，所以也算作内在可解释性。）

如果从模型中找到了更大的结构，就可以节省解释每个小结构的时间和努力。

最近获得进展的是：普遍性假设。它通过找到一些神经网络中的结构和网络之间重复的部分来实现。Ex.从视觉模型中找到了Gabor滤波器等结构，而这些结构居然在人脑中也有。

③展望：

1.设计好的基准性测试。

2.分析神经元群体。（因为叠加，也就是模型的特征数量超过维度，这使得单个神经元的可解释性难以实现。）

3.技术和分析进行扩展。例如表示工程等。

（3）人类价值契合性验证：

人类价值观的对齐是指本文期望人工智能系统应遵循社区的社会和道德规范。

①构成：

a.形式化机器伦理，建立符合伦理的AI系统。

1.基于逻辑的方法。Agent-Deed-Consequence（ADC）模型，义务逻辑等。

2.RL和MDP类的环境。关注统计RL或其他，用于在MDP（马尔科夫决策）类似环境中规划。Ex.手动设计面向伦理的奖励函数（伦理塑造），或者是从奖励函数中分理处伦理决策。

3.基于博弈论的方法。基于博弈论和计算社会选择的机器伦理学方法。现有工作分类：进化博弈论（EGT），经典博弈论&社会计算选择。

b.合作人工智能的博弈。分为经典博弈论（将经典博弈论作为合作人工智能的环境）和进化博弈论（从进化中产生人类合作。）。

②评估方法：

a.道德数据集。

原文提到的数据集及引入原因

b.场景模拟。

Ex：

1.通过RPG构建一系列场景，包含欺骗，操纵，背叛等。

2.模拟人机交互使得只能代理学习人类价值。

3.人机双向价值对齐。

4.让AI置于模拟的人类社会沙盒。

c.评估方法。

1.从不同文化环境下收集人类价值观数据以评估->LLM存在价值偏见，但倾向于反应中性价值观的行动（例如亲社会）。

2.DCG（判别器-评价器差异法），衡量模型产生回应、判断回应质量并提供批评的指标。

3.VUM：利用DCG来量化LLM对人类价值观的理解。

AI对齐综述记录笔记

推荐阅读更多精彩内容