Anthropic推出Claude语言大模型https://www.anthropic.com/index/introducing-claude
Anthropic分析|大语言模型Claude是ChatGPT最大竞争对手 https://hub.baai.ac.cn/view/24880
https://arxiv.org/search/?query=+Yuntao+Bai&searchtype=all&source=header
大型语言模型中的道德自我修正能力
The Capacity for Moral Self-Correction in Large Language Models
Feb 2023
Deep Ganguli, Amanda Askell, Nicholas Schiefer, Thomas I. Liao, Kamilė Lukošiūtė
[Anthropic]
https://arxiv.org/abs/2302.07459
我们检验了这样一个假设,即通过从人类反馈中强化学习(RLHF)训练的语言模型有能力“道德自我纠正”,以避免产生有害的输出。我们在三个不同的实验中发现了支持这一假设的有力证据,每个实验都揭示了道德自我纠正的不同方面。我们发现,道德自我纠正的能力在22B模型参数时出现,并且通常随着模型大小和RLHF训练的增加而提高。我们认为,在这个水平上,语言模型获得了两种能力,可以用来进行道德自我纠正:(1)他们可以遵循指示;(2)他们可以学习复杂的伤害规范概念,如刻板印象、偏见和歧视。因此,他们可以按照指示来避免某些对道德有害的输出。我们相信,我们的研究结果让我们对训练语言模型遵守道德原则的能力持谨慎乐观的态度。
We test the hypothesis that language models trained with reinforcement learning from human feedback (RLHF) have the capability to "morally self-correct" -- to avoid producing harmful outputs -- if instructed to do so. We find strong evidence in support of this hypothesis across three different experiments, each of which reveal different facets of moral self-correction. We find that the capability for moral self-correction emerges at 22B model parameters, and typically improves with increasing model size and RLHF training. We believe that at this level of scale, language models obtain two capabilities that they can use for moral self-correction: (1) they can follow instructions and (2) they can learn complex normative concepts of harm like stereotyping, bias, and discrimination. As such, they can follow instructions to avoid certain kinds of morally harmful outputs. We believe our results are cause for cautious optimism regarding the ability to train language models to abide by ethical principles.
通过模型写的评估来发现语言模型行为
Discovering Language Model Behaviors with Model-Written Evaluations
Dec 2022
Ethan Perez, Sam Ringer等人
[Anthropic, Surge AI, Machine Intelligence Research Institute]
https://arxiv.org/abs/2212.09251
随着语言模型的扩展,它们发展出许多新颖的行为,无论是好的还是坏的,这加剧了评估它们行为方式的必要性。先前的工作使用众包工作(耗时且昂贵)或现有数据源(并不总是可用的)创建评估。在这里,我们使用LM自动生成评估。我们探索了各种人工努力的方法,从指导LM编写是/否问题到通过多个阶段的基于LM的生成和过滤来制作复杂的Winogender模式。群组工作者认为这些例子具有高度相关性,并同意90-100%的标签,有时比相应的人工书写数据集更符合。我们生成了154个数据集,并发现了逆缩放的新情况,其中LMs随着大小的增加而变得更糟。较大的LM重复对话用户的首选答案(“阿谀奉承”),并表达更大的追求资源获取和目标保存等相关目标的愿望。我们还发现了来自人类反馈(RLHF)的RL中逆缩放的一些第一个例子,其中更多的RLHF使LM更糟。例如,RLHF使LMs表达更强烈的政治观点(关于枪支权利和移民),并更强烈地希望避免关闭。总的来说,LM写的评估是高质量的,让我们能够快速发现许多新颖的LM行为。
Constitutional AI:AI反馈的无害性
Constitutional AI: Harmlessness from AI Feedback
Dec 2022
Yuntao Bai, Jared Kaplan等人
https://arxiv.org/abs/2212.08073
[Anthropic]
随着人工智能系统的能力越来越强,我们希望寻求他们的帮助来监督其他人工智能。我们试验了通过自我完善训练无害人工智能助手的方法,而不需要任何人类标签来识别有害的输出。唯一的人为监督是通过一系列规则或原则提供的,因此我们将这种方法称为“Constitutional AI”。这个过程包括监督学习和强化学习两个阶段。在监督阶段,我们从初始模型中进行采样,然后生成自我批评和修正,然后根据修正后的响应对原始模型进行微调。在RL阶段,我们从微调模型中进行采样,使用模型来评估两个样本中哪一个更好,然后从人工智能偏好的数据集中训练偏好模型。然后,我们使用偏好模型作为奖励信号进行RL训练,即使用“来自AI反馈的RL”(RLAIF)。因此,我们能够训练一个无害但不回避的人工智能助手,通过解释其对有害查询的反对意见来处理有害查询。SL和RL方法都可以利用思维链式推理来提高人工智能决策的人工判断性能和透明度。这些方法可以更精确地控制人工智能行为,并且使用更少的人类标签。
As AI systems become more capable, we would like to enlist their help to supervise other AIs. We experiment with methods for training a harmless AI assistant through self-improvement, without any human labels identifying harmful outputs. The only human oversight is provided through a list of rules or principles, and so we refer to the method as 'Constitutional AI'. The process involves both a supervised learning and a reinforcement learning phase. In the supervised phase we sample from an initial model, then generate self-critiques and revisions, and then finetune the original model on revised responses. In the RL phase, we sample from the finetuned model, use a model to evaluate which of the two samples is better, and then train a preference model from this dataset of AI preferences. We then train with RL using the preference model as the reward signal, i.e. we use 'RL from AI Feedback' (RLAIF). As a result we are able to train a harmless but non-evasive AI assistant that engages with harmful queries by explaining its objections to them. Both the SL and RL methods can leverage chain-of-thought style reasoning to improve the human-judged performance and transparency of AI decision making. These methods make it possible to control AI behavior more precisely and with far fewer human labels.
衡量大型语言模型可扩展监督的进展
Measuring Progress on Scalable Oversight for Large Language Models
Nov 2022
Samuel R. Bowman, Jeeyoon Hyun等人
https://arxiv.org/abs/2211.03540
[Anthropic, Surge AI, Independent Researcher]
开发安全实用的通用人工智能系统需要我们在可扩展的监督方面取得进展:监督系统的问题可能在与手头任务相关的大多数技能上优于我们。关于这个问题的实证工作并不简单,因为我们还没有广泛超出我们能力的系统。本文讨论了我们思考这个问题的主要方式之一,重点是实证研究的方法。我们首先提出了一个实验设计,该设计以人类专家成功但无辅助的人类和当前通用人工智能系统失败的任务为中心。然后,我们提出了一个概念验证实验,旨在展示该实验设计的一个关键特征,并通过两个问答任务展示其可行性:MMLU和限时QuALITY。在这些任务中,我们发现,通过聊天与不可靠的大型语言模型对话助手交互的人类参与者——这是一种可扩展监督的琐碎基线策略——无论是单独的模型还是他们自己的独立性能,都大大优于模型。这些结果是一个令人鼓舞的迹象,表明可扩展的监督将能够用现有的模型进行研究,并支持最近的发现,即大型语言模型可以有效地帮助人类完成困难的任务。
In-context Learning and Induction Heads
Catherine Olsson, Nelson Elhage等人
https://arxiv.org/abs/2209.11895
“Induction heads”是实现简单算法以补全序列[A][B] ... [A] -> [B]的注意力头。在这项工作中,我们为一种假设提供了初步和间接的证据,即Induction heads可能构成了大型Tranformer模型中大多数“上下文学习”的机制(即在增加代币指数的情况下减少损失)。我们发现,Induction heads的发展与上下文学习能力的突然急剧提高完全相同,这可以看作是训练损失的增加。我们提出了六条互补的证据,认为感应头可能是任何规模的Tranformer模型中一般上下文学习的机制来源。对于仅关注的小模型,我们提出了强有力的因果证据;对于具有MLP的较大模型,我们提供了相关证据。
"Induction heads" are attention heads that implement a simple algorithm to complete token sequences like [A][B] ... [A] -> [B]. In this work, we present preliminary and indirect evidence for a hypothesis that induction heads might constitute the mechanism for the majority of all "in-context learning" in large transformer models (i.e. decreasing loss at increasing token indices). We find that induction heads develop at precisely the same point as a sudden sharp increase in in-context learning ability, visible as a bump in the training loss. We present six complementary lines of evidence, arguing that induction heads may be the mechanistic source of general in-context learning in transformer models of any size. For small attention-only models, we present strong, causal evidence; for larger models with MLPs, we present correlational evidence.
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned
https://arxiv.org/abs/2209.07858
我们描述了我们早期对红队语言模型的努力,以便同时发现、测量和尝试减少其潜在的有害输出。我们做出了三个主要贡献。首先,我们研究了3种模型大小(2.7B、13B和52B参数)和4种模型类型的红色团队的缩放行为:纯语言模型(LM);LM被提示为乐于助人、诚实和无害;具有拒绝采样的LM;以及使用来自人类反馈的强化学习(RLHF)训练为有益和无害的模型。我们发现,RLHF模型随着规模的扩大越来越难以红队,我们发现其他模型类型的规模趋势趋于平缓。其次,我们发布了38961次红队攻击的数据集,供其他人分析和学习。我们对数据进行了自己的分析,发现了各种有害的输出,从攻击性语言到更微妙的有害非暴力不道德输出。第三,我们详尽地描述了我们的指令、流程、统计方法和关于红队的不确定性。我们希望这种透明度能加速我们作为一个社区共同努力的能力,以便为如何红队语言模型制定共同的规范、实践和技术标准。
Language Models (Mostly) Know What They Know
https://arxiv.org/abs/2207.05221
我们研究语言模型是否能够评估他们自己主张的有效性,并预测他们能够正确回答哪些问题。我们首先表明,当以正确的格式提供时,更大的模型在不同的多选和真/假问题上得到了很好的校准。因此,我们可以通过要求模型首先提出答案,然后评估他们的答案正确的概率“P(True)”来对开放式抽样任务进行自我评估。我们发现,在各种任务中,P(True)的性能、校准和缩放都令人鼓舞。当我们允许模型在预测一种特定可能性的有效性之前考虑许多自己的样本时,自我评估的表现会进一步提高。接下来,我们研究模型是否可以被训练来预测“P(IK)”,即“我知道”问题答案的概率,而不参考任何特定的建议答案。模型在预测P(IK)方面表现良好,并在任务中部分泛化,尽管它们在新任务中难以校准P(IK)。预测的P(IK)概率也在上下文中存在相关源材料的情况下以及在数学单词问题的解决提示的情况下适当增加。我们希望这些观察结果为训练更诚实的模型奠定基础,并调查诚实如何推广到模型训练的目标而不是模仿人类写作的情况。
Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models
https://arxiv.org/abs/2206.04615
随着规模的不断扩大,语言模型展示了数量上的改进和新的质量能力。尽管这些新能力具有潜在的变革性影响,但它们的特点还很差。为了为未来的研究提供信息,为破坏性的新模型能力做好准备,并改善对社会有害的影响,我们必须了解语言模型目前和不久的将来的能力和局限性。为了应对这一挑战,我们引入了超越模仿游戏基准(大板凳)。BIG工作台目前包括204项任务,由132个机构的442位作者贡献。任务主题多种多样,涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等方面的问题。BIG bench专注于被认为超出当前语言模型能力的任务。我们评估了OpenAI的GPT模型、谷歌内部密集变压器架构和BIG平台上Switch风格稀疏变压器的行为,模型大小涵盖数百万到数千亿个参数。此外,一个由人类专家评分员组成的团队执行了所有任务,以提供一个强有力的基线。研究结果包括:模型性能和校准都随着规模的增加而提高,但在绝对值上较差(与评分者性能相比);模型类之间的性能非常相似,尽管有稀疏性的好处;逐步改进并可预测的任务通常涉及大量的知识或记忆成分,而在关键尺度上表现出“突破性”行为的任务往往涉及多个步骤或成分,或脆弱的指标;在上下文不明确的环境中,社会偏见通常会随着规模的增加而增加,但这可以通过提示来改善。
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
https://arxiv.org/abs/2204.05862
https://github.com/anthropics/hh-rlhf ★★★★★
我们应用偏好建模和来自人类反馈的强化学习(RLHF)来微调语言模型,以充当有用和无害的助手。我们发现,这种对齐训练可以提高几乎所有NLP评估的性能,并且与python编码和摘要等专业技能的训练完全兼容。我们探索了一种迭代的在线培训模式,其中偏好模型和RL策略每周用新的人类反馈数据进行更新,从而有效地改进了我们的数据集和模型。最后,我们研究了RLHF训练的鲁棒性,并确定了RL奖励和策略及其初始化之间KL偏差的平方根之间的大致线性关系。除了我们的主要结果外,我们还对校准、竞争目标和OOD检测的使用进行了外围分析,将我们的模型与人类作者进行了比较,并使用最近相关工作中出现的提示提供了我们模型的样本。