Toolformer学习

Toolformer是meta ai在23年2月发表的论文，主要提出了一种新方法，可以教导大语言模型通过调用api来使用扩展工具。

这个方法首先通过自监督的方法构建了一个包含扩展工具调用的语料库，再结合扩展预料库和原始语料库没通过fine-tune的方式训练语言模型。

数据集构建

在论文中每个api调用由一个数组表示， $c=(a_c,i_c)$ , $a_c$ 表示调用的api名称， $i_c$ 表示调用api所对应的输入。r表示api调用c的返回结果。
$e(c) = <API>a_c(i_c)</API> \\ e(c, r) = <API>a_c(i_c) \rightarrow r_i</API>$
其中<API>、</API>、→都是特殊的token，在实际使用中使用[代替<API>,]代替</API>，->代替→。文章中为了便于阅读，不进行这种替换。

接下来将未经调整的文本数据集 $C=\{x^1,...,x^{|C|}\}$ 转换为带有api调用注释的数据集 $C$ ,转换流程如下图所示。接下来会详细介绍下每个步骤。

API采样

对于每个api，都会写下提示词和示例 $P(x)$ ，将这部分内容结合原始文本作为上下文输入语言模型，让模型基于此预测每个字符后面生成[的概率。

下面是调用QA系统api的示例，最后一个Input后面的 $x=x_1,x_2,...,x_n$ 表示原始文本输入。

Your task is to add calls to a Question Answering API to a piece of text. The questions should help you get
information required to complete the text. You can call the API by writing "[QA(question)]" where "question" is the question you want to ask. Here are some examples of API
calls:
Input: Joe Biden was born in Scranton, Pennsylvania.

Output: Joe Biden was born in [QA("Where was Joe
Biden born?")] Scranton, [QA("In which state is
Scranton?")] Pennsylvania.

Input: Coca-Cola, or Coke, is a carbonated soft drink manufactured by the Coca-Cola Company.

Output: Coca-Cola, or [QA("What other name is Coca-Cola known by?")] Coke, is a carbonated soft drink
manufactured by [QA("Who manufactures Coca-Cola?")]the Coca-Cola Company.

Input: x

Output:

生成时从Output后面开始生成，每次添加x中的一个字符，获取语言模型预测下一个字符为[的概率，将x中每一个字符后面接[的概率记录下来，保留其中大于阈值 $\tau_s$ 的位置，如果大于k个，则只保留k个候选位置。
$p_i = p_M(<API> | P(x), x_{1:i−1})$
得到所有候选位置后，从每一个候选位置开始调用语言模型，即将序列P(x), x1, . . . , xi−1,[ 作为模型输入前缀，直到模型生成]作为终止。

注意：移除所有不生成]的示例。

API执行

将上面所有生成的形如[QA("Where was Joe Biden born?")]这类api调用进行执行，得到相应的调用返回结果 $r_i$ 。

API过滤

将执行过api调用的例子生成如下三种形式的序列：

包含返回结果。注意因为语言模型还未经过微调，此时将 $c_i,r_i$ 插入原文中会因为没有和模型训练预料对齐导致文本连续性中断，所以选择直接使用 $e(c,r)$ 序列。
不包含返回结果。注意因为语言模型还未经过微调，此时将 $c_i,\epsilon$ 插入原文中会因为没有和模型训练预料对齐导致文本连续性中断，所以选择直接使用 $e(c,\epsilon)$ 序列。 $\epsilon$ 表示空序列
不包含接口调用。即原始序列 $[x_1:x_i]$ 。