大语言模型参数调优：temperature 参数的含义

笔者在实际工作中使用 LLM 构建一些应用，在这个过程中接触了一些对大语言模型的参数进行调优的工作。
这些参数其中之一就是 temperature.

本文记录笔者在刚接触这个参数时的一些学习笔记。

在生成式语言模型中，Temperature 参数控制了模型生成文本时的多样性和随机性。简单来说，Temperature 参数决定了模型在生成下一个单词时，选择概率的分布是否平滑或者更加尖锐。

这个参数本质上是一个对模型概率分布的重新缩放因子，用来调整输出的熵值，进而影响输出的随机程度。

Temperature 越低，模型的输出越确定，生成的文本更加保守和可预测。反之，较高的 Temperature 会使输出更加随机、多样化，但可能导致文本质量下降。

数学表达与公式

假设模型在生成下一个单词时，对各个可能单词（token）分配了不同的概率，这些概率由 softmax 函数计算得出：

$P(t_i) = \frac{e^{z_i}}{\sum_{j} e^{z_j}}$

其中 $z_i$ 是第 i 个单词的得分（logits）。

Temperature 参数 ( T ) 调整的是这些概率的分布，它会将每个 logit 除以 Temperature，使得调整后的 logits 变成 ( \frac{z_i}{T} )。然后用这些新的 logits 重新通过 softmax 函数计算概率：
$P'(t_i) = \frac{e^{z_i / T}}{\sum_{j} e^{z_j / T}} \$
当 ( T = 1 ) 时，概率分布与未调整时相同；当 ( T < 1 ) 时，造成分布趋于尖锐（更确定）；当 ( T > 1 ) 时，分布趋于平滑（更随机）。

调整方法与应用实例

设想一个应用场景，我们想用 GPT-3 生成一段关于天气的文本。如果我们设定 Temperature 为 0.5，这意味模型将更加坚定地选择最有可能的单词。这可能会生成如下文本：

今天的天气非常晴朗，阳光明媚，温度适中，适合外出散步。

这种设置下，模型更倾向于保守生成，结果文本易读且逻辑清晰，但缺乏多样性。

反之，如果我们设定 Temperature 为 1.5，输出可能会如下：

今天的天气比较奇特，云彩像是天空的舞者，而阳光穿透其中，产生神秘的影子游戏。

这样的设置下，模型会生成更多样化和富有创造性的文本，但也可能会出现不够连贯或不合逻辑之处。

实际应用中的深度调试

在实际应用中，调节 Temperature 参数需要考虑具体需求。对于高精度应用如新闻报道生成，较低的 Temperature 是合适的；但在创意写作或者艺术领域，较高的 Temperature 能带来丰富的想象空间。

新闻生成：在自动生成新闻报道时，通常希望内容尽可能严谨和确切，因此适宜设定较低的 Temperature，例如 0.7 或更低。这种设定下，模型会选择高概率的词，生成的内容更符合实际报道要求。
对话生成：在聊天机器人应用中，中等的 Temperature 值（例如 1.0 左右）可能更适合，这样既保证了对话的连贯性，又能适当引入一些变化，使对话更生动和有趣。
诗歌创作：如果目标是生成诗歌或歌词等创意内容，较高的 Temperature（例如 1.2 到 1.5）可以使输出更富有创意和不确定性。这种情况下，允许模型进行更多尝试，从而创造出出乎意料且富有想象力的句子。

高级调优策略

在实际应用中，设定和调优 Temperature 参数并非孤立任务，往往需要结合其他生成参数，如 top-k 采样和 top-p（nucleus）采样。

top-k 采样：限制只从前 k 个最有可能的单词中进行选择。例如，设置 ( k=10 ) 表示只从模型预测概率最高的前 10 个单词中选择。
top-p 采样：限制选择单词的集合，使其累计概率达到某个阈值 ( p )，例如 ( p=0.9 )。

在结合 Temperature 参数时，通常会先设定 top-k 或 top-p 采样，然后微调 Temperature 达到最佳效果。例如，在使用较低的 top-k 或适中的 top-p 时，可以尝试稍高的 Temperature 来引入多样性。

实际案例分析

假设我们有一个项目，需要生成科技新闻。我们可以采用如下步骤进行参数调优：

初始设置：选择 top-k=50 和 Temperature=1.0 进行生成，得到初步文本。
评估结果：发现生成的文本过于平常，缺乏新意。
调整参数：将 Temperature 增加到 1.2，重新生成文本。
再评估：此时文本明显更加丰富和有趣，但部分内容偏离事实。
结合 top-p：将 top-p 设定为 0.9，然后将 Temperature 调为 1.1，生成结果。

通过上述步骤，调整后的模型能够在确保文本逻辑和准确性的同时，生成更具吸引力的内容。

结论与总结

GPT 模型的 Temperature 参数是控制生成文本多样性和随机性的关键因素。在实际应用中，通过合理调整 Temperature，我们能够在文本的保守性和创造性之间取得平衡，从而满足不同应用场景的需求。了解并正确运用这个参数，不仅能够提升模型的性能，还能大幅增加生成内容的质量和适用性。

这个过程的核心在于不断评估和微调，结合其他生成参数实现最佳效果。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,809评论 6赞 513
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,189评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 167,290评论 0赞 359
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,399评论 1赞 294
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,425评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,116评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,710评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,629评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,155评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,261评论 3赞 339
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,399评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,068评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,758评论 3赞 332
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,252评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,381评论 1赞 271
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,747评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,402评论 2赞 358