10.1 基于数据逇工作-构建高质量数据集
为了减少大模型生成内容时的幻觉问题,首先需要关注数据的质量。数据质量直接影响模型的生效效果,因此在训练和评估数据上进行改进,能够有效降低模型产生幻觉的风险。
10.1.1 人工标注
- 训练数据
-对于大模型(LLM)训练,使用人工标注的训练数据并不总是可行,尤其是当模型需要适应多样化任务时。不过,对于特定任务产生的幻觉问题,人工标注的数据仍然可用。通过人工标注,可以构建高质量的、适用于某些特定任务的数据集。 - 评测数据
- 为了分析模型的幻觉问题,可以构建一个细粒度的幻觉评估基准集,使模型生成内容后能通过这一准集的测试,帮助分析模型的幻觉严重程度及其产生的原因。
10.1.2 自动筛选
- 筛选不良数据
- 利用模型筛选出那些可能导致幻觉的数据,并将这些数据删除。
- 数据加权
- 在预训练时,可以给可靠度更高的数据(如维基百科的数据)赋予更高的权重,而对于不可靠的数据则不使用或降低权重。
10.2 基于数据逇工作-构建高质量数据集
10.2.1 模型结构
模型结构方面的改进主要关注在设计能够更好地利用来源信息的结构。
- 编码更多信息:尝试融入能反映人类思维偏好的结构,例如图神经网络(GNN),使得模型在生成时可以更好地参考和利用原始信息源。
- 减少生成随机性:在解码时减少模型生成内容的随机性。因为生成的多样性(diversity)和准确性(faitfulness)常常是一个相互影响的关系。通过降低多样性,模型更可能生成准确、基于事实的回答。
- 检索增强:引入外部检索系统,通过让模型能访问外部可靠数据来源,显著降低幻觉现象。
10.2.2 训练方式
在训练方法上,有几种策略可以解决幻觉问题:
- 可控文本生成:将幻觉控制设为一个可控属性,让模型在生成时更少产生幻觉。
- 提前规划内容框架:采用草图到内容的方法,先规划一个大致的框架在生成具体内容,有助于结构化信息和减少偏差。
- 强化学习:通常模型使用最大似然估计(MLE)来优化训练目标,这可能会暴露偏差。通过引入强化学习,将减少幻觉的目标作为奖励函数,调整模型生成过程。
- 多任务学习:通过设计额外的任务,使模型在执行多项任务时能提升应对幻觉的能力。
- 后处理:设计一个专门的小模型用于后处理,识别并修正模型输出中的幻觉错误。
这种从模型结构到训练当时的优化方法,有助于提升LLM生成内筒的准确性与可靠性,缓解幻觉现象。