幻觉的类型:
- 事实性幻觉:事实错误;
- 忠实性幻觉:大模型的回答与用户的Query有偏离。
幻觉的原因:
数据漏洞:
- 训练数据可能有毒性,训练数据来源互联网,可能是垃圾数据;
- 训练和推理数据分布不一致,导致在推理时产生误差
架构缺陷:
架构上的缺陷会影响训练和推理:
- 自回归架构缺陷-每次只基于上个窗口中的单词进行预测,可能会漏掉关键的上下文信息;如果上个窗口有错误,会影响到后面的预测。
- 自注意力模块:token增加时,只能保持对某些token的注意力,可能会导致信息丢失;
- softmax 瓶颈:softmax只基于最后一个隐藏层进行输出,如果这一层的维度限制导致信息不够,会导致最终结果无法表示复杂特征,即使增加网络深度也没用。
- 自身的随机性:无论训练还是推理,生成答案时本身就有随机性,大模型是按照概率选取可能的生成内容;
训练:
训练:对齐阶段不充分/有偏好引导
- 对齐阶段时没有对提问相关的能力做针对性的提升;
- 对齐阶段有偏好引导,使得大模型的回答更符合部分人的偏好 (Social Biases);
参考:
A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
https://arxiv.org/abs/2311.05232?spm=ata.21736010.0.0.223d7536BYLdEI&file=2311.05232