大模型出现幻觉的原因

幻觉的类型:

  1. 事实性幻觉:事实错误;
  2. 忠实性幻觉:大模型的回答与用户的Query有偏离。

幻觉的原因:

数据漏洞:

  1. 训练数据可能有毒性,训练数据来源互联网,可能是垃圾数据;
  2. 训练和推理数据分布不一致,导致在推理时产生误差

架构缺陷:

架构上的缺陷会影响训练和推理:

  • 自回归架构缺陷-每次只基于上个窗口中的单词进行预测,可能会漏掉关键的上下文信息;如果上个窗口有错误,会影响到后面的预测。
  • 自注意力模块:token增加时,只能保持对某些token的注意力,可能会导致信息丢失;
  • softmax 瓶颈:softmax只基于最后一个隐藏层进行输出,如果这一层的维度限制导致信息不够,会导致最终结果无法表示复杂特征,即使增加网络深度也没用。
  • 自身的随机性:无论训练还是推理,生成答案时本身就有随机性,大模型是按照概率选取可能的生成内容;

训练:

训练:对齐阶段不充分/有偏好引导

  • 对齐阶段时没有对提问相关的能力做针对性的提升;
  • 对齐阶段有偏好引导,使得大模型的回答更符合部分人的偏好 (Social Biases);

参考:
A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions

https://arxiv.org/abs/2311.05232?spm=ata.21736010.0.0.223d7536BYLdEI&file=2311.05232

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容