幻觉(在 LLM 中)
了解大型语言模型 (LLM) 中产生幻觉的原因,并探索有效策略来减少 AI 生成内容中的不准确之处。
在大型语言模型 (LLM) 的背景下,幻觉是指模型生成的文本自信且听起来合理,但实际上不正确、毫无意义或没有根据提供的源数据的情况。这些模型专为高级文本生成而设计,有时会捏造事实、来源或细节,并将其呈现为真实情况。发生这种情况是因为LLM的主要目标是预测序列中的下一个单词以形成连贯的句子,而不是验证其生成的信息的真实性。理解和减轻幻觉是使生成式人工智能更可靠的核心挑战。
为什么大型语言模型会出现幻觉?
幻觉并非有意欺骗,而是 LLM 的构建和训练方式的副产品。主要原因包括:
- 训练数据缺陷: 像 GPT-3 和 GPT-4 这样的模型从互联网上大量的文本中学习,这些文本不可避免地包含错误、过时的信息和 算法偏差。模型从其训练数据中学习这些模式,而没有对真理的内在理解。
- 架构设计(Architectural Design): 底层的Transformer架构针对模式匹配和语言建模进行了优化,而不是针对事实回忆或逻辑推理。这可能导致一些研究人员所说的“随机鹦鹉”,即可以模仿语言而无法理解其含义的实体。
- 推理时模糊性: 在生成过程中,如果模型不确定下一个最佳token,它可能会用看似合理但捏造的信息“填补空白”。 调整温度等推理参数有时可以减少这种情况,但它仍然是一个核心挑战。 有关技术概述,请参阅 arXiv 上的这篇关于 LLM 幻觉的调查。
幻觉的实际示例
- 法律研究: 一位律师使用AI助手进行案例研究,要求它查找法律先例。聊天机器人引用了几个完全捏造的法庭案件,包括案件名称和法律分析,这些案件看似合理但并不存在。这一真实事件凸显了在高风险领域部署LLM而不进行可靠的事实核查所存在的严重风险。
- 产品推荐:用户向聊天机器人询问“带有内置太阳能电池板的最佳登山背包”。LLM 可能会自信地推荐一个特定型号,详细描述其功能,即使该特定产品或功能组合不存在。该模型结合了其训练数据中的概念,以创建一个看似合理但虚构的产品。
如何减少幻觉
研究人员和开发人员正在积极研究几种缓解策略:
幻觉与其他 AI 错误