深圳Yolo 视觉
深圳
立即加入
词汇表

幻觉(在 LLM 中)

了解大型语言模型 (LLM) 中产生幻觉的原因,并探索有效策略来减少 AI 生成内容中的不准确之处。

在以下方面 大型语言模型(LLMs)在大型语言模型(LLMs)中,当生成模型生成的内容自信且句法流畅,但却与源材料事实不符、无意义或不真实时,就会产生幻觉。 在大型语言模型(LLM)中,当生成模型生成的内容自信且句法流畅,但与事实不符、无意义或不忠于源材料时,就会出现幻觉。与标准的数据库检索错误不同、 生成式人工智能中的幻觉 生成式人工智能是 与标准的数据库检索错误不同,生成式人工智能中的detect 往往听起来似是而非,因此用户很难在没有独立验证的情况下detect 它们。这种现象 源于这些模型的基本设计,它们优先考虑的是 文本生成基于 统计概率生成文本,而不是进行真相验证。理解幻觉对于部署安全的人工智能 系统至关重要,尤其是在医疗保健、金融和法律服务等高风险行业。

法学硕士为何会产生幻觉

产生幻觉的主要原因在于 Transformer架构和 用于建立基础模型的训练目标。这些系统的训练目的是预测下一个 标记预测序列中的下一个标记。 从大量 训练数据.它们并不具备 "事实 "或 "虚构 "的固有概念;相反,它们模拟的是 词出现在一起的可能性。

造成这种行为的因素有几个:

  • 数据限制:如果训练语料包含冲突、过时或不正确的信息、 模型可能会重现这些错误。在有关 随机鹦鹉的研究中经常讨论这个问题。
  • 压缩人工制品:LLM 将互联网知识压缩成一组固定的参数。 在压缩过程中,细微差别可能会丢失,导致不同概念的混淆。
  • 推理模糊:当模型面临其知识分布之外的提示时,它可能会默认生成统计上最可能的反应,而不是承认无知。 产生统计上最可能的反应,而不是承认无知,这种行为通常被称为 "混淆"。 "混淆"。

幻觉的实际示例

幻觉的表现形式多种多样,既有细微的不准确,也有完全的捏造:

  • 编造法律案件:在一起广为人知的事件中,一名法律专业人员利用法学硕士学位进行案例研究。 进行案例研究。该模型生成了一份法律简报,引用了几个 不存在的法庭案例 编造了引文和司法意见,导致了制裁。
  • 编码库发明: 使用人工智能编码助手的开发人员有时会遇到这样的情况 实际上并不存在的软件库或应用程序接口方法。模型会幻化出一个似是而非的函数名 例如 ultralytics.detect_everything())是基于它在训练数据中看到的标准命名规则。 的标准命名规则,即使该特定函数从未被执行过。

缓解策略

减少幻觉是 人工智能安全研究的重点。目前有几种技术 目前采用了几种技术,使模型与现实接轨:

  • 检索-增强生成(RAG):这种方法将 LLM 连接到一个可信的外部知识库,例如一个知识库。 知识库,如 矢量数据库.该模型在生成答案之前会检索相关文档,而不是完全依赖内部存储器。 您可以阅读更多关于 RAG 如何提高准确性 在企业应用中提高准确性的更多信息。
  • 即时工程:技术,如 思维链提示 鼓励模型逐步解释其推理,这已被证明可以减少逻辑错误并提高 事实一致性。
  • 从人类反馈中强化学习 (RLHF):开发人员使用 从人类反馈中强化学习(RLHF) 在微调阶段对模型的幻觉进行惩罚,使其输出与人类对真实性的偏好相一致。 对真实性的偏好。
  • 多模式接地:在视觉语言任务中,通过将文本输出与来自视觉语言系统的结构化数据进行验证,可以减少幻觉的产生。 输出与来自 计算机视觉(CV)模型的结构化数据进行验证,从而减少幻觉。

利用计算机视觉为法律硕士奠定基础

在多模态工作流程中减少幻觉的有效方法之一是使用高精度的 物体检测模型来验证 图像的物理内容。通过向 LLM 的上下文输入经过验证的对象列表 上下文,就能防止它编造出不存在的元素。

下面的示例演示了如何使用 Ultralytics YOLO11生成一个 对象的真实列表,然后将其作为生成模型的事实约束。

from ultralytics import YOLO

# Load the official YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image to get factual data
results = model("https://ultralytics.com/images/bus.jpg")

# Extract the class names of detected objects to ground the LLM
detected_objects = [model.names[int(c)] for c in results[0].boxes.cls]

# This list prevents the LLM from hallucinating objects not present
print(f"Verified Objects: {detected_objects}")
# Output: Verified Objects: ['bus', 'person', 'person', 'person', 'person']

幻觉与其他术语

必须将幻觉与其他类型的人工智能错误区分开来:

  • 与偏见: 人工智能中的偏见是指输出结果中的系统性 偏见(如刻板印象),而幻觉指的是事实不正确。一个语句可以 无偏见但有幻觉,或符合事实但有偏见。
  • 与准确度误差:在分类任务中,错误的预测(比如把狗标成猫)是准确率错误,而不是幻觉。 是准确性错误,而不是幻觉。幻觉是特定于 生成新内容的生成过程。 内容的生成过程。
  • 与过度拟合过度拟合是指对训练数据的记忆 训练数据,而幻觉通常发生在模型试图泛化其训练数据之外的数据而失败时。 训练数据而失败时,就会出现幻觉。

有关评估生成模型的更多信息,请访问 NIST 人工智能风险管理框架 全面了解可靠性和安全性标准。此外,研究人员还在继续开发 事实检查算法 实时detect 和标记幻觉内容。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入