Alucinación (en LLM)
Explora las causas y los riesgos de las alucinaciones de IA en los modelos de lenguaje grande (LLM). Aprende a mitigar los errores fácticos utilizando RAG, RLHF y el método de fundamentación con Ultralytics .
En el ámbito de la inteligencia artificial (IA), una alucinación se refiere a un fenómeno en el que un
gran modelo de lenguaje (LLM) genera
contenido que es seguro y sintácticamente correcto, pero inexacto en cuanto a los hechos, sin sentido o infiel a la fuente de
entrada. A diferencia de los errores de software estándar que pueden provocar un bloqueo o un fallo visible, un modelo alucinante se comporta
como un fabricante convincente, presentando información falsa con la misma autoridad que los hechos válidos. Esto plantea
importantes retos para las organizaciones que implementan
IA generativa en campos sensibles como la sanidad,
el derecho y las finanzas, donde la integridad de los datos es primordial.
¿Por qué se producen las alucinaciones?
Para entender por qué los modelos tienen alucinaciones, es útil fijarse en cómo están construidos. Los LLM se basan normalmente en la
arquitectura Transformer, que funciona como un
sofisticado motor de predicción. En lugar de consultar una base de datos estructurada de hechos verificados, el modelo predice el
siguiente token de una secuencia basándose en probabilidades estadísticas
derivadas de sus datos de entrenamiento.
Hay varios factores que impulsan este comportamiento:
-
Conjetura probabilística: El modelo prioriza la fluidez y la coherencia sobre la verdad factual. Si una
secuencia específica de palabras es estadísticamente probable, aunque sea factual incorrecta, el modelo puede generarla. Este concepto
se discute a menudo en la investigación sobre
los loros estocásticos, en la que los modelos imitan los patrones del lenguaje
sin comprender el significado.
-
Problemas de calidad de los datos: si el corpus masivo de texto utilizado para el entrenamiento contiene contradicciones,
información desactualizada o ficción, el modelo puede reproducir estas inexactitudes.
-
Amnesia de fuentes: los LLM comprimen grandes cantidades de información en
ponderaciones de modelos. En este proceso, a menudo pierden el
vínculo con fuentes específicas, lo que conduce a la «confabulación», donde conceptos o eventos distintos se fusionan
incorrectamente.
Ejemplos reales de alucinaciones
Las alucinaciones pueden manifestarse de diversas formas, desde inofensivos adornos creativos hasta graves errores fácticos:
-
Fabricación legal: Se han documentado casos en los que profesionales del derecho utilizaron la IA para redactar
escritos, solo para descubrir que el modelo había inventado
casos judiciales inexistentes y
citas para apoyar un argumento.
-
Generación de código: Los desarrolladores que utilizan asistentes de IA pueden encontrarse con «alucinaciones de paquetes»,
en las que el modelo sugiere importar una biblioteca de software o llamar a una función que en realidad no existe, simplemente
porque el nombre sigue las convenciones de nomenclatura estándar.
-
Errores biográficos: Cuando se les pregunta sobre personas menos famosas, los modelos pueden atribuirles con confianza
logros, lugares de nacimiento o historiales profesionales incorrectos, mezclando eficazmente detalles de varias personas.
Estrategias de mitigación
Reducir la frecuencia de las alucinaciones es uno de los principales objetivos de la
seguridad de la IA. Los ingenieros e investigadores emplean varias
técnicas para basar los modelos en la realidad:
-
Generación aumentada por recuperación (RAG): este método conecta el LLM a una base de conocimiento externa y fiable
, a menudo indexada en una
base de datos vectorial. Al recuperar los documentos relevantes
antes de generar una respuesta, el modelo se ve limitado por los datos reales.
-
Sugerencia de cadena de pensamiento: Esta
técnica de ingeniería de sugerencias anima al
modelo a «mostrar su trabajo» desglosando el razonamiento complejo en pasos intermedios, lo que a menudo reduce
los errores lógicos.
-
Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF): Durante la etapa de ajuste, los evaluadores humanos
clasifican las respuestas del modelo. Al penalizar las alucinaciones y recompensar la veracidad, el modelo aprende a alinearse
mejor con las expectativas humanas.
Formación de LLM en visión por ordenador
En los sistemas de IA multimodal, la generación de texto puede
basarse en datos visuales. Si se le pide a un LLM que describa una escena, podría alucinar objetos que no están allí. Al
integrar un detector de objetos de alta precisión como YOLO26,
los desarrolladores pueden proporcionar al LLM una lista factual de los objetos presentes, limitando estrictamente su salida a las detecciones verificadas
.
El siguiente Python muestra cómo utilizar el ultralytics paquete para extraer una lista verificada de
objetos, que luego puede servir como una restricción factual para una indicación del modelo de lenguaje.
from ultralytics import YOLO
# Load the YOLO26n model (latest generation, efficient and accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to get ground-truth detections
results = model("https://ultralytics.com/images/bus.jpg")
# Extract the class names of actually detected objects
detected_objects = [model.names[int(c)] for c in results[0].boxes.cls]
# This factual list prevents the LLM from hallucinating items
print(f"Verified Objects for Prompt Context: {detected_objects}")
# Output example: ['bus', 'person', 'person', 'person', 'person']
Diferenciar conceptos relacionados
Es importante distinguir las alucinaciones de otros errores comunes de la IA:
-
Contra el sesgo en la IA: El sesgo se refiere a
un prejuicio sistemático en los resultados (por ejemplo, favorecer a un grupo demográfico sobre otro), mientras que la alucinación es un fallo en la
precisión de los datos. Una respuesta puede ser imparcial pero alucinada (por ejemplo, «La luna está hecha de queso»).
-
Frente al sobreajuste: El sobreajuste se produce
cuando un modelo memoriza los datos de entrenamiento con demasiada precisión y no puede generalizar a nuevas entradas. Las alucinaciones suelen producirse
cuando un modelo intenta generalizar en exceso en áreas en las que carece de datos.
-
Vs. Clasificación errónea: En la
detección de objetos, etiquetar un coche como camión es un
error de clasificación (problema de precisión), no una alucinación. La alucinación es específica de la creación generativa de
contenido falso.
Para aquellos que buscan gestionar conjuntos de datos y entrenar modelos con una alta integridad de datos para evitar errores posteriores, Ultralytics ofrece herramientas completas para la anotación y la
gestión de conjuntos de datos. Además, la orientación del
Marco de Gestión de Riesgos de IA del NIST proporciona
normas para evaluar y mitigar estos riesgos en entornos de producción.