Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Medusa Heads

Descubre cómo las cabezas de Medusa aceleran la decodificación de LLM. Aprende cómo esta arquitectura multicabezal permite la predicción de tokens en paralelo para reducir la latencia en la inferencia de IA.

En el aprendizaje automático moderno, especialmente dentro de la arquitectura de modelos de lenguaje extenso, este término se refiere a un marco de decodificación innovador diseñado para acelerar la generación de texto. Inspirándose en la criatura mitológica que tiene muchas serpientes por cabello, estas arquitecturas utilizan múltiples cabezas de decodificación conectadas a un único modelo base congelado. Esta estructura permite que la red prediga múltiples tokens posteriores simultáneamente en lugar de depender estrictamente de la generación autorregresiva paso a paso. Al redactar varias posibilidades futuras en paralelo, los sistemas pueden reducir drásticamente la latencia de inferencia sin necesidad de un modelo de redacción más pequeño y separado.

Link to this sectionEntendiendo la arquitectura#

La generación de lenguaje tradicional se basa en un proceso autorregresivo, donde un modelo predice la siguiente palabra basándose en la secuencia de palabras anteriores. Aunque es preciso, este procesamiento secuencial crea cuellos de botella en la velocidad computacional, un desafío bien documentado en investigaciones recientes del Grupo de PNL de Stanford. El marco Medusa evita esto añadiendo cabezas de red neuronal adicionales al último estado oculto del modelo.

Cada una de estas cabezas adicionales está entrenada para predecir un token en una posición futura diferente. Durante la generación, estas cabezas crean un árbol de secuencias de tokens probables. Un mecanismo de atención de árbol verifica entonces estas secuencias simultáneamente. Si las predicciones coinciden con las expectativas del modelo base, se aceptan múltiples tokens en una sola pasada directa. Esta técnica es una forma altamente eficiente de decodificación especulativa, y los detalles sobre sus mecanismos fundamentales pueden explorarse en artículos académicos modernos en arXiv.

Link to this sectionAplicaciones en el mundo real en IA#

Las capacidades de predicción en paralelo de esta arquitectura son particularmente valiosas en escenarios que requieren una inferencia en tiempo real rápida y de gran volumen.

  • Agentes conversacionales en tiempo real: Los bots avanzados de servicio al cliente impulsados por modelos generativos de OpenAI o el marco Claude de Anthropic dependen de respuestas de baja latencia para mantener un flujo conversacional natural. Al predecir múltiples tokens a la vez, estos agentes pueden transmitir texto a los usuarios significativamente más rápido.
  • Herramientas de autocompletado de código: Los entornos de programación asistidos por IA utilizan estas arquitecturas multicabezal para sugerir líneas o bloques de código completos al instante. Dado que el código tiene estructuras sintácticas altamente predecibles, las cabezas paralelas pueden redactar con precisión cierres de funciones o bucles, mejorando la eficiencia del desarrollador.

Link to this sectionDistinguiendo términos arquitectónicos relacionados#

Aunque comparten similitudes conceptuales, es importante distinguir este término específico de PNL de los componentes estructurales que se encuentran en los sistemas de visión artificial.

  • Cabeza de detección: En modelos de visión como el vanguardista Ultralytics YOLO26, la "cabeza" se refiere a las capas finales de la red responsables de generar predicciones espaciales, como cajas delimitadoras y probabilidades de clase para la detección de objetos.
  • Cabeza de Medusa: Por el contrario, este término se aplica específicamente al procesamiento del lenguaje natural y a los modelos de visión-lenguaje donde el objetivo es predecir tokens secuenciales en paralelo para evitar cuellos de botella autorregresivos.

Link to this sectionImplementando estructuras multicabezal#

Ya sea creando cabezas de predicción espacial para visión o predictores de tokens en paralelo para texto, las estructuras multicabezal comparten principios de implementación similares utilizando bibliotecas de bajo nivel como PyTorch. El siguiente fragmento demuestra cómo construir un módulo multicabezal simple que procesa una representación de características compartida a través de múltiples capas paralelas.

import torch
import torch.nn as nn


class ParallelHeads(nn.Module):
    def __init__(self, hidden_dim, num_heads):
        super().__init__()
        # Shared backbone representation
        self.base = nn.Linear(128, hidden_dim)
        # Multiple parallel heads predicting concurrent states
        self.heads = nn.ModuleList([nn.Linear(hidden_dim, 50) for _ in range(num_heads)])

    def forward(self, x):
        features = torch.relu(self.base(x))
        # Return predictions from all heads simultaneously
        return [head(features) for head in self.heads]


model = ParallelHeads(hidden_dim=64, num_heads=3)
predictions = model(torch.randn(1, 128))

Para agilizar el desarrollo y la implementación de modelos complejos de múltiples capas en entornos de producción, los desarrolladores suelen utilizar sistemas integrales como la Plataforma Ultralytics. Esto permite a los equipos gestionar las opciones de implementación de modelos sin problemas, asegurando que las arquitecturas optimizadas para la velocidad (ya sea mediante decodificación especulativa o cabezas de detección de visión eficientes) funcionen de manera fiable en el mundo real. Para obtener más información sobre la optimización de flujos de trabajo de aprendizaje automático, puedes revisar las publicaciones de Google DeepMind o explorar las actas en la Biblioteca Digital de la ACM.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático