Glosario

Decodificación especulativa

Descubra cómo la decodificación especulativa acelera la inferencia de IA entre 2 y 3 veces. Aprenda cómo esta técnica optimiza los LLM y Ultralytics para obtener resultados más rápidos y eficientes.

La decodificación especulativa es una técnica de optimización avanzada que se utiliza principalmente en modelos de lenguaje grandes (LLM) y otras tareas de generación secuencial para acelerar significativamente la inferencia sin comprometer la calidad de la salida. En la generación autorregresiva tradicional , un modelo produce un token cada vez, y cada paso espera a que se complete el anterior . Este proceso puede ser lento, especialmente en hardware potente, donde el ancho de banda de la memoria, más que la velocidad de cálculo, suele convertirse en el cuello de botella. La decodificación especulativa aborda este problema empleando un modelo «borrador» más pequeño y rápido para predecir una secuencia de tokens futuros en paralelo, que luego se verifican en una sola pasada mediante el modelo «objetivo», más grande y preciso. Si el borrador es correcto, el sistema acepta varios tokens a la vez, lo que supone un avance efectivo en el proceso de generación.

Cómo funciona la decodificación especulativa

El mecanismo central se basa en la observación de que muchos tokens de una secuencia —como las palabras funcionales « el», «y» o las completaciones obvias— son fáciles de predecir y no requieren toda la potencia computacional de un modelo masivo. Al descargar estas predicciones fáciles a un modelo proxy ligero, el sistema reduce el número de veces que es necesario invocar el modelo pesado.

Cuando el modelo de destino revisa la secuencia redactada, utiliza un paso de verificación paralelo. Dado que las GPU están altamente optimizadas para el procesamiento por lotes, la comprobación de cinco tokens redactados simultáneamente lleva aproximadamente el mismo tiempo que generar un solo token. Si el modelo de destino está de acuerdo con el borrador, esos tokens se finalizan. Si no está de acuerdo en algún punto, la secuencia se trunca, se inserta el token correcto y se repite el proceso. Este método garantiza que el resultado final sea matemáticamente idéntico al que habría producido el modelo objetivo por sí solo, lo que preserva la precisión y aumenta la velocidad entre 2 y 3 veces en muchos escenarios.

Aplicaciones en el mundo real

Esta técnica está transformando la forma en que las industrias implementan la IA generativa, especialmente en aquellos casos en los que la latencia es fundamental.

Autocompletado de código en tiempo real: en los entornos de desarrollo integrados (IDE), los asistentes de codificación con IA deben proporcionar sugerencias al instante, a medida que el desarrollador escribe. La decodificación especulativa permite a estos asistentes redactar líneas completas de código utilizando un modelo pequeño, mientras que un modelo base grande verifica la sintaxis y la lógica en segundo plano. Esto da como resultado una experiencia de usuario ágil y fluida, que se percibe como si se estuviera escribiendo en tiempo real, en lugar de esperar la respuesta del servidor.
Chatbots interactivos en dispositivos periféricos: ejecutar potentes LLM en teléfonos inteligentes o computadoras portátiles es difícil debido a los recursos de hardware limitados. Mediante el uso de la decodificación especulativa, un dispositivo puede ejecutar un modelo cuantificado y diminuto a nivel local para redactar respuestas, mientras que ocasionalmente consulta un modelo más grande (ya sea basado en la nube o un modelo local más pesado ) para su verificación. Este enfoque híbrido permite interacciones de asistente virtual de alta calidad con un retraso mínimo , lo que hace que la IA periférica sea más viable para tareas complejas.

Relación con Otros Conceptos

Es importante distinguir la decodificación especulativa de estrategias de optimización similares.

Cuantificación del modelo: aunque la cuantificación reduce la precisión de los pesos del modelo (por ejemplo, de FP16 a INT8) para ahorrar memoria y acelerar el cálculo, altera permanentemente el modelo y puede degradar ligeramente el rendimiento. La decodificación especulativa, por el contrario, no cambia los pesos del modelo de destino y garantiza la misma distribución de salida.
Destilación del conocimiento: Esto implica entrenar un modelo estudiante más pequeño para imitar a un modelo maestro más grande. El modelo estudiante sustituye al maestro por completo. En la decodificación especulativa, el modelo pequeño (redactor) y el modelo grande (verificador) trabajan en tándem durante la inferencia, en lugar de que uno sustituya al otro.

Ejemplo de aplicación

Aunque la decodificación especulativa suele estar integrada en los marcos de servicio, el concepto de verificar las predicciones es fundamental para una IA eficiente. A continuación se muestra un ejemplo conceptual que utiliza PyTorch ilustrar cómo un modelo más grande podría puntuar o verificar una secuencia de entradas candidatas, de forma similar al paso de verificación en la decodificación especulativa.

import torch


def verify_candidate_sequence(model, input_ids, candidate_ids):
    """Simulates the verification step where a target model checks candidate tokens."""
    # Concatenate input with candidates for parallel processing
    full_sequence = torch.cat([input_ids, candidate_ids], dim=1)

    with torch.no_grad():
        logits = model(full_sequence)  # Single forward pass for all tokens

    # Get the model's actual predictions (greedy decoding for simplicity)
    predictions = torch.argmax(logits, dim=-1)

    # In a real scenario, we check if predictions match candidate_ids
    return predictions


# Example tensor setup (conceptual)
# input_ids = torch.tensor([[101, 2054, 2003]])
# candidate_ids = torch.tensor([[1037, 3024]])
# verify_candidate_sequence(my_model, input_ids, candidate_ids)

Impacto en el desarrollo futuro de la IA

A medida que los modelos siguen creciendo en tamaño, la disparidad entre la capacidad de cálculo y el ancho de banda de la memoria —a menudo denominada «barrera de la memoria»— se amplía. La decodificación especulativa ayuda a salvar esta brecha maximizando la intensidad aritmética de cada acceso a la memoria. Esta eficiencia es crucial para el despliegue sostenible de la IA generativa a gran escala, ya que reduce tanto el consumo de energía como los costes operativos.

Los investigadores están explorando actualmente formas de aplicar principios especulativos similares a tareas de visión por ordenador. Por ejemplo, en la generación de vídeo, un modelo ligero podría esbozar fotogramas futuros que posteriormente serían refinados por un modelo de difusión de alta fidelidad. A medida que marcos como PyTorch y TensorFlow integran estas optimizaciones de forma nativa, los desarrolladores pueden esperar una latencia de inferencia más rápida en una gama más amplia de modalidades, desde texto hasta datos visuales complejos procesados por arquitecturas avanzadas como Ultralytics .

Para quienes gestionan el ciclo de vida de estos modelos, el uso de herramientas como la Ultralytics garantiza que los conjuntos de datos subyacentes y los procesos de entrenamiento sean robustos, lo que proporciona una base sólida para las técnicas de inferencia avanzadas. Tanto si se trabaja con grandes modelos de lenguaje como con la detección de objetos de última generación, la optimización del proceso de inferencia sigue siendo un paso clave para pasar del prototipo a la producción.

Decodificación especulativa

Entrene los modelosYOLO Ultralytics para agilizar los flujos de trabajo en todos los sectores

Solución de licencias empresariales flexible para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Cómo funciona la decodificación especulativa

Aplicaciones en el mundo real

Relación con Otros Conceptos

Ejemplo de aplicación

Impacto en el desarrollo futuro de la IA

Leer más en esta categoría

Cómo mejorar mAP del modelo mAP objetos pequeños: guía rápida

Redefiniendo la vigilancia de la biodiversidad con visión artificial

Los 5 mejores consejos para implementar YOLO26 de manera eficiente en el borde y la nube

Únase a la comunidad Ultralytics