Glosario

Modelos de Secuencia a Secuencia

Descubra cómo los modelos de secuencia a secuencia transforman las secuencias de entrada en secuencias de salida, impulsando tareas de IA como la traducción, los chatbots y el reconocimiento de voz.

Los modelos Sequence-to-Sequence (Seq2Seq) son una clase de modelos de aprendizaje profundo diseñados para transformar una secuencia de entrada en una secuencia de salida, donde las longitudes de la entrada y la salida pueden diferir. Esta flexibilidad los hace excepcionalmente poderosos para una amplia gama de tareas en el Procesamiento del Lenguaje Natural (PNL) y más allá. La idea central fue introducida en artículos de investigadores de Google y del laboratorio de Yoshua Bengio, revolucionando campos como la traducción automática.

Cómo funcionan los modelos Seq2Seq

Los modelos Seq2Seq se construyen sobre una arquitectura encoder-decoder. Esta estructura permite que el modelo gestione secuencias de longitud variable de manera efectiva.

El codificador: Este componente procesa toda la secuencia de entrada, como una oración en inglés. Lee la secuencia un elemento a la vez (por ejemplo, palabra por palabra) y comprime la información en una representación numérica de longitud fija llamada vector de contexto o "vector de pensamiento". Tradicionalmente, el codificador es una Red Neuronal Recurrente (RNN) o una variante más avanzada como Long Short-Term Memory (LSTM), que es experta en capturar información secuencial.
El decodificador: Este componente toma el vector de contexto del codificador como su entrada inicial. Su trabajo es generar la secuencia de salida un elemento a la vez. Por ejemplo, en una tarea de traducción, generaría la oración traducida palabra por palabra. La salida de cada paso se retroalimenta al decodificador en el siguiente paso, lo que le permite generar una secuencia coherente. Este proceso continúa hasta que se produce un token especial de fin de secuencia. Una innovación clave que mejoró significativamente el rendimiento de Seq2Seq es el mecanismo de atención, que permite al decodificador volver a mirar diferentes partes de la secuencia de entrada original mientras genera la salida.

Aplicaciones de los modelos Seq2Seq

La capacidad de asignar entradas de longitud variable a salidas de longitud variable hace que los modelos Seq2Seq sean muy versátiles.

Traducción Automática: Esta es la aplicación por excelencia. Un modelo puede tomar una oración en un idioma (por ejemplo, "¿Cómo estás?") y traducirla a otro (por ejemplo, "Wie geht es Ihnen?"). Servicios como Google Translate han utilizado en gran medida estos principios.
Resumen de Texto: Un modelo Seq2Seq puede leer un artículo o documento largo (secuencia de entrada) y generar un resumen conciso (secuencia de salida). Esto es útil para condensar grandes volúmenes de texto en información digerible.
Chatbots e IA conversacional: Los modelos se pueden entrenar para generar una respuesta relevante y contextual (secuencia de salida) a la consulta o declaración de un usuario (secuencia de entrada).
Subtitulado de Imágenes: Aunque esto implica visión artificial, el principio es similar. Una CNN actúa como codificador para procesar una imagen y crear un vector de contexto, que un decodificador utiliza para generar una secuencia de texto descriptiva. Este es un ejemplo de un modelo multimodal.

Seq2Seq vs. Otras arquitecturas

Si bien los modelos Seq2Seq basados en RNN fueron innovadores, el campo ha evolucionado:

RNN Estándar: Normalmente, mapean secuencias a secuencias de la misma longitud o clasifican secuencias completas, careciendo de la flexibilidad de la estructura codificador-decodificador para longitudes de salida variables.
Transformers: Ahora dominan muchas tareas de PNL que antes gestionaban los modelos Seq2Seq basados en RNN. Utilizan auto-atención y codificaciones posicionales en lugar de recurrencia, lo que permite una mejor paralelización y la captura de dependencias de largo alcance de forma más eficaz. El concepto subyacente de codificador-decodificador, sin embargo, sigue siendo fundamental para muchos modelos basados en Transformer. Modelos como RT-DETR de Baidu, soportados por Ultralytics, incorporan componentes Transformer para la detección de objetos.
CNNs: Se utilizan principalmente para datos tipo cuadrícula, como imágenes (por ejemplo, en los modelos Ultralytics YOLO para detección y segmentación), aunque a veces se adaptan para tareas de secuencia.

Si bien Seq2Seq a menudo se refiere a la estructura codificador-decodificador basada en RNN, el principio general de mapeo de secuencias de entrada a secuencias de salida utilizando una representación intermedia sigue siendo fundamental para muchas arquitecturas modernas. Herramientas como PyTorch y TensorFlow proporcionan bloques de construcción para implementar modelos de secuencia tanto tradicionales como modernos. La gestión del proceso de entrenamiento se puede optimizar utilizando plataformas como Ultralytics HUB, que simplifica toda la canalización de implementación de modelos.

Modelos de Secuencia a Secuencia

Entrena modelos Ultralytics YOLO para optimizar los flujos de trabajo en todas las industrias

Solución de licencias empresariales flexible para impulsar su innovación

Entrena modelos de IA en segundos con Ultralytics YOLO

Cómo funcionan los modelos Seq2Seq

Aplicaciones de los modelos Seq2Seq

Seq2Seq vs. Otras arquitecturas

Leer más en esta categoría

Lo más destacado de Ultralytics en la Conferencia PyTorch 2025

Aprendizaje autosupervisado para eliminar el ruido de las imágenes

Vision AI impulsa los sistemas de control de la atención del conductor

Únete a la comunidad de Ultralytics