Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Sequence-to-Sequence Models

Aprende cómo los modelos de secuencia a secuencia (Seq2Seq) potencian la traducción y el NLP. Explora arquitecturas codificador-decodificador, Transformers e integración con Ultralytics YOLO26.

Los modelos de secuencia a secuencia (Seq2Seq) son una potente clase de arquitecturas de aprendizaje automático diseñadas para convertir secuencias de un dominio en secuencias de otro. A diferencia de las tareas estándar de clasificación de imágenes en las que los tamaños de entrada y salida son fijos, los modelos Seq2Seq destacan en el manejo de entradas y salidas de longitudes variables. Esta flexibilidad los convierte en la base de muchas aplicaciones modernas de procesamiento del lenguaje natural (NLP), como la traducción y el resumen, donde la longitud de la oración de entrada no dicta necesariamente la longitud de la oración de salida.

Link to this sectionArquitectura y funcionalidad básica#

La estructura fundamental de un modelo Seq2Seq se basa en el marco codificador-decodificador. Esta arquitectura divide el modelo en dos componentes principales que trabajan en conjunto para procesar datos secuenciales.

  • El codificador: Este componente procesa la secuencia de entrada (por ejemplo, una oración en inglés o una secuencia de fotogramas de audio) un elemento a la vez. Comprime la información en un vector de contexto de longitud fija, también conocido como estado oculto. En arquitecturas tradicionales, el codificador a menudo se construye utilizando redes neuronales recurrentes (RNN) o redes de memoria a corto y largo plazo (LSTM), las cuales están diseñadas para retener información a lo largo de los pasos de tiempo.
  • El decodificador: Una vez codificada la entrada, el decodificador toma el vector de contexto y predice la secuencia de salida (por ejemplo, la oración correspondiente en francés) paso a paso. Utiliza la predicción anterior para influir en la siguiente, garantizando la continuidad gramatical y contextual.

Aunque las primeras versiones dependían en gran medida de las RNN, los modelos Seq2Seq modernos utilizan predominantemente la arquitectura Transformer. Los Transformers utilizan el mecanismo de atención, el cual permite al modelo "prestar atención" a partes específicas de la secuencia de entrada independientemente de su distancia desde el paso actual, mejorando significativamente el rendimiento en secuencias largas como se detalla en el artículo seminal Attention Is All You Need.

Link to this sectionAplicaciones en el mundo real#

La versatilidad de los modelos Seq2Seq les permite cerrar la brecha entre el análisis de texto y la visión artificial, facilitando interacciones multimodales complejas.

  • Traducción automática: Quizás la aplicación más famosa, los modelos Seq2Seq impulsan herramientas como Google Translate. El modelo acepta una oración en un idioma de origen y genera una oración en un idioma de destino, manejando con fluidez las diferencias en gramática y estructura de la oración.
  • Resumen de texto: Estos modelos pueden ingerir documentos o artículos largos y generar resúmenes concisos. Al comprender el significado central del texto de entrada, el decodificador produce una secuencia más corta que retiene la información clave, una técnica vital para la agregación automatizada de noticias.
  • Generación de pies de foto para imágenes: Al combinar visión y lenguaje, un modelo Seq2Seq puede describir el contenido de una imagen. Una red neuronal convolucional (CNN) actúa como codificador para extraer características visuales, mientras que una RNN actúa como decodificador para generar una oración descriptiva. Este es un ejemplo principal de un modelo multimodal.
  • Reconocimiento de voz: En estos sistemas, la entrada es una secuencia de marcos de señal de audio y la salida es una secuencia de caracteres de texto o palabras. Esta tecnología respalda a los asistentes virtuales como Siri y Alexa.

Link to this sectionEjemplo de código: bloque de construcción básico#

Aunque los marcos de alto nivel abstraen gran parte de la complejidad, es útil comprender el mecanismo subyacente. El siguiente código demuestra una capa LSTM básica en PyTorch, que a menudo sirve como unidad recurrente dentro del codificador o decodificador de un modelo Seq2Seq tradicional.

import torch
import torch.nn as nn

# Initialize an LSTM layer (common in Seq2Seq encoders)
# input_size: number of features per time step (e.g., word embedding size)
# hidden_size: size of the context vector/hidden state
lstm_layer = nn.LSTM(input_size=10, hidden_size=20, batch_first=True)

# Create a dummy input sequence: Batch size 3, Sequence length 5, Features 10
input_seq = torch.randn(3, 5, 10)

# Pass the sequence through the LSTM
# output contains features for each time step; hn is the final hidden state
output, (hn, cn) = lstm_layer(input_seq)

print(f"Output shape: {output.shape}")  # Shape: [3, 5, 20]
print(f"Final Hidden State shape: {hn.shape}")  # Shape: [1, 3, 20]

Link to this sectionComparación con conceptos relacionados#

Es importante distinguir los modelos Seq2Seq de otras arquitecturas para comprender su utilidad específica.

  • Vs. Clasificación estándar: Los clasificadores estándar, como los utilizados en clasificación de imágenes básica, asignan una sola entrada (como una imagen) a una sola etiqueta de clase. Por el contrario, los modelos Seq2Seq asignan secuencias a secuencias, lo que permite longitudes de salida variables.
  • Vs. Detección de objetos: Modelos como Ultralytics YOLO26 se centran en la detección espacial dentro de un solo fotograma, identificando objetos y sus ubicaciones. Mientras que YOLO procesa imágenes estructuralmente, los modelos Seq2Seq procesan datos temporalmente. Sin embargo, los dominios se superponen en tareas como el seguimiento de objetos, donde identificar trayectorias de objetos a lo largo de fotogramas de video implica un análisis de datos secuencial.
  • Vs. Transformers: La arquitectura Transformer es la evolución moderna de Seq2Seq. Mientras que los modelos Seq2Seq originales dependían en gran medida de las RNN y las unidades recurrentes cerradas (GRU), los Transformers utilizan la auto-atención para procesar secuencias en paralelo, ofreciendo mejoras significativas en velocidad y precisión.

Link to this sectionImportancia en el ecosistema de IA#

Los modelos Seq2Seq han cambiado fundamentalmente la forma en que las máquinas interactúan con el lenguaje humano y los datos temporales. Su capacidad para manejar datos dependientes de secuencias ha permitido la creación de chatbots sofisticados, traductores automatizados y herramientas de generación de código. Para los desarrolladores que trabajan con grandes conjuntos de datos necesarios para entrenar estos modelos, utilizar la plataforma de Ultralytics puede agilizar la gestión de datos y los flujos de trabajo de implementación de modelos. A medida que la investigación avanza hacia la IA generativa, los principios del modelado de secuencias siguen siendo fundamentales para el desarrollo de modelos de lenguaje grandes (LLMs) y sistemas avanzados de comprensión de video.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático