Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Long Short-Term Memory (LSTM)

Explora las redes de memoria a corto y largo plazo (LSTM). Aprende cómo las LSTM resuelven el problema del gradiente desvaneciente en RNN para tareas de series temporales, PNL y análisis de vídeo.

Long Short-Term Memory (LSTM) es un tipo especializado de arquitectura de recurrent neural network (RNN) capaz de aprender la dependencia del orden en problemas de predicción de secuencias. A diferencia de las redes neuronales feedforward estándar, las LSTMs tienen conexiones de retroalimentación que les permiten procesar no solo puntos de datos individuales (como imágenes), sino secuencias completas de datos (como voz o vídeo). Esta capacidad las hace especialmente adecuadas para tareas donde el contexto de las entradas anteriores es crucial para entender los datos actuales, abordando las limitaciones de "memoria a corto plazo" de las RNN tradicionales.

Link to this sectionEl problema de las RNN estándar#

Para entender la innovación de las LSTMs, ayuda observar los retos a los que se enfrentan las recurrent neural networks básicas. Aunque las RNN están diseñadas para manejar información secuencial, tienen dificultades con las secuencias de datos largas debido al problema del vanishing gradient. A medida que la red realiza la retropropagación a través del tiempo, los gradientes (los valores utilizados para actualizar los pesos de la red) pueden volverse exponencialmente más pequeños, impidiendo de forma efectiva que la red aprenda conexiones entre eventos distantes. Esto significa que una RNN estándar podría recordar una palabra de la frase anterior pero olvidar el contexto establecido tres párrafos antes. Las LSTMs fueron diseñadas explícitamente para resolver este problema introduciendo una estructura interna más compleja que puede mantener una context window durante periodos mucho más largos.

Link to this sectionCómo funcionan las LSTMs#

El concepto central detrás de una LSTM es el estado de celda, a menudo descrito como una cinta transportadora que recorre toda la cadena de la red. Este estado permite que la información fluya a través de ella sin cambios, preservando las dependencias a largo plazo. La red toma decisiones sobre qué almacenar, actualizar o descartar de este estado de celda utilizando estructuras llamadas puertas.

  • Puerta de olvido (Forget Gate): Este mecanismo decide qué información ya no es relevante y debe eliminarse del estado de celda. Por ejemplo, si un modelo de lenguaje encuentra un nuevo sujeto, podría "olvidar" el género del sujeto anterior.
  • Puerta de entrada (Input Gate): Esta puerta determina qué información nueva es lo suficientemente significativa como para ser almacenada en el estado de celda.
  • Puerta de salida (Output Gate): Finalmente, esta puerta controla qué partes del estado interno deben emitirse al siguiente estado oculto y utilizarse para la predicción inmediata.

Al regular este flujo de información, las LSTMs pueden salvar desfases temporales de más de 1.000 pasos, superando con creces a las RNN convencionales en tareas que requieren time series analysis.

Link to this sectionAplicaciones en el mundo real#

Las LSTMs han impulsado muchos de los grandes avances en deep learning durante la última década. Aquí tienes dos ejemplos destacados de su aplicación:

  • Modelado de secuencia a secuencia en traducción: Las LSTMs son fundamentales para los sistemas de machine translation. En esta arquitectura, una LSTM (el codificador) procesa una frase de entrada en un idioma (p. ej., inglés) y la comprime en un vector de contexto. Una segunda LSTM (el decodificador) utiliza entonces este vector para generar la traducción en otro idioma (p. ej., francés). Esta capacidad para manejar secuencias de entrada y salida de diferentes longitudes es fundamental para el natural language processing (NLP).
  • Análisis de vídeo y reconocimiento de actividad: Aunque las Redes Neuronales Convolucionales (CNN) como ResNet-50 destacan en la identificación de objetos en imágenes estáticas, carecen de sentido del tiempo. Al combinar CNNs con LSTMs, los sistemas de IA pueden realizar action recognition en flujos de vídeo. La CNN extrae características de cada fotograma y la LSTM analiza la secuencia de estas características para determinar si una persona está caminando, corriendo o cayendo.

Link to this sectionIntegración de LSTMs con Computer Vision#

En computer vision moderna, las LSTMs se utilizan a menudo junto con potentes extractores de características. Por ejemplo, puedes usar un modelo YOLO para detectar objetos en fotogramas individuales y una LSTM para seguir sus trayectorias o predecir movimientos futuros.

Aquí tienes un ejemplo conceptual usando torch para definir una LSTM sencilla que podría procesar una secuencia de vectores de características extraídos de un flujo de vídeo:

import torch
import torch.nn as nn

# Define an LSTM model for processing sequential video features
# Input size: 512 (e.g., features from a CNN), Hidden size: 128
lstm_model = nn.LSTM(input_size=512, hidden_size=128, num_layers=2, batch_first=True)

# Simulate a batch of video sequences: 8 videos, 10 frames each, 512 features per frame
video_features = torch.randn(8, 10, 512)

# Pass the sequence through the LSTM
output, (hidden_state, cell_state) = lstm_model(video_features)

print(f"Output shape: {output.shape}")  # Shape: [8, 10, 128]
print("LSTM successfully processed the temporal sequence.")

Link to this sectionConceptos relacionados y distinciones#

Resulta útil distinguir las LSTMs de otras arquitecturas de procesamiento de secuencias:

  • LSTM frente a GRU: La Gated Recurrent Unit (GRU) es una variante simplificada de la LSTM. Las GRUs combinan las puertas de olvido y de entrada en una única "puerta de actualización" y fusionan el estado de celda y el estado oculto. Esto hace que las GRUs sean computacionalmente más eficientes y rápidas de entrenar, aunque las LSTMs pueden seguir superándolas en conjuntos de datos más grandes y complejos.
  • LSTM frente a Transformers: La arquitectura Transformer, que se basa en mecanismos de self-attention en lugar de en la recurrencia, ha sustituido en gran medida a las LSTMs en tareas de PNL como las realizadas por GPT-4. Los Transformers pueden procesar secuencias completas en paralelo en lugar de secuencialmente, lo que permite un entrenamiento mucho más rápido en conjuntos de datos masivos. Sin embargo, las LSTMs siguen siendo relevantes en escenarios con datos limitados o restricciones específicas de series temporales donde la carga adicional de los mecanismos de atención es innecesaria.

Link to this sectionEvolución y futuro#

Aunque el attention mechanism ha tomado el centro del escenario en la generative AI, las LSTMs siguen siendo una opción robusta para aplicaciones más ligeras, especialmente en entornos de edge AI donde los recursos computacionales son limitados. Los investigadores siguen explorando arquitecturas híbridas que combinan la eficiencia de memoria de las LSTMs con el poder de representación de los sistemas modernos de object detection.

Para aquellos que buscan gestionar conjuntos de datos para entrenar modelos de secuencias o tareas de visión complejas, la Ultralytics Platform ofrece herramientas integrales para la anotación y gestión de datos. Además, entender cómo funcionan las LSTMs proporciona una base sólida para comprender modelos temporales más avanzados utilizados en autonomous vehicles y robótica.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático