Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Memoria a Largo Plazo (LSTM)

Descubra cómo las redes de Memoria a Largo Plazo (LSTM) sobresalen en el manejo de datos secuenciales, superando las limitaciones de las RNN y potenciando tareas de IA como el PLN y la previsión.

La memoria a corto plazo larga (LSTM) es un tipo especializado de arquitectura de red neuronal recurrente (RNN) capaz de aprender la dependencia del orden en problemas de predicción de secuencias. A diferencia de las redes neuronales feedforward estándar , las LSTM tienen conexiones de retroalimentación que les permiten procesar no solo puntos de datos individuales (como imágenes), sino secuencias completas de datos (como voz o vídeo). Esta capacidad las hace especialmente adecuadas para tareas en las que el contexto de entradas anteriores es crucial para comprender los datos actuales, lo que soluciona las limitaciones de «memoria a corto plazo» de las RNN tradicionales.

El problema con las RNN estándar

Para comprender la innovación de las LSTM, resulta útil examinar los retos a los que se enfrentan las redes neuronales recurrentes básicas. Aunque las RNN están diseñadas para manejar información secuencial, tienen dificultades con las secuencias de datos largas debido al problema del gradiente desaparecido. A medida que la red retropropaga a través del tiempo, los gradientes (valores utilizados para actualizar los pesos de la red) pueden reducirse exponencialmente , lo que impide que la red aprenda las conexiones entre eventos distantes. Esto significa que una RNN estándar puede recordar una palabra de la frase anterior, pero olvidar el contexto establecido tres párrafos antes. Las LSTM se diseñaron explícitamente para resolver este problema mediante la introducción de una estructura interna más compleja que puede mantener una ventana de contexto durante períodos mucho más largos.

Cómo funcionan las LSTM

El concepto central detrás de una LSTM es el estado de la celda, a menudo descrito como una cinta transportadora que recorre toda la cadena de la red. Este estado permite que la información fluya a lo largo de ella sin cambios, conservando las dependencias a largo plazo. La red toma decisiones sobre qué almacenar, actualizar o descartar de este estado de celda utilizando estructuras llamadas puertas.

  • Puerta de olvido: Este mecanismo decide qué información ya no es relevante y debe eliminarse del estado de la celda. Por ejemplo, si un modelo de lenguaje encuentra un nuevo sujeto, podría «olvidar» el género del sujeto anterior.
  • Puerta de entrada: esta puerta determina qué información nueva es lo suficientemente significativa como para ser almacenada en el estado de la celda.
  • Puerta de salida: Por último, esta puerta controla qué partes del estado interno deben enviarse al siguiente estado oculto y utilizarse para la predicción inmediata.

Al regular este flujo de información, las LSTM pueden salvar desfases temporales de más de 1000 pasos, superando con creces a las RNN convencionales en tareas que requieren análisis de series temporales.

Aplicaciones en el mundo real

Las LSTM han impulsado muchos de los principales avances en aprendizaje profundo durante la última década. A continuación se presentan dos ejemplos destacados de su aplicación:

  • Modelado secuencia a secuencia en la traducción: Las LSTM son fundamentales para los sistemas de traducción automática. En esta arquitectura, una LSTM (el codificador) procesa una frase de entrada en un idioma (por ejemplo, English) y la comprime en un vector de contexto. Un segundo LSTM (el decodificador) utiliza entonces este vector para generar la traducción en otro idioma (por ejemplo, francés). Esta capacidad de manejar secuencias de entrada y salida de diferentes longitudes es fundamental para el procesamiento del lenguaje natural (NLP).
  • Análisis de vídeoy reconocimiento de actividades: aunque las redes neuronales convolucionales (CNN), como ResNet-50 , destacan en la identificación de objetos en imágenes estáticas, carecen de sentido del tiempo. Al combinar las CNN con las LSTM, los sistemas de IA pueden reconocer acciones en secuencias de vídeo . La CNN extrae características de cada fotograma y la LSTM analiza la secuencia de estas características para determinar si una persona está caminando, corriendo o cayéndose.

Integración de LSTM con visión artificial

En la visión artificial moderna, los LSTM se suelen utilizar junto con potentes extractores de características. Por ejemplo, se puede utilizar un YOLO para detect en fotogramas individuales y un LSTM para track trayectorias o predecir movimientos futuros.

Aquí hay un ejemplo conceptual utilizando torch definir una LSTM simple que pueda procesar una secuencia de vectores de características extraídos de un flujo de vídeo:

import torch
import torch.nn as nn

# Define an LSTM model for processing sequential video features
# Input size: 512 (e.g., features from a CNN), Hidden size: 128
lstm_model = nn.LSTM(input_size=512, hidden_size=128, num_layers=2, batch_first=True)

# Simulate a batch of video sequences: 8 videos, 10 frames each, 512 features per frame
video_features = torch.randn(8, 10, 512)

# Pass the sequence through the LSTM
output, (hidden_state, cell_state) = lstm_model(video_features)

print(f"Output shape: {output.shape}")  # Shape: [8, 10, 128]
print("LSTM successfully processed the temporal sequence.")

Conceptos relacionados y distinciones

Es útil distinguir las LSTM de otras arquitecturas de procesamiento de secuencias:

  • LSTM frente a GRU: La unidad recurrente con compuerta (GRU) es una variante simplificada de la LSTM. Las GRU combinan las compuertas de olvido y de entrada en una única «compuerta de actualización» y fusionan el estado de la celda y el estado oculto. Esto hace que las GRU sean más eficientes desde el punto de vista computacional y más rápidas de entrenar, aunque las LSTM pueden seguir superándolas en conjuntos de datos más grandes y complejos.
  • LSTM frente a Transformers: La arquitectura Transformer, que se basa en mecanismos de autoatención en lugar de recurrencia, ha sustituido en gran medida a las LSTM en tareas de PLN como las que realiza GPT-4. Los Transformers pueden procesar secuencias completas en paralelo en lugar de secuencialmente, lo que permite un entrenamiento mucho más rápido en conjuntos de datos masivos. Sin embargo, las LSTM siguen siendo relevantes en escenarios con datos limitados o restricciones específicas de series temporales en los que la sobrecarga de los mecanismos de atención es innecesaria.

Evolución y futuro

Si bien el mecanismo de atención ha cobrado protagonismo en la IA generativa, las LSTM siguen siendo una opción sólida para aplicaciones más ligeras, especialmente en entornos de IA periférica donde los recursos computacionales son limitados. Los investigadores continúan explorando arquitecturas híbridas que combinan la eficiencia de memoria de las LSTM con el poder de representación de los modernos sistemas de detección de objetos.

Para aquellos que deseen gestionar conjuntos de datos para entrenar modelos de secuencias o tareas de visión complejas, Ultralytics ofrece herramientas completas para la anotación y la gestión de conjuntos de datos. Además, comprender cómo funcionan las LSTM proporciona una base sólida para entender los modelos temporales más avanzados que se utilizan en vehículos autónomos y robótica.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora