Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Memoria a Largo Plazo (LSTM)

Descubra cómo las redes de Memoria a Largo Plazo (LSTM) sobresalen en el manejo de datos secuenciales, superando las limitaciones de las RNN y potenciando tareas de IA como el PLN y la previsión.

La memoria a largo plazo (LSTM) es una arquitectura especializada dentro de la familia más amplia de las redes neuronales recurrentes (RNN). redes neuronales recurrentes (RNN) diseñadas para procesar datos secuenciales y captar eficazmente las dependencias a largo plazo. A diferencia de las redes que procesan las entradas de forma aislada, las LSTM mantienen una "memoria" interna que persiste en el tiempo, lo que les permite aprender patrones en secuencias como texto, audio y datos financieros. Esta capacidad resuelve una limitación significativa de las RNN tradicionales conocida como el problema del gradiente de fuga, en el que la red de una larga secuencia durante el entrenamiento del modelo. del modelo. Gracias a un mecanismo de activación único, las LSTM pueden recordar u olvidar información de forma selectiva, lo que las convierte en una tecnología fundacional en la historia del aprendizaje profundo (deep learning, DL). aprendizaje profundo (AD).

Cómo funcionan las LSTM

La principal innovación de una LSTM es su estado de celda, a menudo descrito como una cinta transportadora que recorre toda la cadena de la red con sólo pequeñas interacciones lineales. cadena de la red con sólo pequeñas interacciones lineales. Esta estructura permite que la información fluya sin cambios, preservando el contexto en secuencias largas. La LSTM regula este flujo mediante tres puertas distintas, que están compuestas normalmente por capas de red neuronal sigmoidea y y operaciones de multiplicación por puntos:

  • Puerta del olvido: Determina qué información del estado anterior de la célula ya no es relevante y debe ser descartada.
  • Puerta de entrada: Decide qué nueva información del paso de entrada actual es lo suficientemente significativa como para ser almacenada en el estado de la célula. almacenar en el estado de la célula.
  • Puerta de salida: Controla qué partes del estado de la célula deben ser enviadas al siguiente estado oculto. utilizando una activación activación tanh (tangente hiperbólica ) para escalar los valores.

Este sofisticado diseño permite a las LSTM manejar tareas en las que la distancia entre la información relevante y el punto en el que se necesita es grande. información relevante y el punto en el que se necesita. de Christopher Olah.

Aplicaciones en el mundo real

Los LSTM han sido fundamentales para el avance de la Inteligencia Artificial (IA) en varios sectores. Su capacidad para comprender la dinámica temporal las hace ideales para:

  1. Procesamiento del lenguaje natural (PLN): en tareas como la traducción automática, las LSTM pueden ingerir una una frase en un idioma y generar una traducción en otro conservando el contexto de las palabras que aparecen antes en la frase. en la frase. Del mismo modo, en análisis de sentimientos, el modelo puede entender cómo un modificador al principio de un párrafo (por ejemplo, "no") niega una palabra al final (por ejemplo, "recomendado").
  2. Análisis de vídeo y reconocimiento de acciones: Mientras que modelos de visión por ordenador (CV) como YOLO11 destacan en la detección de objetos en imágenes estáticas, las LSTM pueden procesar secuencias de características de imagen extraídas por una red neuronal convolucional (CNN) para reconocer acciones a lo largo del tiempo, como "correr" o "saludar". Esta combinación tiende un puente entre la detección espacial y la la comprensión temporal del vídeo.

Comparación con otras arquitecturas

Resulta útil distinguir las LSTM de otras técnicas similares de modelado de secuencias:

  • RNN frente a LSTM: Una RNN estándar tiene una estructura de repetición simple (normalmente una sola capa tanh) pero no aprende las dependencias de largo alcance debido a la inestabilidad del gradiente. Las LSTM introducen la estructura multipuerta para resolver este problema. resolver este problema.
  • GRU frente a LSTM: La Gated Recurrent Unit (GRU) es una variante es una variante simplificada de la LSTM que fusiona las puertas de olvido y entrada en una única puerta de actualización. Las GRU son computacionalmente más eficientes y a menudo tienen un rendimiento comparable, lo que las convierte en una opción popular cuando cuando los recursos informáticos son limitados.
  • Transformer frente a LSTM: la moderna arquitectura Transformer, que se basa en mecanismos de autoatención, ha sustituido ampliamente a los LSTM en PNL. Los Transformers procesan secuencias enteras en paralelo en lugar de secuencialmente, lo que permite un entrenamiento más rápido en las GPU y un mejor manejo de los LSTM. más rápido en las GPU y un mejor manejo del contexto global.

Ejemplo de aplicación

El siguiente ejemplo muestra cómo definir una capa LSTM estándar utilizando PyTorch. Este fragmento inicializa una capa y procesa un lote ficticio de datos secuenciales. lote ficticio de datos secuenciales, un flujo de trabajo común en análisis de series temporales.

import torch
import torch.nn as nn

# Define an LSTM layer: input_dim=10, hidden_dim=20, num_layers=2
lstm_layer = nn.LSTM(input_size=10, hidden_size=20, num_layers=2, batch_first=True)

# Create dummy input: (batch_size=5, sequence_length=3, input_dim=10)
input_seq = torch.randn(5, 3, 10)

# Forward pass: Returns output and (hidden_state, cell_state)
output, (hn, cn) = lstm_layer(input_seq)

print(f"Output shape: {output.shape}")  # Expected: torch.Size([5, 3, 20])

Otras lecturas y recursos

Para profundizar más en los LSTM, puede consultar el trabajo de investigación original de Hochreiter y Schmidhuber, en el que se describen los LSTM. de Hochreiter y Schmidhuber que introdujo el concepto. que introdujo el concepto. Para los interesados en la implementación práctica, la documentación oficial de PyTorch LSTM y la TensorFlow Keras LSTM API proporcionan guías completas. Además, los cursos de Universidad de Stanford sobre PNL a menudo cubren los teóricos de los modelos de secuencias. Comprender estos componentes es crucial para dominar sistemas de IA complejos, desde sencillos motores de voz a texto hasta avanzados.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora