Glosario

Memoria larga a corto plazo (LSTM)

Descubra cómo las redes de memoria larga a corto plazo (LSTM) destacan en el manejo de datos secuenciales, superando las limitaciones de las RNN y potenciando tareas de IA como la PNL y la predicción.

La memoria a largo plazo (LSTM) es un tipo especializado de arquitectura de red neuronal recurrente (RNN ) diseñada para aprender y recordar patrones en secuencias largas de datos. A diferencia de las RNN estándar, que tienen dificultades con las dependencias a largo plazo debido al problema del gradiente de fuga, las LSTM utilizan un mecanismo de compuerta único para regular el flujo de información. Esto permite a la red retener selectivamente información importante durante largos periodos de tiempo y descartar datos irrelevantes, lo que la convierte en la piedra angular del aprendizaje profundo moderno, especialmente en el procesamiento del lenguaje natural (PLN). El artículo fundacional de Hochreiter y Schmidhuber sobre las LSTM sentó las bases de esta potente tecnología.

Cómo funcionan los LSTM

La clave de la capacidad de una LSTM es su estructura interna, que incluye un "estado de celda" y varias "puertas". El estado celular actúa como una cinta transportadora que lleva la información relevante a través de la secuencia. Las puertas (entrada, olvido y salida) son redes neuronales que controlan qué información se añade, se elimina o se lee del estado de la célula.

  • Puerta de olvido: Decide qué información del estado anterior de la célula debe descartarse.
  • Puerta de entrada: Determina qué nueva información de la entrada actual debe almacenarse en el estado de la célula.
  • Puerta de salida: Controla qué información del estado de la celda se utiliza para generar la salida para el paso de tiempo actual.

Esta estructura de compuerta permite a las LSTM mantener el contexto a lo largo de muchos pasos temporales, una característica fundamental para comprender datos secuenciales como texto o series temporales. Puedes encontrar una visualización detallada en esta popular entrada del blog Understanding LSTMs.

Aplicaciones reales

Los LSTM se han aplicado con éxito en numerosos dominios que implican datos secuenciales.

  1. Traducción automática: Las LSTM pueden procesar una frase en un idioma palabra por palabra, construir una representación interna (comprensión) y, a continuación, generar una traducción en otro idioma. Esto requiere recordar el contexto desde el principio de la frase para producir una traducción coherente. Google Translate ha utilizado históricamente modelos basados en LSTM para este fin antes de pasar a las arquitecturas Transformer.
  2. Reconocimiento del habla: En aplicaciones de conversión de voz a texto, las LSTM pueden procesar secuencias de características de audio para transcribir palabras habladas. El modelo debe tener en cuenta los sonidos anteriores para interpretar correctamente el actual, lo que demuestra su capacidad para manejar dependencias temporales. Muchos asistentes virtuales modernos se han basado en esta tecnología.

Comparación con otros modelos de secuencias

Los LSTM forman parte de una familia más amplia de modelos para datos secuenciales.

  • Unidad Recurrente Controlada (GRU): Una GRU es una versión simplificada de una LSTM. Combina las puertas de olvido y entrada en una única "puerta de actualización" y fusiona el estado de la célula y el estado oculto. Esto hace que las GRU sean computacionalmente más eficientes y rápidas de entrenar, aunque pueden ser ligeramente menos expresivas que las LSTM en algunas tareas.
  • Modelos ocultos de Markov (HMM): Los HMM son modelos probabilísticos menos complejos que los LSTM. Aunque son útiles para tareas de secuenciación más sencillas, no pueden captar las dependencias complejas y de largo alcance que sí pueden captar las LSTM y otras redes neuronales.
  • Transformador: La arquitectura Transformer, basada en un mecanismo de autoatención, ha superado ampliamente a las LSTM como tecnología punta para muchas tareas de PLN. A diferencia del procesamiento secuencial de las LSTM, los Transformers pueden procesar todos los elementos de una secuencia en paralelo, lo que los hace muy eficientes en hardware moderno como las GPU y mejores a la hora de captar dependencias globales.

Aplicación y herramientas

Los LSTM se pueden implementar fácilmente utilizando marcos de aprendizaje profundo populares como PyTorch (consulte la documentación de PyTorch LSTM) y TensorFlow (consulte la documentación de TensorFlow LSTM). Aunque Ultralytics se centra principalmente en modelos de visión por ordenador (CV) como Ultralytics YOLO para tareas como la detección de objetos y la segmentación de instancias, comprender los modelos de secuencias es valioso, especialmente a medida que la investigación explora la vinculación entre la PLN y la CV para tareas como la comprensión de vídeos o el subtitulado de imágenes. En la documentación de Ultralytics encontrará más información sobre diversos modelos y conceptos de ML. La gestión de la formación y el despliegue de varios modelos puede agilizarse utilizando plataformas como Ultralytics HUB. Recursos como DeepLearning.AI ofrecen cursos sobre modelos secuenciales, incluidos los LSTM.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles