Glossário

Memória longa de curto prazo (LSTM)

Descobre como as redes de Memória de Curto Prazo Longo (LSTM) se destacam no tratamento de dados sequenciais, ultrapassando as limitações das RNN e potenciando tarefas de IA como a PNL e a previsão.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A Memória de Longo Prazo (LSTM) é um tipo especializado de arquitetura de Rede Neuronal Recorrente (RNN) concebida para ultrapassar as limitações das RNN tradicionais na aprendizagem de dependências de longo alcance. Introduzidas por Sepp Hochreiter e Jürgen Schmidhuber em 1997, as LSTMs são particularmente eficazes no processamento de sequências de dados, como texto, fala e séries temporais, em que o contexto de partes anteriores da sequência é crucial para a compreensão de partes posteriores. Esta capacidade torna-os uma tecnologia fundamental em várias aplicações de aprendizagem profunda (DL).

Como funcionam os LSTMs

As RNNs tradicionais enfrentam o problema do gradiente decrescente, em que as informações das etapas iniciais de uma sequência desaparecem à medida que se propagam pela rede, dificultando a aprendizagem de dependências em intervalos longos. Os LSTMs resolvem esse problema usando uma estrutura única que envolve células de memória e portas.

O componente central é a célula de memória, que actua como uma correia transportadora, permitindo que a informação flua através da rede de forma relativamente inalterada. Os LSTMs utilizam três "portas" principais para regular a informação armazenada na célula de memória:

  1. Porta de esquecimento: Decide qual a informação a deitar fora do estado da célula.
  2. Porta de entrada: Decide qual a nova informação a armazenar no estado da célula.
  3. Porta de saída: Decide que parte do estado da célula deve ser emitida.

Estas portas, implementadas utilizando funções de ativação como a sigmoide e a tanh, aprendem que informação é importante manter ou descartar em cada passo de tempo, permitindo que a rede mantenha o contexto relevante em sequências alargadas.

Aplicações no mundo real

Os LSTMs têm sido aplicados com sucesso em vários domínios que requerem modelação de sequências:

  • Processamento de linguagem natural (PNL): Os LSTMs são excelentes em tarefas como tradução automática (por exemplo, traduzir frases longas preservando o significado), análise de sentimentos (compreender opiniões expressas em texto) e modelação de linguagem. Por exemplo, um LSTM pode processar um parágrafo de texto para compreender o sentimento geral, lembrando-se de frases-chave do início que influenciam o significado no final.
  • Reconhecimento de fala: São utilizados para converter a linguagem falada em texto, modelando as dependências temporais nos sinais de áudio. Um sistema baseado em LSTM pode reconhecer palavras e frases considerando a sequência de sons ao longo do tempo, melhorando a precisão em comparação com modelos que não captam o contexto de longo alcance. Os sistemas de reconhecimento de voz daGoogle têm utilizado historicamente LSTMs.
  • Análise de séries temporais: Os LSTMs são aplicados para prever valores futuros com base em dados históricos, como preços de acções, padrões meteorológicos ou consumo de energia. A sua capacidade de memorizar tendências a longo prazo torna-os adequados para modelos de previsão complexos.
  • Análise de vídeo: Os LSTMs podem processar sequências de quadros de vídeo para compreender acções ou eventos que ocorrem ao longo do tempo, contribuindo para aplicações como o reconhecimento de actividades.

LSTMs vs. Arquitecturas relacionadas

Embora poderosos, os LSTMs fazem parte de uma família mais vasta de modelos de sequência:

  • RNNs: Os LSTMs são um tipo de RNN especificamente concebido para evitar os problemas de memória de curto prazo dos RNNs simples.
  • Unidades recorrentes fechadas (Gated Recurrent Units - GRUs): As GRUs são uma variação das LSTMs com uma arquitetura mais simples (menos portas). Têm frequentemente um desempenho comparável ao dos LSTMs em determinadas tarefas, sendo computacionalmente menos intensivas.
  • Transformers: Introduzidos mais tarde, os transformadores baseiam-se em mecanismos de atenção em vez de recorrência. Ultrapassaram largamente os LSTMs em termos de desempenho no estado da arte para muitas tarefas de PNL, particularmente em modelos de linguagem de grande dimensão (LLMs) como o GPT-4. Arquitecturas como a Longformer alargam ainda mais as capacidades dos Transformers para sequências muito longas.

Implementação e ferramentas

Os LSTMs podem ser facilmente implementados utilizando estruturas populares de aprendizagem profunda, tais como PyTorch (ver documentaçãoPyTorch LSTM) e TensorFlow (ver a documentaçãoTensorFlow LSTM). Embora Ultralytics se concentre principalmente em modelos de visão computacional (CV) como o Ultralytics YOLO para tarefas como a deteção de objectos e a segmentação de instâncias, é importante compreender os modelos de sequência, especialmente porque a investigação explora a ligação entre a PNL e a CV para tarefas como a compreensão de vídeos ou a legendagem de imagens. Podes explorar vários modelos e conceitos de ML na documentaçãoUltralytics . A gestão da formação e da implementação de vários modelos pode ser simplificada utilizando plataformas como o Ultralytics HUB. O artigo fundamental sobre LSTM de Hochreiter e Schmidhuber fornece os pormenores técnicos originais. Recursos como DeepLearning.AI oferecem cursos que abrangem modelos de sequência, incluindo LSTMs.

Lê tudo