Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glossário

Memória de Longo Prazo (LSTM)

Descubra como as redes de Memória de Longo Prazo (LSTM) se destacam no tratamento de dados sequenciais, superando as limitações das RNNs e impulsionando tarefas de IA como PNL e previsão.

Long Short-Term Memory (LSTM) é um tipo especializado de arquitetura de Rede Neural Recorrente (RNN) projetada para aprender e lembrar padrões em longas sequências de dados. Ao contrário das RNNs padrão, que têm dificuldades com dependências de longo prazo devido ao problema do desaparecimento do gradiente, as LSTMs usam um mecanismo de gating exclusivo para regular o fluxo de informações. Isso permite que a rede retenha seletivamente informações importantes por longos períodos, descartando dados irrelevantes, tornando-a uma pedra angular do aprendizado profundo moderno, especialmente no Processamento de Linguagem Natural (PNL). O artigo fundamental sobre LSTM de Hochreiter e Schmidhuber lançou as bases para esta poderosa tecnologia.

Como as LSTMs Funcionam

A chave para a capacidade de um LSTM é sua estrutura interna, que inclui um "estado da célula" e vários "gates". O estado da célula atua como uma esteira transportadora, carregando informações relevantes através da sequência. Os gates—entrada, esquecimento e saída—são redes neurais que controlam quais informações são adicionadas, removidas ou lidas do estado da célula.

  • Forget Gate (Portão do Esquecimento): Decide quais informações do estado da célula anterior devem ser descartadas.
  • Gate de Entrada: Determina quais novas informações da entrada atual devem ser armazenadas no estado da célula.
  • Portão de Saída: Controla quais informações do estado da célula são usadas para gerar a saída para o passo de tempo atual.

Essa estrutura de gating permite que as LSTMs mantenham o contexto por muitos passos de tempo, um recurso crítico para entender dados sequenciais como texto ou séries temporais. Uma visualização detalhada pode ser encontrada nesta popular postagem de blog sobre como entender as LSTMs.

Aplicações no Mundo Real

As LSTMs têm sido aplicadas com sucesso em vários domínios que envolvem dados sequenciais.

  1. Tradução Automática: LSTMs podem processar uma frase em um idioma palavra por palavra, construir uma representação interna (compreensão) e, em seguida, gerar uma tradução em outro idioma. Isso requer lembrar o contexto desde o início da frase para produzir uma tradução coerente. O Google Translate historicamente usou modelos baseados em LSTM para esse fim antes de fazer a transição para arquiteturas Transformer.
  2. Reconhecimento de Fala: Em aplicações de voz para texto, as LSTMs podem processar sequências de características de áudio para transcrever palavras faladas. O modelo precisa considerar sons anteriores para interpretar corretamente o atual, demonstrando sua capacidade de lidar com dependências temporais. Muitos assistentes virtuais modernos têm confiado nesta tecnologia.

Comparação com Outros Modelos de Sequência

As LSTMs fazem parte de uma família mais ampla de modelos para dados sequenciais.

  • Unidade Recorrente Com Porta (GRU): Uma GRU é uma versão simplificada de uma LSTM. Ela combina os portões de esquecimento e entrada em um único "portão de atualização" e mescla o estado da célula e o estado oculto. Isso torna as GRUs computacionalmente mais eficientes e rápidas para treinar, embora possam ser ligeiramente menos expressivas do que as LSTMs em algumas tarefas.
  • Modelos Ocultos de Markov (HMMs): HMMs são modelos probabilísticos que são menos complexos do que LSTMs. Embora úteis para tarefas de sequência mais simples, eles não conseguem capturar as dependências complexas de longo alcance que as LSTMs e outras redes neurais conseguem.
  • Transformer: A arquitetura Transformer, que se baseia num mecanismo de autoatenção, ultrapassou em grande parte as LSTMs como o estado da arte para muitas tarefas de NLP. Ao contrário do processamento sequencial das LSTMs, os Transformers podem processar todos os elementos de uma sequência em paralelo, tornando-os altamente eficientes em hardware moderno como GPUs e melhores a capturar dependências globais.

Implementação e Ferramentas

As LSTMs podem ser facilmente implementadas usando estruturas populares de aprendizado profundo, como PyTorch (ver documentação do PyTorch LSTM) e TensorFlow (ver documentação do TensorFlow LSTM). Embora a Ultralytics se concentre principalmente em modelos de Visão Computacional (CV) como o Ultralytics YOLO para tarefas como detecção de objetos e segmentação de instâncias, entender modelos de sequência é valioso, especialmente à medida que a pesquisa explora a ponte entre PNL e CV para tarefas como compreensão de vídeo ou legendagem de imagens. Você pode explorar vários modelos e conceitos de ML mais a fundo na documentação da Ultralytics. O gerenciamento do treinamento e da implantação de vários modelos pode ser simplificado usando plataformas como o Ultralytics HUB. Recursos como o DeepLearning.AI oferecem cursos que abrangem modelos de sequência, incluindo LSTMs.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora
Link copiado para a área de transferência