Descobre como as redes de Memória de Curto Prazo Longo (LSTM) se destacam no tratamento de dados sequenciais, ultrapassando as limitações das RNN e potenciando tarefas de IA como a PNL e a previsão.
A Memória de Longo Prazo (LSTM) é um tipo especializado de arquitetura de Rede Neuronal Recorrente (RNN) concebida para ultrapassar as limitações das RNN tradicionais na aprendizagem de dependências de longo alcance. Introduzidas por Sepp Hochreiter e Jürgen Schmidhuber em 1997, as LSTMs são particularmente eficazes no processamento de sequências de dados, como texto, fala e séries temporais, em que o contexto de partes anteriores da sequência é crucial para a compreensão de partes posteriores. Esta capacidade torna-os uma tecnologia fundamental em várias aplicações de aprendizagem profunda (DL).
As RNNs tradicionais enfrentam o problema do gradiente decrescente, em que as informações das etapas iniciais de uma sequência desaparecem à medida que se propagam pela rede, dificultando a aprendizagem de dependências em intervalos longos. Os LSTMs resolvem esse problema usando uma estrutura única que envolve células de memória e portas.
O componente central é a célula de memória, que actua como uma correia transportadora, permitindo que a informação flua através da rede de forma relativamente inalterada. Os LSTMs utilizam três "portas" principais para regular a informação armazenada na célula de memória:
Estas portas, implementadas utilizando funções de ativação como a sigmoide e a tanh, aprendem que informação é importante manter ou descartar em cada passo de tempo, permitindo que a rede mantenha o contexto relevante em sequências alargadas.
Os LSTMs têm sido aplicados com sucesso em vários domínios que requerem modelação de sequências:
Embora poderosos, os LSTMs fazem parte de uma família mais vasta de modelos de sequência:
Os LSTMs podem ser facilmente implementados utilizando estruturas populares de aprendizagem profunda, tais como PyTorch (ver documentaçãoPyTorch LSTM) e TensorFlow (ver a documentaçãoTensorFlow LSTM). Embora Ultralytics se concentre principalmente em modelos de visão computacional (CV) como o Ultralytics YOLO para tarefas como a deteção de objectos e a segmentação de instâncias, é importante compreender os modelos de sequência, especialmente porque a investigação explora a ligação entre a PNL e a CV para tarefas como a compreensão de vídeos ou a legendagem de imagens. Podes explorar vários modelos e conceitos de ML na documentaçãoUltralytics . A gestão da formação e da implementação de vários modelos pode ser simplificada utilizando plataformas como o Ultralytics HUB. O artigo fundamental sobre LSTM de Hochreiter e Schmidhuber fornece os pormenores técnicos originais. Recursos como DeepLearning.AI oferecem cursos que abrangem modelos de sequência, incluindo LSTMs.