Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Long Short-Term Memory (LSTM)

Изучи сети долгой краткосрочной памяти (LSTM). Узнай, как LSTM решают проблему затухающего градиента в RNN для анализа временных рядов, задач NLP и анализа видео.

Долгая краткосрочная память (LSTM) — это специализированный тип архитектуры рекуррентных нейронных сетей (RNN), способный учитывать порядок данных при решении задач прогнозирования последовательностей. В отличие от стандартных нейронных сетей прямого распространения, LSTM имеют обратные связи, которые позволяют им обрабатывать не только отдельные точки данных (например, изображения), но и целые последовательности (например, речь или видео). Эта возможность делает их уникально подходящими для задач, где контекст предыдущих входных данных критически важен для понимания текущих, что решает проблему ограничений «краткосрочной памяти» традиционных RNN.

Link to this sectionПроблема стандартных RNN#

Чтобы понять инновационность LSTM, стоит взглянуть на проблемы, с которыми сталкиваются базовые рекуррентные нейронные сети. Хотя RNN предназначены для обработки последовательной информации, они плохо справляются с длинными последовательностями данных из-за проблемы исчезающего градиента. По мере того как сеть выполняет обратное распространение ошибки во времени, градиенты — значения, используемые для обновления весов сети — могут становиться экспоненциально меньше, что фактически мешает сети изучать связи между отдаленными событиями. Это означает, что стандартная RNN может запомнить слово из предыдущего предложения, но забыть контекст, установленный тремя абзацами ранее. LSTM были специально разработаны для решения этой проблемы путем внедрения более сложной внутренней структуры, способной поддерживать контекстное окно в течение гораздо более длительных периодов.

Link to this sectionКак работают LSTM#

Основная концепция LSTM — это состояние ячейки, часто описываемое как конвейерная лента, проходящая через всю цепь сети. Это состояние позволяет информации проходить вдоль нее без изменений, сохраняя долгосрочные зависимости. Сеть принимает решения о том, что хранить, обновлять или удалять из этого состояния ячейки, используя структуры, называемые вентилями.

  • Вентиль забывания (Forget Gate): Этот механизм решает, какая информация больше не актуальна и должна быть удалена из состояния ячейки. Например, если языковая модель сталкивается с новым подлежащим, она может «забыть» род предыдущего подлежащего.
  • Вентиль ввода (Input Gate): Этот вентиль определяет, какая новая информация достаточно важна, чтобы быть сохраненной в состоянии ячейки.
  • Вентиль вывода (Output Gate): Наконец, этот вентиль контролирует, какие части внутреннего состояния должны быть переданы на следующий скрытый слой и использованы для немедленного прогнозирования.

Регулируя этот поток информации, LSTM могут преодолевать временные лаги более чем в 1000 шагов, значительно превосходя обычные RNN в задачах, требующих анализа временных рядов.

Link to this sectionРеальные приложения#

LSTM стали двигателем многих крупных прорывов в глубоком обучении за последнее десятилетие. Вот два ярких примера их применения:

  • Моделирование «последовательность-в-последовательность» при переводе: LSTM лежат в основе систем машинного перевода. В этой архитектуре одна LSTM (энкодер) обрабатывает входное предложение на одном языке (например, английском) и сжимает его в контекстный вектор. Вторая LSTM (декодер) затем использует этот вектор для генерации перевода на другом языке (например, французском). Эта способность обрабатывать входные и выходные последовательности разной длины критически важна для обработки естественного языка (NLP).
  • Анализ видео и распознавание активности: В то время как сверточные нейронные сети (CNN), такие как ResNet-50, отлично справляются с идентификацией объектов на статических изображениях, им не хватает чувства времени. Объединяя CNN с LSTM, системы ИИ могут выполнять распознавание действий в видеопотоках. CNN извлекает признаки из каждого кадра, а LSTM анализирует последовательность этих признаков, чтобы определить, идет ли человек, бежит или падает.

Link to this sectionИнтеграция LSTM с компьютерным зрением#

В современном компьютерном зрении LSTM часто используются вместе с мощными экстракторами признаков. Например, ты можешь использовать модель YOLO для обнаружения объектов на отдельных кадрах, а LSTM — для отслеживания их траекторий или прогнозирования будущего движения.

Вот концептуальный пример использования torch для определения простой LSTM, которая могла бы обрабатывать последовательность векторов признаков, извлеченных из видеопотока:

import torch
import torch.nn as nn

# Define an LSTM model for processing sequential video features
# Input size: 512 (e.g., features from a CNN), Hidden size: 128
lstm_model = nn.LSTM(input_size=512, hidden_size=128, num_layers=2, batch_first=True)

# Simulate a batch of video sequences: 8 videos, 10 frames each, 512 features per frame
video_features = torch.randn(8, 10, 512)

# Pass the sequence through the LSTM
output, (hidden_state, cell_state) = lstm_model(video_features)

print(f"Output shape: {output.shape}")  # Shape: [8, 10, 128]
print("LSTM successfully processed the temporal sequence.")

Link to this sectionСвязанные концепции и различия#

Полезно отличать LSTM от других архитектур обработки последовательностей:

  • LSTM против GRU: Управляемый рекуррентный блок (GRU) — это упрощенная вариация LSTM. GRU объединяют вентили забывания и ввода в единый «вентиль обновления» и сливают состояние ячейки со скрытым состоянием. Это делает GRU более вычислительно эффективными и быстрыми в обучении, хотя LSTM все еще могут превосходить их на более крупных и сложных наборах данных.
  • LSTM против Transformer: Архитектура Transformer, которая опирается на механизмы самовнимания (self-attention) вместо рекурсии, в значительной степени вытеснила LSTM в задачах NLP, таких как те, что выполняются GPT-4. Transformer могут обрабатывать целые последовательности параллельно, а не последовательно, что позволяет значительно ускорить обучение на огромных наборах данных. Однако LSTM остаются актуальными в сценариях с ограниченными данными или специфическими ограничениями временных рядов, где накладные расходы механизмов внимания излишни.

Link to this sectionЭволюция и будущее#

Хотя механизм внимания занял центральное место в генеративном ИИ, LSTM продолжают оставаться надежным выбором для облегченных приложений, особенно в средах периферийного ИИ (edge AI), где вычислительные ресурсы ограничены. Исследователи продолжают изучать гибридные архитектуры, объединяющие эффективность памяти LSTM с репрезентативной мощностью современных систем обнаружения объектов.

Для тех, кто хочет управлять наборами данных для обучения моделей последовательностей или сложных задач компьютерного зрения, Ultralytics Platform предлагает комплексные инструменты для аннотирования и управления данными. Кроме того, понимание принципов работы LSTM обеспечивает прочную базу для освоения более продвинутых темпоральных моделей, используемых в автономных транспортных средствах и робототехнике.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения