Глоссарий

Длительная кратковременная память (LSTM)

Узнайте, как сети с долговременной кратковременной памятью (LSTM) справляются с последовательными данными, преодолевают ограничения RNN и обеспечивают работу таких задач ИИ, как НЛП и прогнозирование.

Длительная кратковременная память (LSTM) - это специализированный тип архитектуры рекуррентной нейронной сети (RNN), предназначенной для обучения и запоминания паттернов на длинных последовательностях данных. В отличие от стандартных RNN, которые не справляются с долгосрочными зависимостями из-за проблемы исчезающего градиента, LSTM используют уникальный механизм блокировки для регулирования потока информации. Это позволяет сети выборочно сохранять важную информацию в течение длительных периодов времени, отбрасывая при этом нерелевантные данные, что делает ее краеугольным камнем современного глубокого обучения, особенно в области обработки естественного языка (NLP). Основополагающая статья Хохрейтера и Шмидхубера о LSTM заложила основу для этой мощной технологии.

Как работают LSTM

Ключом к возможностям LSTM является его внутренняя структура, которая включает в себя "состояние ячейки" и несколько "ворот". Состояние ячейки действует как конвейерная лента, переносящая соответствующую информацию через последовательность. Ворота - вход, забывание и выход - представляют собой нейронные сети, которые управляют тем, какая информация добавляется, удаляется или считывается из состояния ячейки.

  • Ворота забывания: Решает, какая информация из предыдущего состояния ячейки должна быть отброшена.
  • Входные ворота: Определяет, какая новая информация из текущего входа должна быть сохранена в состоянии ячейки.
  • Выходные ворота: Управляет тем, какая информация из состояния ячейки используется для генерации выходного сигнала для текущего временного шага.

Такая структура стробирования позволяет LSTM сохранять контекст на протяжении многих временных шагов, что очень важно для понимания последовательных данных, таких как текст или временные ряды. Подробную визуализацию можно найти в этой популярной статье блога Understanding LSTMs.

Применение в реальном мире

LSTM успешно применяются во многих областях, где используются последовательные данные.

  1. Машинный перевод: LSTM могут обрабатывать предложение на одном языке слово за словом, создавать внутреннее представление (понимание), а затем генерировать перевод на другой язык. При этом для создания связного перевода требуется запоминание контекста с самого начала предложения. Google Translate исторически использовал модели на основе LSTM для этой цели, прежде чем перейти к архитектуре Transformer.
  2. Распознавание речи: В приложениях для преобразования речи в текст LSTM могут обрабатывать последовательности звуковых признаков для расшифровки произносимых слов. Модель должна учитывать предыдущие звуки, чтобы правильно интерпретировать текущий, что демонстрирует ее способность обрабатывать временные зависимости. На эту технологию опираются многие современные виртуальные помощники.

Сравнение с другими моделями последовательностей

LSTM являются частью более широкого семейства моделей для последовательных данных.

  • Рекуррентный блок с управлением (Gated Recurrent Unit, GRU): GRU - это упрощенная версия LSTM. Он объединяет ворота забывания и входные ворота в один "ворот обновления" и объединяет состояние ячейки и скрытое состояние. Это делает GRU более эффективными с вычислительной точки зрения и более быстрыми в обучении, хотя в некоторых задачах они могут быть немного менее выразительными, чем LSTM.
  • Скрытые марковские модели (HMM): HMM - это вероятностные модели, которые менее сложны, чем LSTM. Хотя они полезны для более простых задач, связанных с последовательностью, они не могут уловить сложные, дальние зависимости, которые могут уловить LSTM и другие нейронные сети.
  • Трансформатор: Архитектура Transformer, основанная на механизме самовнимания, в значительной степени превзошла LSTM в качестве передового решения для многих задач НЛП. В отличие от последовательной обработки LSTM, трансформеры могут обрабатывать все элементы последовательности параллельно, что делает их высокоэффективными на современном оборудовании, таком как GPU, и позволяет лучше улавливать глобальные зависимости.

Реализация и инструменты

LSTM могут быть легко реализованы с помощью популярных фреймворков глубокого обучения, таких как PyTorch (см. документацию по PyTorch LSTM) и TensorFlow (см. документацию по TensorFlow LSTM). Хотя Ultralytics в основном фокусируется на моделях компьютерного зрения (CV), таких как Ultralytics YOLO, для таких задач, как обнаружение объектов и сегментация экземпляров, понимание моделей последовательности является ценным, особенно в связи с исследованиями, направленными на объединение NLP и CV для таких задач, как понимание видео или создание подписей к изображениям. Вы можете подробнее изучить различные модели и концепции ML в документации Ultralytics. Управление обучением и развертыванием различных моделей можно упростить с помощью таких платформ, как Ultralytics HUB. Такие ресурсы, как DeepLearning.AI, предлагают курсы, посвященные последовательным моделям, включая LSTM.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена