Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Долгая краткосрочная память (LSTM)

Узнайте, как сети Long Short-Term Memory (LSTM) превосходно справляются с обработкой последовательных данных, преодолевая ограничения RNN и поддерживая такие задачи ИИ, как NLP и прогнозирование.

Долгая краткосрочная память (LSTM) — это специализированный тип архитектуры рекуррентной нейронной сети (RNN), предназначенный для изучения и запоминания закономерностей в длинных последовательностях данных. В отличие от стандартных RNN, которые испытывают трудности с долгосрочными зависимостями из-за проблемы исчезающего градиента, LSTM используют уникальный механизм стробирования для регулирования потока информации. Это позволяет сети выборочно сохранять важную информацию в течение длительных периодов времени, отбрасывая при этом нерелевантные данные, что делает ее краеугольным камнем современного глубокого обучения, особенно в обработке естественного языка (NLP). Фундаментальная статья об LSTM, написанная Хохрейтером и Шмидхубером, заложила основу для этой мощной технологии.

Как работают LSTM

Ключом к возможностям LSTM является его внутренняя структура, которая включает в себя «состояние ячейки» и несколько «вентилей». Состояние ячейки действует как конвейерная лента, передавая релевантную информацию по последовательности. Вентили — входной, забывающий и выходной — это нейронные сети, которые контролируют, какая информация добавляется, удаляется или считывается из состояния ячейки.

  • Вентиль забывания: Решает, какую информацию из предыдущего состояния ячейки следует отбросить.
  • Входной вентиль: Определяет, какая новая информация из текущего входа должна быть сохранена в состоянии ячейки.
  • Выходной вентиль (Output Gate): Контролирует, какая информация из состояния ячейки используется для генерации выходных данных для текущего временного шага.

Эта структура стробирования позволяет LSTM поддерживать контекст на протяжении многих временных шагов, что является критически важной особенностью для понимания последовательных данных, таких как текст или временные ряды. Подробную визуализацию можно найти в популярной статье блога Understanding LSTMs.

Применение в реальном мире

LSTM успешно применяются во многих областях, связанных с последовательными данными.

  1. Машинный перевод: LSTM могут обрабатывать предложение на одном языке слово за словом, строить внутреннее представление (понимание), а затем генерировать перевод на другом языке. Это требует запоминания контекста с начала предложения для получения связного перевода. Google Translate исторически использовал модели на основе LSTM для этой цели, прежде чем перейти к архитектурам Transformer.
  2. Распознавание речи: В приложениях преобразования речи в текст LSTM могут обрабатывать последовательности аудиоданных для транскрибирования произнесенных слов. Модель должна учитывать предыдущие звуки, чтобы правильно интерпретировать текущий, демонстрируя свою способность обрабатывать временные зависимости. Многие современные виртуальные помощники полагались на эту технологию.

Сравнение с другими моделями последовательностей

LSTM являются частью более широкого семейства моделей для последовательных данных.

  • Управляемый рекуррентный блок (GRU): GRU — это упрощенная версия LSTM. Он объединяет вентили забывания и ввода в один «вентиль обновления» и объединяет состояние ячейки и скрытое состояние. Это делает GRU вычислительно более эффективными и быстрыми в обучении, хотя они могут быть немного менее выразительными, чем LSTM, в некоторых задачах.
  • Скрытые марковские модели (HMM): HMM — это вероятностные модели, которые менее сложны, чем LSTM. Будучи полезными для более простых задач с последовательностями, они не могут улавливать сложные, дальние зависимости, которые могут LSTM и другие нейронные сети.
  • Transformer: Архитектура Transformer, которая опирается на механизм самовнимания, в значительной степени превзошла LSTM как современный метод для многих задач NLP. В отличие от последовательной обработки LSTM, Transformers могут обрабатывать все элементы последовательности параллельно, что делает их очень эффективными на современном оборудовании, таком как графические процессоры, и лучше улавливает глобальные зависимости.

Реализация и инструменты

LSTM можно легко реализовать с помощью популярных фреймворков глубокого обучения, таких как PyTorch (см. документацию PyTorch LSTM) и TensorFlow (см. документацию TensorFlow LSTM). Хотя Ultralytics в основном фокусируется на моделях компьютерного зрения (CV), таких как Ultralytics YOLO, для таких задач, как обнаружение объектов и сегментация экземпляров, понимание последовательных моделей является ценным, особенно по мере того, как исследования изучают соединение NLP и CV для таких задач, как понимание видео или создание подписей к изображениям. Вы можете изучить различные модели и концепции машинного обучения в документации Ultralytics. Управление обучением и развертыванием различных моделей можно упростить с помощью таких платформ, как Ultralytics HUB. Такие ресурсы, как DeepLearning.AI, предлагают курсы, охватывающие последовательные модели, включая LSTM.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена