Глоссарий

Долгая краткосрочная память (LSTM)

Узнайте, как сети Long Short-Term Memory (LSTM) превосходно справляются с обработкой последовательных данных, преодолевая ограничения RNN и поддерживая такие задачи ИИ, как NLP и прогнозирование.

Длительная кратковременная память (LSTM) - это специализированная архитектура, входящая в более широкое семейство Рекуррентные нейронные сети (РНС) разработанная для обработки последовательных данных и эффективного отражения долгосрочных зависимостей. В отличие от стандартных сетей с прямолинейным движением которые обрабатывают входные данные изолированно, LSTM имеют внутреннюю "память", которая сохраняется во времени, Это позволяет им узнавать закономерности в таких последовательностях, как текст, аудио и финансовые данные. Эта возможность позволяет устранить существенное ограничение традиционных RNN, известное как проблема исчезающего градиента, когда сеть пытается сохранить информацию с предыдущих шагов в длинной последовательности во время обучения модели. Благодаря использованию уникального механизма блокировки, LSTM могут выборочно запоминать или забывать информацию, что делает их основополагающей технологией в истории глубокого обучения (ГОО).

Как работают LSTM

Основным новшеством LSTM является состояние его ячеек, которое часто описывается как конвейерная лента, проходящая через всю цепочку сети с незначительными линейными взаимодействиями. Такая структура позволяет информации течь по ней без изменений, сохраняя контекст в длинных последовательностях. LSTM регулирует этот поток с помощью трех отдельных ворот, которые обычно состоят из слоев сигмоидальной нейронной сети и операции умножения по точкам:

Ворота забывания: Определяет, какая информация из предыдущего состояния ячейки больше не актуальна и должна быть отброшена.
Входные ворота: Решает, какая новая информация, полученная на текущем шаге ввода, является достаточно значимой, чтобы быть хранить в состоянии ячейки.
Выходные ворота: Управляет тем, какие части состояния ячейки должны быть выведены в следующее скрытое состояние, часто используя активация tanh (гиперболический тангенс) для масштабирования значений.

Эта сложная конструкция позволяет LSTM справляться с задачами, в которых разрыв между актуальной информацией и моментом, когда она необходима, велик. Концепция, наглядно представленная в известном руководстве Кристофера Олаха по пониманию LSTM. руководстве по пониманию LSTM.

Применение в реальном мире

LSTM сыграли важную роль в развитии искусственного интеллекта (ИИ) в различных отраслях. Их способность понимать временную динамику делает их идеальными для:

Обработка естественного языка (NLP): в таких задачах, как машинный перевод, LSTM могут получить предложение на одном языке и сгенерировать перевод на другом, сохраняя контекст слов, появившихся ранее. предложение на одном языке и генерировать перевод на другой, сохраняя контекст слов, встречающихся ранее в предложении. Аналогично, в анализе настроений модель может понять как модификатор в начале абзаца (например, "не") отрицает слово в конце (например, "рекомендуется").
Анализ видео и распознавание действий: Хотя Модели компьютерного зрения (CV), такие как YOLO11 отлично справляются с обнаружением объектов на статичных изображениях, LSTM могут обрабатывать последовательности признаков изображений, извлеченных Конволюционная нейронная сеть (CNN) для распознавания действий во времени, таких как "бег" или "махание рукой". Такая комбинация позволяет преодолеть разрыв между пространственным обнаружением и временным пониманием видео.

Сравнение с аналогичными архитектурами

Полезно отличать LSTM от аналогичных методов моделирования последовательности:

RNN против LSTM: Стандартный RNN имеет простую повторяющуюся структуру (обычно один слой tanh), но но не может обучаться дальним зависимостям из-за неустойчивости градиента. LSTM используют многозатворную структуру, чтобы для решения этой проблемы.
GRU в сравнении с LSTM. Gated Recurrent Unit (GRU) - это Упрощенный вариант LSTM, в котором ворота забывания и входные ворота объединены в один ворот обновления. GRU вычислительно более эффективны и часто имеют сопоставимые характеристики, что делает их популярным выбором при ограниченных вычислительных ресурсах. Вычислительные ресурсы ограничены.
Трансформатор против LSTM: современность Современная архитектура трансформеров, которая опирается на механизмы самовнимания, в значительной степени вытеснила LSTM в НЛП. Трансформаторы обрабатывают целые последовательности параллельно, а не последовательно, что позволяет ускорить обучение на графических процессорах и лучше обрабатывать глобального контекста.

Пример реализации

В следующем примере показано, как определить стандартный слой LSTM с помощью PyTorch. Этот фрагмент инициализирует слой и обрабатывает фиктивную партию последовательных данных, что является обычным процессом в анализе временных рядов.

import torch
import torch.nn as nn

# Define an LSTM layer: input_dim=10, hidden_dim=20, num_layers=2
lstm_layer = nn.LSTM(input_size=10, hidden_size=20, num_layers=2, batch_first=True)

# Create dummy input: (batch_size=5, sequence_length=3, input_dim=10)
input_seq = torch.randn(5, 3, 10)

# Forward pass: Returns output and (hidden_state, cell_state)
output, (hn, cn) = lstm_layer(input_seq)

print(f"Output shape: {output.shape}")  # Expected: torch.Size([5, 3, 20])

Дополнительное чтение и ресурсы

Чтобы глубже изучить LSTM, вы можете обратиться к оригинальной Хохрейтер и Шмидхубер представили оригинальную исследовательскую работу. в которой была представлена эта концепция. Для тех, кто интересуется практической реализацией, официальная документация поPyTorch LSTM и TensorFlow Keras LSTM API предоставляют исчерпывающие руководства. Кроме того, в курсах Стэнфордского университета по НЛП часто посвящены теоретическим теоретические основы моделей последовательности. Понимание этих компонентов имеет решающее значение для освоения сложных систем ИИ, от простых механизмов преобразования речи в текст до продвинутых автономных агентов.

Долгая краткосрочная память (LSTM)

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Как работают LSTM

Применение в реальном мире

Сравнение с аналогичными архитектурами

Пример реализации

Дополнительное чтение и ресурсы

Читать больше в этой категории

Очки Oakley Meta AI переосмысливают концепцию очков с помощью Vision AI

Компьютерное зрение делает бинокли для наблюдения за птицами более интеллектуальными

Самостоятельное обучение для удаления шумов: пошаговое разъяснение

Присоединяйтесь к сообществу Ultralytics