Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Self-Attention (механизм самовнимания)

Откройте для себя возможности самовнимания в ИИ, революционизирующие NLP, компьютерное зрение и распознавание речи благодаря контекстно-зависимой точности.

Самовнимание - это механизм в моделях глубокого обучения, который позволяет им оценивать важность различных элементов входной последовательности относительно друг друга. В отличие от традиционных архитектур, которые обрабатывают данные последовательно или локально, самовнимание позволяет модели рассматривать всю последовательность сразу и определять, какие части являются наиболее для понимания текущего элемента. Эта возможность является определяющей особенностью архитектуры архитектуры Transformer, которая произвела революцию в в различных областях, начиная от обработки естественного языка (NLP) до передового компьютерного зрения (CV). Вычисляя связей между каждой парой элементов в наборе данных, самовнимание обеспечивает глобальное понимание контекста, которое трудно достичь с помощью старых методов, таких как Рекуррентные нейронные сети (РНС).

Как работает механизм Self-Attention

Концептуально самовнимание имитирует то, как человек обрабатывает информацию, фокусируясь на конкретных деталях и игнорируя не относящиеся к делу шумы. При обработке предложения или изображения модель присваивает "баллы внимания" каждому элементу. Эти баллы определяют, насколько необходимо сосредоточиться на других частях входного сигнала при кодировании конкретного слова или пикселя.

Обычно этот процесс включает в себя создание трех векторов для каждого входного элемента: запрос, ключ и значение. Ключ и Значение.

  • Запрос: Представляет собой текущий элемент, запрашивающий соответствующую информацию.
  • Ключ: Служит идентификатором для других элементов в последовательности.
  • Значение: Содержит фактическое информационное наполнение.

Модель сравнивает запрос одного элемента с ключами всех остальных, чтобы вычислить совместимость. Эти баллы совместимости нормализуются с помощью функции softmax для создания весов. Наконец, эти веса применяются к значениям, чтобы получить новое представление с учетом контекста. Эта эффективная параллельная обработка позволяет для обучения массивных больших языковых моделей (LLM) и мощных моделей зрения с помощью современных графических процессоров. Для более глубокого визуального погружения, такие ресурсы, как Иллюстрированный трансформатор Джея Аламмара отличную интуицию.

Самостоятельное внимание по сравнению с общим вниманием

Хотя эти термины часто используются рядом, полезно отличать самовнимание от более широкого механизм внимания.

  • Самостоятельность: Запрос, ключ и значение поступают из одной и той же входной последовательности. Цель является изучение внутренних связей, например, как слова в предложении соотносятся друг с другом (например, понимание того, что "это" относится к абзацу).
  • Перекрестное внимание: Часто используется в моделях "последовательность-последовательность". Запрос поступает из одной последовательности (как декодер), а ключ и значение - из другой (как кодер). Это часто встречается в машинном переводе, где выходной сигнал на целевом языке соответствует входному сигналу на исходном языке.

Применение в реальном мире

Способность улавливать дальние зависимости сделала самонаблюдение повсеместно распространенным в современном Искусственный интеллект (ИИ).

  1. Контекстный анализ текста: в НЛП самовнимание разрешает двусмысленность. Рассмотрим слово "банк". В предложении "Он рыбачил у берега" модель использует самовнимание, чтобы связать "банк" с "рыбачил" и "река", отличая его от финансового учреждения. Этот позволяет использовать такие инструменты, как Google Translate, и чат-боты, построенные на основе Генеративный ИИ.
  2. Глобальное понимание изображений: В компьютерном зрении такие модели, как Vision Transformer (ViT), разделяют изображения на участки и используют самовнимание для связи между удаленными частями сцены. Это очень важно для обнаружения объектов в загроможденном окружении. Сайт Ultralytics RT-DETR (трансформатор обнаружения в реальном времени) позволяет достичь высокой точности за счет эффективного управления глобальным контекстом, в отличие от стандартных конволюционных нейронных сетей (CNN) которые фокусируются на локальных признаках.

Пример кода

Следующий фрагмент на Python демонстрирует, как загрузить и использовать модель на основе трансформатора, которая полагается на самовнимание для вывода с помощью ultralytics пакет.

from ultralytics import RTDETR

# Load the RT-DETR model, which uses self-attention for object detection
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects with global context
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting bounding boxes and class probabilities
results[0].show()

Важность в современных архитектурах

Самостоятельное внимание было представлено в основополагающей работе "Attention Is All You Need" ("Внимание - это все, что вам нужно"), написанной исследователями Google . В ней она позволила решить проблему исчезающего градиента, которая которая была характерна для более ранних архитектур глубокого обучения, что позволило создать базовых моделей, таких как GPT-4.

Хотя модели, основанные на внимании, являются мощными, они могут быть вычислительно дорогими. Для многих приложений, работающих в режиме реального времени, эффективные модели на основе CNN, такие как YOLO11 остаются рекомендуется выбирать из-за их скорости и небольшого объема памяти. Однако гибридные подходы и оптимизированные трансформеры продолжают расширять границы машинного обучения. В перспективе новые архитектуры, такие как YOLO26, нацелены на интеграцию лучшего из обоих миров, предлагая сквозные возможности на платформеUltralytics . Такие фреймворки, как PyTorch и TensorFlow предоставляют разработчикам строительные блоки для экспериментировать с этими продвинутыми слоями самообслуживания.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас