Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Self-Attention (механизм самовнимания)

Откройте для себя возможности самовнимания в ИИ, революционизирующие NLP, компьютерное зрение и распознавание речи благодаря контекстно-зависимой точности.

Self-attention (механизм самовнимания) — это механизм, позволяющий модели оценивать важность различных элементов в пределах одной входной последовательности. Вместо того чтобы относиться ко всем частям входных данных одинаково, он позволяет модели выборочно фокусироваться на наиболее релевантных частях при обработке конкретного элемента. Эта возможность имеет решающее значение для понимания контекста, долгосрочных зависимостей и взаимосвязей в данных, формируя основу многих современных архитектур искусственного интеллекта (ИИ), особенно Transformer. Он был представлен в основополагающей статье "Attention Is All You Need", которая произвела революцию в области обработки естественного языка (NLP).

Как работает механизм Self-Attention

По своей сути, самовнимание работает путем присвоения «оценки внимания» каждому другому элементу во входной последовательности относительно элемента, который в данный момент обрабатывается. Это достигается путем создания трех векторов для каждого входного элемента: Query (Q), Key (K) и Value (V).

  1. Запрос: Представляет текущий элемент, который «ищет» контекст.
  2. Ключ: Представляет все элементы в последовательности, с которыми можно сравнить Запрос для поиска релевантной информации.
  3. Значение: Представляет фактическое содержание каждого элемента, которое будет агрегировано на основе оценок внимания.

Для данного запроса механизм вычисляет его сходство со всеми ключами в последовательности. Затем эти оценки сходства преобразуются в веса (часто с использованием функции softmax), которые определяют, какое внимание следует уделять значению каждого элемента. Окончательный вывод для запроса представляет собой взвешенную сумму всех значений, создавая новое представление этого элемента, обогащенное контекстом всей последовательности. Этот процесс является ключевой частью работы больших языковых моделей (LLM). Отличное визуальное объяснение этого процесса Q-K-V можно найти в таких ресурсах, как блог Джея Аламмара.

Self-Attention (механизм самовнимания) vs. механизм внимания

Self-attention (механизм самовнимания) — это особый тип механизма внимания. Ключевое различие заключается в источнике векторов Query (запрос), Key (ключ) и Value (значение).

  • Self-Attention (механизм самовнимания): Все три вектора (Q, K, V) получены из одной и той же входной последовательности. Это позволяет модели анализировать внутренние взаимосвязи внутри одного предложения или изображения.
  • Общее внимание (или перекрестное внимание): Вектор запроса может поступать из одной последовательности, а векторы ключа и значения - из другой. Это часто встречается в задачах sequence-to-sequence, таких как машинный перевод, где декодер (генерирующий переведенный текст) обращает внимание на представление исходного текста, полученное кодировщиком.

Приложения в области ИИ и компьютерного зрения

Хотя механизм self-attention впервые получил распространение в NLP для таких задач, как суммирование и перевод текста, он также оказался весьма эффективным в компьютерном зрении (CV).

  • Обработка естественного языка: В таком предложении, как «Робот поднял гаечный ключ, потому что он был тяжелым», само-внимание позволяет модели правильно связать «он» с «гаечным ключом», а не с «роботом». Это понимание является основополагающим для таких моделей, как BERT и GPT-4.
  • Компьютерное зрение: Модель Vision Transformer (ViT) применяет механизм самовнимания к фрагментам изображения, позволяя ей изучать взаимосвязи между различными частями визуальной сцены для таких задач, как классификация изображений. Некоторые модели обнаружения объектов также включают модули на основе механизма внимания для уточнения карт признаков и повышения точности. Хотя некоторые модели, такие как YOLO12, используют механизм внимания, для большинства случаев использования мы рекомендуем надежную и эффективную модель Ultralytics YOLO11.

Будущие направления

Исследования продолжают совершенствовать механизмы самовнимания, стремясь к большей вычислительной эффективности (например, методы, такие как FlashAttention и варианты разреженного внимания) и более широкой применимости. Ожидается, что по мере усложнения моделей ИИ самовнимание останется краеугольным камнем технологии, стимулируя прогресс в областях от специализированных приложений ИИ, таких как робототехника, до стремления к Общему искусственному интеллекту (AGI). Инструменты и платформы, такие как Ultralytics HUB, облегчают обучение и развертывание моделей, включающих эти передовые методы, часто доступные через репозитории, такие как Hugging Face, и разработанные с использованием таких фреймворков, как PyTorch и TensorFlow.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена