Глоссарий

Самообман

Откройте для себя силу самовнимания в искусственном интеллекте, революционизирующем НЛП, компьютерное зрение и распознавание речи с точностью до контекста.

Самовнимание - это механизм, который позволяет модели оценивать важность различных элементов в рамках одной входной последовательности. Вместо того чтобы одинаково относиться к каждой части входных данных, он позволяет модели выборочно фокусироваться на наиболее значимых частях при обработке конкретного элемента. Эта способность имеет решающее значение для понимания контекста, дальних зависимостей и отношений внутри данных, составляя основу многих современных архитектур искусственного интеллекта (ИИ), в частности трансформера. Она была представлена в фундаментальной статье "Attention Is All You Need", которая произвела революцию в области обработки естественного языка (NLP).

Как работает самовнушение

По своей сути самовнимание работает путем присвоения "оценки внимания" каждому другому элементу входной последовательности относительно элемента, который обрабатывается в данный момент. Это достигается путем создания трех векторов для каждого входного элемента: запрос (Q), ключ (K) и значение (V).

  1. Запрос: Представляет текущий элемент, который "ищет" контекст.
  2. Ключ: Представляет все элементы в последовательности, с которыми можно сравнить запрос для поиска релевантной информации.
  3. Значение: Представляет собой фактическое содержание каждого элемента, которое будет агрегировано на основе оценок внимания.

Для данного запроса механизм вычисляет его сходство со всеми Ключами в последовательности. Затем эти оценки сходства преобразуются в веса (часто с помощью функции softmax ), которые определяют, насколько большое внимание должно быть уделено Значению каждого элемента. Конечным результатом запроса является взвешенная сумма всех Значений, создающая новое представление данного элемента, обогащенное контекстом всей последовательности. Этот процесс является ключевой частью работы больших языковых моделей (LLM). Отличное визуальное объяснение этого процесса Q-K-V можно найти на таких ресурсах, как блог Джея Аламмара.

Самостоятельное внимание против механизма внимания

Самовнимание - это особый тип механизма внимания. Ключевым отличием является источник векторов Query, Key и Value.

  • Самостоятельная работа: Все три вектора (Q, K, V) формируются из одной и той же входной последовательности. Это позволяет модели анализировать внутренние взаимосвязи внутри одного предложения или изображения.
  • Общее внимание (или перекрестное внимание): Вектор запроса может быть из одной последовательности, а векторы ключа и значения - из другой. Это часто встречается в задачах машинного перевода с последовательности на последовательность, когда декодер (генерирующий переведенный текст) обращает внимание на представление исходного текста кодером.

Приложения в искусственном интеллекте и компьютерном зрении

Хотя впервые эта технология была применена в НЛП для решения таких задач, как резюмирование и перевод текста, самовнимание оказалось весьма эффективным и в компьютерном зрении (КЗ).

  • Обработка естественного языка: В таком предложении, как "Робот поднял гаечный ключ, потому что он был тяжелым", самовнимание позволяет модели правильно ассоциировать "это" с "гаечным ключом", а не с "роботом". Это понимание является основополагающим для таких моделей, как BERT и GPT-4.
  • Компьютерное зрение: Модель Vision Transformer (ViT) применяет самовнимание к участкам изображения, что позволяет ей изучать взаимосвязи между различными частями визуальной сцены для решения таких задач, как классификация изображений. Некоторые модели обнаружения объектов также включают модули, основанные на внимании, для уточнения карт признаков и повышения точности. Хотя некоторые модели, такие как YOLO12, используют внимание, мы рекомендуем надежную и эффективную Ultralytics YOLO11 для большинства случаев использования.

Будущие направления

Исследования продолжают совершенствовать механизмы самовнимания, стремясь к большей вычислительной эффективности (например, методы типа FlashAttention и варианты разреженного внимания) и более широкой применимости. Ожидается, что по мере усложнения моделей ИИ самовнимание будет оставаться краеугольной технологией, способствующей прогрессу в различных областях - от специализированных приложений ИИ, таких как робототехника, до создания искусственного общего интеллекта (ИО). Инструменты и платформы, подобные Ultralytics HUB, облегчают обучение и развертывание моделей, включающих эти передовые методы, которые часто доступны через репозитории, такие как Hugging Face, и разработаны с помощью таких фреймворков, как PyTorch и TensorFlow.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена