Откройте для себя силу самовнимания в искусственном интеллекте, революционизирующем НЛП, компьютерное зрение и распознавание речи с точностью до контекста.
Самовнимание - это механизм, который позволяет модели оценивать важность различных элементов в рамках одной входной последовательности. Вместо того чтобы одинаково относиться к каждой части входных данных, он позволяет модели выборочно фокусироваться на наиболее значимых частях при обработке конкретного элемента. Эта способность имеет решающее значение для понимания контекста, дальних зависимостей и отношений внутри данных, составляя основу многих современных архитектур искусственного интеллекта (ИИ), в частности трансформера. Она была представлена в фундаментальной статье "Attention Is All You Need", которая произвела революцию в области обработки естественного языка (NLP).
По своей сути самовнимание работает путем присвоения "оценки внимания" каждому другому элементу входной последовательности относительно элемента, который обрабатывается в данный момент. Это достигается путем создания трех векторов для каждого входного элемента: запрос (Q), ключ (K) и значение (V).
Для данного запроса механизм вычисляет его сходство со всеми Ключами в последовательности. Затем эти оценки сходства преобразуются в веса (часто с помощью функции softmax ), которые определяют, насколько большое внимание должно быть уделено Значению каждого элемента. Конечным результатом запроса является взвешенная сумма всех Значений, создающая новое представление данного элемента, обогащенное контекстом всей последовательности. Этот процесс является ключевой частью работы больших языковых моделей (LLM). Отличное визуальное объяснение этого процесса Q-K-V можно найти на таких ресурсах, как блог Джея Аламмара.
Самовнимание - это особый тип механизма внимания. Ключевым отличием является источник векторов Query, Key и Value.
Хотя впервые эта технология была применена в НЛП для решения таких задач, как резюмирование и перевод текста, самовнимание оказалось весьма эффективным и в компьютерном зрении (КЗ).
Исследования продолжают совершенствовать механизмы самовнимания, стремясь к большей вычислительной эффективности (например, методы типа FlashAttention и варианты разреженного внимания) и более широкой применимости. Ожидается, что по мере усложнения моделей ИИ самовнимание будет оставаться краеугольной технологией, способствующей прогрессу в различных областях - от специализированных приложений ИИ, таких как робототехника, до создания искусственного общего интеллекта (ИО). Инструменты и платформы, подобные Ultralytics HUB, облегчают обучение и развертывание моделей, включающих эти передовые методы, которые часто доступны через репозитории, такие как Hugging Face, и разработаны с помощью таких фреймворков, как PyTorch и TensorFlow.