Откройте для себя возможности самовнимания в ИИ, революционизирующие NLP, компьютерное зрение и распознавание речи благодаря контекстно-зависимой точности.
Самовнимание - это механизм в моделях глубокого обучения, который позволяет им оценивать важность различных элементов входной последовательности относительно друг друга. В отличие от традиционных архитектур, которые обрабатывают данные последовательно или локально, самовнимание позволяет модели рассматривать всю последовательность сразу и определять, какие части являются наиболее для понимания текущего элемента. Эта возможность является определяющей особенностью архитектуры архитектуры Transformer, которая произвела революцию в в различных областях, начиная от обработки естественного языка (NLP) до передового компьютерного зрения (CV). Вычисляя связей между каждой парой элементов в наборе данных, самовнимание обеспечивает глобальное понимание контекста, которое трудно достичь с помощью старых методов, таких как Рекуррентные нейронные сети (РНС).
Концептуально самовнимание имитирует то, как человек обрабатывает информацию, фокусируясь на конкретных деталях и игнорируя не относящиеся к делу шумы. При обработке предложения или изображения модель присваивает "баллы внимания" каждому элементу. Эти баллы определяют, насколько необходимо сосредоточиться на других частях входного сигнала при кодировании конкретного слова или пикселя.
Обычно этот процесс включает в себя создание трех векторов для каждого входного элемента: запрос, ключ и значение. Ключ и Значение.
Модель сравнивает запрос одного элемента с ключами всех остальных, чтобы вычислить совместимость. Эти баллы совместимости нормализуются с помощью функции softmax для создания весов. Наконец, эти веса применяются к значениям, чтобы получить новое представление с учетом контекста. Эта эффективная параллельная обработка позволяет для обучения массивных больших языковых моделей (LLM) и мощных моделей зрения с помощью современных графических процессоров. Для более глубокого визуального погружения, такие ресурсы, как Иллюстрированный трансформатор Джея Аламмара отличную интуицию.
Хотя эти термины часто используются рядом, полезно отличать самовнимание от более широкого механизм внимания.
Способность улавливать дальние зависимости сделала самонаблюдение повсеместно распространенным в современном Искусственный интеллект (ИИ).
Следующий фрагмент на Python демонстрирует, как загрузить и использовать модель на основе трансформатора, которая полагается на самовнимание
для вывода с помощью ultralytics пакет.
from ultralytics import RTDETR
# Load the RT-DETR model, which uses self-attention for object detection
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects with global context
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the resulting bounding boxes and class probabilities
results[0].show()
Самостоятельное внимание было представлено в основополагающей работе "Attention Is All You Need" ("Внимание - это все, что вам нужно"), написанной исследователями Google . В ней она позволила решить проблему исчезающего градиента, которая которая была характерна для более ранних архитектур глубокого обучения, что позволило создать базовых моделей, таких как GPT-4.
Хотя модели, основанные на внимании, являются мощными, они могут быть вычислительно дорогими. Для многих приложений, работающих в режиме реального времени, эффективные модели на основе CNN, такие как YOLO11 остаются рекомендуется выбирать из-за их скорости и небольшого объема памяти. Однако гибридные подходы и оптимизированные трансформеры продолжают расширять границы машинного обучения. В перспективе новые архитектуры, такие как YOLO26, нацелены на интеграцию лучшего из обоих миров, предлагая сквозные возможности на платформеUltralytics . Такие фреймворки, как PyTorch и TensorFlow предоставляют разработчикам строительные блоки для экспериментировать с этими продвинутыми слоями самообслуживания.