Узнайте, как механизмы внимания революционизируют ИИ, улучшая задачи NLP и компьютерного зрения, такие как перевод, обнаружение объектов и многое другое!
Механизм внимания — это основополагающая технология в области искусственного интеллекта (ИИ) , который имитирует когнитивную способность человека сосредоточиваться на конкретных деталях, игнорируя при этом нерелевантную информацию. В контексте глубокого обучения (DL)этот механизм позволяет нейронной сети (NN) динамически присваивать различные уровни важности, или «веса», различным частям входных данных. Вместо обработки всего изображения или предложения с одинаковым упором, модель учится обращать внимание на наиболее значимые особенности — такие, как конкретное слово в предложении для понимания контекста, или отдельный объект в сложной визуальной сцене. Этот прорыв является движущей силой архитектуры Transformer , которая революционизировала такие области, как обработки естественного языка (NLP) до передовых компьютерного зрения (CV).
Первоначально разработаны для решения проблемы ограниченности памяти в рекуррентных нейронных сетях (RNN), механизмы внимания решают проблему проблему исчезающего градиента путем создания прямых связей между удаленными частями последовательности данных. Этот процесс часто описывают с помощью аналогии с поиском , включающей три компонента: запросы, ключи и значения.
Сравнивая запрос с различными ключами, модель вычисляет оценку внимания. Эта оценка определяет, какая часть значения извлекается и используется для формирования вывода. Это позволяет моделям обрабатывать дальнодействующими зависимостями , понимая взаимосвязи между точками данных независимо от их расстояния друг от друга.
Механизмы внимания позволили добиться некоторых из наиболее заметных достижений в современных технологиях.
Важно отличать внимание от сверточных нейронных сетях (CNN). В то время как CNN обрабатывают данные локально, используя фиксированное окно (ядро) для detect и текстур, внимание обрабатывает данные глобально, связывая каждую часть входа со всеми остальными частями
В то время как современные модели, такие как Ultralytics оптимизированы для выполнения вывода в реальном времени с использованием усовершенствованных структур CNN, гибридные архитектуры, такие как RT-DETR (Real-Time Detection Transformer) явно используют внимание для достижения высокой точности. Оба типа моделей можно легко обучить и развернуть с помощью Ultralytics .
Следующий Python демонстрирует, как выполнить вывод с помощью RT-DETR, модель архитектуры
, которая в основном опирается на механизмы внимания для
обнаружение объектов.
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model which uses attention mechanisms
# This model captures global context effectively compared to pure CNNs
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")
# Print the number of detections found via transformer attention
print(f"Detected {len(results[0].boxes)} objects using attention-based detection.")