Изучите архитектуру Transformer и механизм самовнимания. Узнайте, как они обеспечивают высокую точность таких моделей искусственного интеллекта, как RT-DETR Ultralytics .
Transformer — это архитектура глубокого обучения, которая использует механизм, называемый самовниманием, для обработки последовательных входных данных, таких как естественный язык или визуальные характеристики. Первоначально она была представлена Google в знаковой статье «Внимание — это все, что вам нужно», Transformer произвел революцию в области искусственного интеллекта (ИИ), устранив ограничения последовательной обработки, присущие более ранним рекуррентным нейронным сетям (RNN). Вместо этого Transformer анализирует целые последовательности данных одновременно, что позволяет осуществлять массовую параллелизацию и значительно сократить время обучения на современном оборудовании, таком как графические процессоры (GPU).
Основной инновацией Transformer является механизм самовнимания. Это позволяет модели взвешивать важность различных частей входных данных относительно друг друга. Например, в предложении модель может научиться, что слово «банк» более тесно связано со словом «деньги», чем со словом «река» , исходя из окружающего контекста.
Эта архитектура обычно состоит из двух основных компонентов:
В области компьютерного зрения (CV) модели обычно используют вариант, называемый Vision Transformer (ViT). Вместо обработки текстовых токенов изображение разбивается на фрагменты фиксированного размера (например, 16x16 пикселей). Эти фрагменты выравниваются и обрабатываются как последовательность, что позволяет модели улавливать «глобальный контекст» — понимать отношения между удаленными частями изображения — более эффективно, чем стандартная сверточная нейронная сеть (CNN).
Важно отличать архитектуру Transformer от схожих терминов:
Универсальность трансформаторов привела к их внедрению в различных отраслях промышленности:
Хотя CNN традиционно доминировали в области обнаружения объектов, модели на основе Transformer, такие как Real-Time Detection Transformer (RT-DETR), стали мощной альтернативой. RT-DETR скорость базовых CNN и точность декодирующих головок Transformer.
Однако чистые модели Transformer могут быть вычислительно тяжелыми. Для многих пограничных приложений высокооптимизированные гибридные модели, такие как YOLO26, которые объединяют эффективные механизмы внимания с быстрой сверточной обработкой, обеспечивают превосходный баланс скорости и точности. Вы можете легко управлять обучением и развертыванием этих моделей с помощью Ultralytics , которая оптимизирует рабочий процесс от аннотирования набора данных до экспорта модели.
Следующий пример демонстрирует, как выполнить инференцию с помощью модели на основе Transformer в
ultralytics пакет. Этот код загружает предварительно обученную RT-DETR и обнаруживает объекты на изображении.
from ultralytics import RTDETR
# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results with bounding boxes
results[0].show()
Для более подробного ознакомления с математическими основами, PyTorch по слоям Transformer предоставляет техническую информацию, а руководство IBM по Transformers предлагает высокоуровневую бизнес-перспективу.