Transformer
Исследуй архитектуру Transformer и механизм самовнимания (self-attention). Узнай, как они обеспечивают работу моделей ИИ, таких как RT-DETR и Ultralytics YOLO26, для превосходной точности.
Transformer — это архитектура глубокого обучения, которая полагается на механизм под названием self-attention (самовнимание) для обработки последовательных входных данных, таких как естественный язык или визуальные признаки. Изначально представленная исследователями Google в знаковой статье Attention Is All You Need, архитектура Transformer произвела революцию в области искусственного интеллекта (ИИ), устранив ограничения последовательной обработки, свойственные более ранним рекуррентным нейронным сетям (RNN). Вместо этого Transformers анализируют целые последовательности данных одновременно, что обеспечивает массовое распараллеливание и значительно ускоряет обучение на современном оборудовании, таком как GPU.
Link to this sectionКак работают Transformers#
Главная инновация Transformer — механизм self-attention. Он позволяет модели оценивать важность различных частей входных данных относительно друг друга. Например, в предложении модель может определить, что слово «банк» ближе по смыслу к «деньгам», чем к «реке», основываясь на окружающем контексте.
Эта архитектура обычно состоит из двух основных компонентов:
- Encoder (Кодировщик): Преобразует входные данные в богатое числовое представление или embedding.
- Decoder (Декодировщик): Использует выходные данные кодировщика для генерации конечного результата, например переведенного предложения или предсказанной BBox.
В области компьютерного зрения (CV) модели обычно используют вариацию под названием Vision Transformer (ViT). Вместо обработки текстовых токенов изображение разбивается на фрагменты фиксированного размера (например, 16x16 пикселей). Эти фрагменты выравниваются и рассматриваются как последовательность, что позволяет модели более эффективно захватывать «глобальный контекст» — понимание взаимосвязей между отдаленными частями изображения — по сравнению со стандартной сверточной нейронной сетью (CNN).
Link to this sectionTransformers и связанные с ними концепции#
Важно различать архитектуру Transformer и связанные с ней термины:
- Механизм внимания (Attention Mechanism): Это общая концепция фокусировки на конкретных частях данных. Transformer — это специфическая архитектура, полностью построенная вокруг слоев внимания, в то время как другие модели могут использовать внимание лишь как небольшое дополнение.
- Большая языковая модель (LLM): Такие термины, как «GPT», относятся к конкретным моделям, обученным на огромных объемах текста. Почти все современные LLM используют архитектуру Transformer в качестве своего основного движка.
Link to this sectionРеальные приложения#
Универсальность Transformers привела к их внедрению в различных отраслях:
-
Медицинская визуализация: В сфере ИИ в здравоохранении Transformers используются для таких сложных задач, как анализ медицинских изображений. Их способность понимать глобальные пространственные взаимосвязи помогает обнаруживать тонкие аномалии на МРТ или КТ высокого разрешения, которые могут быть пропущены CNN, фокусирующимися на локальных признаках.
-
Автономные системы: Для автономных транспортных средств критически важно понимать траекторию движения пешеходов и других транспортных средств. Transformers отлично справляются с анализом видео, отслеживая объекты в разных кадрах и предсказывая будущие движения для обеспечения безопасной навигации.
Link to this sectionОбнаружение объектов с помощью Transformers#
Хотя в обнаружении объектов традиционно доминируют CNN, модели на базе Transformer, такие как Real-Time Detection Transformer (RT-DETR), стали мощными альтернативами. RT-DETR сочетает скорость CNN-основ с точностью декодирующих головок Transformer.
Однако чистые модели Transformer могут быть вычислительно тяжелыми. Для многих периферийных приложений высокооптимизированные гибридные модели, такие как YOLO26 — которые объединяют эффективные механизмы внимания с быстрой сверточной обработкой — предлагают превосходный баланс скорости и точности. Ты можешь легко управлять обучением и развертыванием этих моделей через Ultralytics Platform, которая упрощает рабочий процесс от разметки набора данных до экспорта модели.
Link to this sectionПример на Python: Использование RT-DETR#
Следующий пример демонстрирует, как выполнять инференс с помощью модели на базе Transformer в пакете ultralytics. Этот код загружает предварительно обученную модель RT-DETR и обнаруживает объекты на изображении.
from ultralytics import RTDETR
# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results with bounding boxes
results[0].show()Для дальнейшего изучения математических основ документация PyTorch по слоям Transformer предоставляет техническую глубину, а руководство IBM по Transformers предлагает бизнес-перспективу общего уровня.






