Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Transformer

Изучите архитектуру Transformer и механизм самовнимания. Узнайте, как они обеспечивают высокую точность таких моделей искусственного интеллекта, как RT-DETR Ultralytics .

Transformer — это архитектура глубокого обучения, которая использует механизм, называемый самовниманием, для обработки последовательных входных данных, таких как естественный язык или визуальные характеристики. Первоначально она была представлена Google в знаковой статье «Внимание — это все, что вам нужно», Transformer произвел революцию в области искусственного интеллекта (ИИ), устранив ограничения последовательной обработки, присущие более ранним рекуррентным нейронным сетям (RNN). Вместо этого Transformer анализирует целые последовательности данных одновременно, что позволяет осуществлять массовую параллелизацию и значительно сократить время обучения на современном оборудовании, таком как графические процессоры (GPU).

Как работают трансформеры

Основной инновацией Transformer является механизм самовнимания. Это позволяет модели взвешивать важность различных частей входных данных относительно друг друга. Например, в предложении модель может научиться, что слово «банк» более тесно связано со словом «деньги», чем со словом «река» , исходя из окружающего контекста.

Эта архитектура обычно состоит из двух основных компонентов:

  • Кодировщик: обрабатывает входные данные в виде богатого числового представления или встраивания.
  • Декодер: использует выходные данные кодера для генерации конечного результата, например переведенного предложения или предсказанной ограничивающей рамки.

В области компьютерного зрения (CV) модели обычно используют вариант, называемый Vision Transformer (ViT). Вместо обработки текстовых токенов изображение разбивается на фрагменты фиксированного размера (например, 16x16 пикселей). Эти фрагменты выравниваются и обрабатываются как последовательность, что позволяет модели улавливать «глобальный контекст» — понимать отношения между удаленными частями изображения — более эффективно, чем стандартная сверточная нейронная сеть (CNN).

Трансформаторы и связанные с ними понятия

Важно отличать архитектуру Transformer от схожих терминов:

  • Механизм внимания: это общая концепция фокусировки на определенных частях данных. Transformer — это специальная архитектура, построенная полностью вокруг слоев внимания, в то время как другие модели могут использовать внимание только в качестве небольшого дополнения.
  • Большая языковая модель (LLM): Такие термины, как «GPT», относятся к конкретным моделям, обученным на огромных объемах текста. Почти все современные LLM используют архитектуру Transformer в качестве базового движка.

Применение в реальном мире

Универсальность трансформаторов привела к их внедрению в различных отраслях промышленности:

  1. Медицинская визуализация: В сфере искусственного интеллекта в здравоохранении трансформеры используются для решения сложных задач, таких как анализ медицинских изображений. Их способность понимать глобальные пространственные отношения помогает обнаруживать тонкие аномалии на МРТ или КТ-сканах высокого разрешения, которые могут быть упущены CNN, ориентированными на локальные особенности.
  2. Автономные системы: для автономных транспортных средств понимание траектории движения пешеходов и других транспортных средств имеет решающее значение. Трансформеры отлично справляются с пониманием видео, отслеживая объекты в течение временных интервалов и предсказывая будущие движения для обеспечения безопасной навигации.

Обнаружение объектов с помощью трансформеров

Хотя CNN традиционно доминировали в области обнаружения объектов, модели на основе Transformer, такие как Real-Time Detection Transformer (RT-DETR), стали мощной альтернативой. RT-DETR скорость базовых CNN и точность декодирующих головок Transformer.

Однако чистые модели Transformer могут быть вычислительно тяжелыми. Для многих пограничных приложений высокооптимизированные гибридные модели, такие как YOLO26, которые объединяют эффективные механизмы внимания с быстрой сверточной обработкой, обеспечивают превосходный баланс скорости и точности. Вы можете легко управлять обучением и развертыванием этих моделей с помощью Ultralytics , которая оптимизирует рабочий процесс от аннотирования набора данных до экспорта модели.

Python : использование RT-DETR

Следующий пример демонстрирует, как выполнить инференцию с помощью модели на основе Transformer в ultralytics пакет. Этот код загружает предварительно обученную RT-DETR и обнаруживает объекты на изображении.

from ultralytics import RTDETR

# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")

# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results with bounding boxes
results[0].show()

Для более подробного ознакомления с математическими основами, PyTorch по слоям Transformer предоставляет техническую информацию, а руководство IBM по Transformers предлагает высокоуровневую бизнес-перспективу.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас