Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Vision Transformer (ViT)

Откройте для себя возможности Vision Transformers (ViTs) в компьютерном зрении. Узнайте, как они превосходят CNN, захватывая глобальный контекст изображения.

Трансформатор зрения (ViT) - это архитектура глубокого обучения, которая применяет принципы оригинальной модели Transformer непосредственно к последовательностям изображений. Изначально она была разработана для обработки естественного языка (NLP), Трансформеры произвели революцию в этой области благодаря использованию механизмов, позволяющих модели взвешивать важность различных частей входных данных. ViT был предложен компанией Google Research в работе "Изображение стоит 16x16 слов" в качестве альтернативы стандартному Конволюционной нейронной сети (CNN) для решения визуальных задач. В отличие от CNN, которые обрабатывают пиксели с помощью локальных фильтров, ViT рассматривают изображение как последовательность патчей фиксированного размера, что позволяет им улавливать глобальный контекст и дальние зависимости с самого первого слоя. используя самовнимание.

Как работают Vision Transformers

Архитектура ViT представляет собой значительный сдвиг в обработке машинами визуальной информации. Рабочий процесс предполагает разбиение изображения на более мелкие компоненты, которые можно обрабатывать аналогично словам в предложении.

  1. Разбиение на участки: Входное изображение делится на сетку непересекающихся пятен (например, 16x16 пикселей). Этот шаг преобразует двумерное изображение в последовательность одномерных векторов, эффективно токенизируя визуальные данные.
  2. Линейная проекция сплющенных патчей: Каждый патч сплющивается и проецируется в более низкоразмерное пространство, создавая вкрапления, которые представляющие визуальные особенности данной области.
  3. Позиционные вкрапления: Поскольку архитектура трансформера по своей природе не понимает порядок последовательности, к вкраплениям патчей добавляются обучаемые позиционные вкрапления, чтобы сохранить пространственную информацию о том, где каждый патч находится в исходном изображении.
  4. Трансформаторный кодер: Последовательность вкраплений подается в стандартный кодер-трансформер. Здесь, механизм внимания позволяет модели изучать связи между каждым пятном и каждым другим пятном, независимо от их расстояния друг от друга на изображении. изображении.
  5. Классификационная головка: Для таких задач, как классификация изображений, специальный маркер добавляется в последовательность, и его конечное состояние подается в головку многослойного перцептрона (MLP) для предсказания метки класса. метка.

Архитектуры ViT и CNN

Хотя обе архитектуры являются фундаментальными для современного компьютерного зрения (КВ), они опираются на различные индуктивные предубеждения. В CNN используются операции свертки в которых приоритет отдается локальным взаимодействиям и инвариантности перевода (распознавание объекта независимо от его положения). Этот Это делает CNN высокоэффективными при работе с небольшими наборами данных. В отличие от них, ViT имеют менее специфическую структуру изображения и полагаются на на изучение паттернов непосредственно из массивных наборов данных, таких как ImageNet.

ВиТ, как правило, выигрывают при обучении на очень больших объемах данных, так как они могут моделировать сложные глобальные взаимосвязи, которые CNN могут не заметить. Однако такой глобальный охват часто обходится в более высокие вычислительные требования при обучении и более низкую скорость вывода на ограниченных ресурсах. обучения и более низкой скорости вывода на ограниченных по ресурсам граничных устройствах. Гибридные модели, такие как RT-DETR пытаются преодолеть этот разрыв, сочетая CNN для эффективного извлечения признаков и Трансформаторный кодер для глобального контекста.

Применение в реальном мире

Трансформаторы зрения успешно применяются в областях, где понимание целостного контекста сцены является более важным. чем низкоуровневые детали текстуры.

  • Анализ медицинских изображений: В таких областях, как анализ медицинских изображений, ViT используются для detect аномалий на снимках МРТ или рентгеновских снимках. Например, в обнаружении опухолей, ViT может соотнести особенности удаленных частей органа, чтобы выявить злокачественные ткани, которые в отдельности могут выглядеть нормально. В отдельности они выглядят нормально, что повышает точность диагностики.
  • Дистанционное зондирование и спутниковые снимки: ViTs эффективно используются для анализа спутниковые снимки для мониторинга окружающей среды. Их способность обрабатывать глобальный контекст помогает различать схожие типами местности, например, различать разнообразные сельскохозяйственные поля или отслеживать расширение городов на больших географических территориях. районах.

Использование трансформаторов с Ultralytics

Сайт ultralytics Пакет поддерживает архитектуры на основе трансформеров, такие как RT-DETR (Real-Time Detection Transformer), которая использует сильные стороны ViTs для обнаружение объектов. В то время как модели на основе CNN, такие как рекомендованные YOLO11 обычно быстрее для приложений реального времени RT-DETR предлагает надежную альтернативу, когда приоритетом является высокая точность и глобальный контекст.

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based architecture)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results with bounding boxes
results[0].show()

В будущем инновации в области эффективности имеют решающее значение. В настоящее время Ultralytics разрабатывает YOLO26, которая призвана обеспечить высокую точность, связанную с с трансформаторами, сохраняя при этом скорость CNN. Кроме того, готовящаяся к выпуску платформа Ultralytics Platform упростит рабочий процесс обучения и развертывания этих передовых моделей в различных средах, от облачных серверов до граничного оборудования. Такие крупные фреймворки, как PyTorch и TensorFlow продолжают расширять свою Поддержка вариантов ViT стимулирует дальнейшие исследования в этой области.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас