Откройте для себя возможности Vision Transformers (ViTs) в компьютерном зрении. Узнайте, как они превосходят CNN, захватывая глобальный контекст изображения.
Трансформатор зрения (ViT) - это архитектура глубокого обучения, которая применяет принципы оригинальной модели Transformer непосредственно к последовательностям изображений. Изначально она была разработана для обработки естественного языка (NLP), Трансформеры произвели революцию в этой области благодаря использованию механизмов, позволяющих модели взвешивать важность различных частей входных данных. ViT был предложен компанией Google Research в работе "Изображение стоит 16x16 слов" в качестве альтернативы стандартному Конволюционной нейронной сети (CNN) для решения визуальных задач. В отличие от CNN, которые обрабатывают пиксели с помощью локальных фильтров, ViT рассматривают изображение как последовательность патчей фиксированного размера, что позволяет им улавливать глобальный контекст и дальние зависимости с самого первого слоя. используя самовнимание.
Архитектура ViT представляет собой значительный сдвиг в обработке машинами визуальной информации. Рабочий процесс предполагает разбиение изображения на более мелкие компоненты, которые можно обрабатывать аналогично словам в предложении.
Хотя обе архитектуры являются фундаментальными для современного компьютерного зрения (КВ), они опираются на различные индуктивные предубеждения. В CNN используются операции свертки в которых приоритет отдается локальным взаимодействиям и инвариантности перевода (распознавание объекта независимо от его положения). Этот Это делает CNN высокоэффективными при работе с небольшими наборами данных. В отличие от них, ViT имеют менее специфическую структуру изображения и полагаются на на изучение паттернов непосредственно из массивных наборов данных, таких как ImageNet.
ВиТ, как правило, выигрывают при обучении на очень больших объемах данных, так как они могут моделировать сложные глобальные взаимосвязи, которые CNN могут не заметить. Однако такой глобальный охват часто обходится в более высокие вычислительные требования при обучении и более низкую скорость вывода на ограниченных ресурсах. обучения и более низкой скорости вывода на ограниченных по ресурсам граничных устройствах. Гибридные модели, такие как RT-DETR пытаются преодолеть этот разрыв, сочетая CNN для эффективного извлечения признаков и Трансформаторный кодер для глобального контекста.
Трансформаторы зрения успешно применяются в областях, где понимание целостного контекста сцены является более важным. чем низкоуровневые детали текстуры.
Сайт ultralytics Пакет поддерживает архитектуры на основе трансформеров, такие как RT-DETR (Real-Time Detection
Transformer), которая использует сильные стороны ViTs для
обнаружение объектов. В то время как модели на основе CNN, такие как
рекомендованные YOLO11 обычно быстрее для приложений реального времени
RT-DETR предлагает надежную альтернативу, когда приоритетом является высокая точность и глобальный контекст.
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based architecture)
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes
results[0].show()
В будущем инновации в области эффективности имеют решающее значение. В настоящее время Ultralytics разрабатывает YOLO26, которая призвана обеспечить высокую точность, связанную с с трансформаторами, сохраняя при этом скорость CNN. Кроме того, готовящаяся к выпуску платформа Ultralytics Platform упростит рабочий процесс обучения и развертывания этих передовых моделей в различных средах, от облачных серверов до граничного оборудования. Такие крупные фреймворки, как PyTorch и TensorFlow продолжают расширять свою Поддержка вариантов ViT стимулирует дальнейшие исследования в этой области.