Глоссарий

Трансформатор зрения (ViT)

Откройте для себя возможности трансформаторов зрения (ViTs) в компьютерном зрении. Узнайте, как они превосходят CNN, улавливая глобальный контекст изображения.

Vision Transformer (ViT) - это тип нейросетевой архитектуры, которая применяет весьма успешную модель Transformer, изначально разработанную для обработки естественного языка (NLP), для задач компьютерного зрения (CV). Представленные исследователями Google в работе "Изображение стоит 16x16 слов", ViT представляют собой значительный отход от доминирующих архитектур конволюционных нейронных сетей (CNN). Вместо обработки изображений с помощью скользящих фильтров ViT рассматривает изображение как последовательность патчей, что позволяет ей улавливать глобальные связи между различными частями изображения с помощью механизма самонаблюдения.

Как работают трансформаторы зрения

Основная идея ViT - обработать изображение таким образом, чтобы оно было похоже на то, как трансформеры обрабатывают текст. Процесс включает в себя несколько ключевых шагов:

  1. Патчирование изображения: входное изображение сначала разбивается на сетку непересекающихся патчей фиксированного размера. Например, изображение размером 224x224 пикселя может быть разделено на 196 патчей, каждый размером 16x16 пикселей.
  2. Встраивание патчей: Каждый патч сплющивается в один вектор. Затем эти векторы проецируются в более низкоразмерное пространство для создания "вкраплений патчей". К каждому вкраплению добавляется обучаемое "позиционное вкрапление", чтобы сохранить пространственную информацию.
  3. Трансформаторный кодер: Эта последовательность вкраплений подается в стандартный кодировщик Transformer. Благодаря слоям самовнушения модель изучает отношения между всеми парами пятен, что позволяет ей улавливать глобальный контекст по всему изображению с самого первого слоя.
  4. Головка классификации: Для таких задач, как классификация изображений, в последовательность добавляется дополнительное обучаемое вложение (аналогично маркеру [CLS] в BERT). Соответствующий выход из трансформатора передается на последний слой классификации для получения предсказания.

ViT против CNN

Хотя и ViT, и CNN являются основополагающими архитектурами в компьютерном зрении, они существенно отличаются друг от друга по подходу:

  • Индуктивная предвзятость: CNN обладают сильными индуктивными предвзятостями (предположениями о данных), такими как локальность и эквивариантность перевода, благодаря своим слоям свертки и объединения. ViT обладают гораздо более слабыми индуктивными предположениями, что делает их более гибкими, но и более зависимыми от обучения закономерностям непосредственно из данных.
  • Зависимость от данных: Из-за более слабых предубеждений для того, чтобы превзойти современные CNN, ViT обычно требуются огромные наборы данных (например, ImageNet-21k) или длительное предварительное обучение. При меньших наборах данных CNN часто лучше обобщают. Именно поэтому обучение с переносом данных имеет решающее значение для ViT.
  • Глобальный и локальный контекст: CNN выстраивают иерархические характеристики от локальных паттернов к глобальным. В отличие от них, ViT могут моделировать глобальные взаимодействия между пятнами с самых ранних слоев, потенциально более эффективно улавливая более широкий контекст для определенных задач.
  • Вычислительные затраты: Обучение ViT может быть вычислительно трудоемким, часто требующим значительных ресурсов GPU. Такие фреймворки, как PyTorch и TensorFlow, обеспечивают реализацию обучения этих моделей.

Приложения и гибридные модели

ViT продемонстрировали исключительную производительность в различных приложениях, особенно там, где понимание глобального контекста имеет ключевое значение.

  • Анализ медицинских изображений: ViT очень эффективны для анализа медицинских снимков, таких как МРТ или гистопатологические изображения. Например, при обнаружении опухолей ViT может выявлять взаимосвязи между удаленными тканями, помогая классифицировать опухоли более точно, чем модели, ориентированные только на локальные текстуры.
  • Автономное вождение: В самоуправляемых автомобилях ViT могут анализировать сложные сцены для обнаружения и сегментации объектов. Благодаря глобальной обработке всей сцены они могут лучше понимать взаимодействие между транспортными средствами, пешеходами и инфраструктурой, о чем свидетельствуют многочисленные исследования автомобильного ИИ.

Успех ViTs также вдохновил на создание гибридных архитектур. Такие модели, как RT-DETR, сочетают в себе основу CNN для эффективного извлечения признаков и кодер-декодер на основе трансформеров для моделирования связей между объектами. Этот подход позволяет получить лучшее из двух миров: эффективность CNN и глобальную осведомленность о контексте трансформеров.

Для многих приложений реального времени, особенно на граничных устройствах с ограниченными ресурсами, высоко оптимизированные модели на основе CNN, такие как семейство Ultralytics YOLO (например, YOLOv8 и YOLO11), часто обеспечивают лучший баланс скорости и точности. Вы можете посмотреть подробное сравнение RT-DETR и YOLO11, чтобы понять компромиссы. Выбор между ViT и CNN в конечном итоге зависит от конкретной задачи, доступных данных и вычислительного бюджета.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена