Глоссарий

Видение Мамба

Изучите Vision Mamba, альтернативу Transformers с линейной сложностью. Узнайте, как модели пространства состояний (SSM) повышают эффективность компьютерного зрения с высоким разрешением.

Vision Mamba представляет собой значительный сдвиг в архитектурах глубокого обучения для компьютерного зрения, отходя от доминирования механизмов, основанных на внимании, которые встречаются в Transformers. Это адаптация архитектуры Mamba , первоначально разработанной для эффективного моделирования последовательностей в обработке естественного языка, специально для визуальных задач. Используя модели состояний пространства (SSM), Vision Mamba предлагает альтернативу линейной сложности квадратичной сложности традиционных слоев самовнимания. Это позволяет ей более эффективно обрабатывать изображения с высоким разрешением, что делает ее особенно ценной для приложений, в которых вычислительные ресурсы ограничены или где необходимо улавливать долгосрочные зависимости в визуальных данных без значительного потребления памяти, характерного для Vision Transformers (ViT).

Как работает Vision Mamba

В основе Vision Mamba лежит концепция выборочного сканирования данных. Традиционные сверточные нейронные сети (CNN) обрабатывают изображения с помощью локальных скользящих окон, которые отлично подходят для обнаружения текстур и краев, но не справляются с глобальным контекстом. Напротив, трансформеры используют глобальное внимание, чтобы связать каждый пиксель (или участок) с каждым другим пикселем, что обеспечивает отличный контекст, но становится вычислительно затратным с увеличением разрешения изображения. Vision Mamba устраняет этот пробел, уплощая изображения в последовательности и обрабатывая их с помощью выборочных пространств состояний. Это позволяет модели сжимать визуальную информацию до состояния фиксированного размера, сохраняя релевантные детали на больших расстояниях в последовательности изображений и отбрасывая нерелевантный шум.

Архитектура обычно включает в себя механизм двунаправленного сканирования. Поскольку изображения являются двумерными структурами и не имеют последовательного характера, как текст, Vision Mamba сканирует фрагменты изображения в прямом и обратном направлениях (а иногда и по различным траекториям), чтобы обеспечить понимание пространственных отношений независимо от порядка сканирования. Такой подход позволяет модели достигать глобальных рецептивных полей, аналогичных Transformers, но с более быстрой скоростью вывода и меньшим использованием памяти, часто соперничая с передовыми результатами на таких тестах, как ImageNet.

Применение в реальном мире

Эффективность Vision Mamba делает его чрезвычайно актуальным для сред с ограниченными ресурсами и задач с высоким разрешением.

Анализ медицинских изображений: в таких областях, как радиология, анализ МРТ- или КТ-сканов с высоким разрешением требует обнаружения тонких аномалий, которые могут быть пространственно удаленными на большом изображении. Vision Mamba может эффективно обрабатывать эти большие файлы анализа медицинских изображений без узких мест в памяти, которые часто мешают стандартным трансформерам, помогая врачам с высокой точностью выявлять опухоли или переломы.
Автономная навигация на периферийных устройствах: самоуправляемые автомобили и дроны используют периферийные вычисления для обработки видеопотоков в реальном времени. Линейное масштабирование Vision Mamba позволяет этим системам обрабатывать видеосигналы с высокой частотой кадров для обнаружения объектов и семантической сегментации более эффективно, чем тяжелые модели Transformer, обеспечивая более быстрое время реакции для принятия критически важных решений.

Vision Mamba против Vision Transformers (ViT)

Хотя обе архитектуры нацелены на захват глобального контекста, они принципиально отличаются по принципу работы.

Vision Transformer (ViT): Основан на механизме внимания, который вычисляет взаимосвязь между каждой парой фрагментов изображения. Это приводит к квадратичной сложности ($O(N^2)$), что означает, что удвоение размера изображения в четыре раза увеличивает вычислительные затраты.
Vision Mamba: использует модели состояний пространства (SSM) для линейной обработки визуальных токенов ($O(N)$). Он поддерживает текущее состояние, которое обновляется при обнаружении новых участков, что позволяет ему гораздо лучше масштабироваться при более высоких разрешениях, сохраняя при этом сопоставимую точность.

Пример: Эффективный рабочий процесс вывода

Хотя Vision Mamba представляет собой конкретную архитектуру, ее принципы эффективности соответствуют целям современных моделей реального времени , таких как Ultralytics YOLO26. Пользователи, которым нужны оптимизированные задачи для зрения, могут воспользоваться Платформа Ultralytics для обучения и развертывания. Ниже приведен пример использования ultralytics пакет для выполнения инференции, демонстрирующий простоту использования высокооптимизированных моделей зрения.

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")  # 'n' for nano, emphasizing efficiency

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Display the results
results[0].show()

Основные преимущества и перспективы на будущее

Внедрение архитектур на основе Mamba в компьютерное зрение сигнализирует о переходе к более аппаратно-ориентированному ИИ. За счет сокращения вычислительных затрат, связанных с глобальным вниманием, исследователи открывают возможности для развертывания передовых ИИ-агентов на более компактных устройствах.

Недавние исследования, такие как статья VMamba и разработки в области эффективного глубокого обучения, подчеркивают потенциал этих моделей для замены традиционных базовых структур в задачах, начиная от понимания видео до обнаружения 3D-объектов. По мере того как сообщество продолжает усовершенствовать стратегии сканирования и интеграцию с сверточными слоями, Vision Mamba готово стать стандартным компонентом в наборе инструментов глубокого обучения наряду с CNN и Transformers.

Видение Мамба

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Как работает Vision Mamba

Применение в реальном мире

Vision Mamba против Vision Transformers (ViT)

Пример: Эффективный рабочий процесс вывода

Основные преимущества и перспективы на будущее

Читать больше в этой категории

Как улучшить mAP модели mAP небольших объектах: краткое руководство

Переосмысление мониторинга биоразнообразия с помощью компьютерного зрения

5 лучших советов по эффективному развертыванию YOLO26 на периферии и в облаке

Присоединяйтесь к сообществу Ultralytics