Изучите Vision Mamba, альтернативу Transformers с линейной сложностью. Узнайте, как модели пространства состояний (SSM) повышают эффективность компьютерного зрения с высоким разрешением.
Vision Mamba представляет собой значительный сдвиг в архитектурах глубокого обучения для компьютерного зрения, отходя от доминирования механизмов, основанных на внимании, которые встречаются в Transformers. Это адаптация архитектуры Mamba , первоначально разработанной для эффективного моделирования последовательностей в обработке естественного языка, специально для визуальных задач. Используя модели состояний пространства (SSM), Vision Mamba предлагает альтернативу линейной сложности квадратичной сложности традиционных слоев самовнимания. Это позволяет ей более эффективно обрабатывать изображения с высоким разрешением, что делает ее особенно ценной для приложений, в которых вычислительные ресурсы ограничены или где необходимо улавливать долгосрочные зависимости в визуальных данных без значительного потребления памяти, характерного для Vision Transformers (ViT).
В основе Vision Mamba лежит концепция выборочного сканирования данных. Традиционные сверточные нейронные сети (CNN) обрабатывают изображения с помощью локальных скользящих окон, которые отлично подходят для обнаружения текстур и краев, но не справляются с глобальным контекстом. Напротив, трансформеры используют глобальное внимание, чтобы связать каждый пиксель (или участок) с каждым другим пикселем, что обеспечивает отличный контекст, но становится вычислительно затратным с увеличением разрешения изображения. Vision Mamba устраняет этот пробел, уплощая изображения в последовательности и обрабатывая их с помощью выборочных пространств состояний. Это позволяет модели сжимать визуальную информацию до состояния фиксированного размера, сохраняя релевантные детали на больших расстояниях в последовательности изображений и отбрасывая нерелевантный шум.
Архитектура обычно включает в себя механизм двунаправленного сканирования. Поскольку изображения являются двумерными структурами и не имеют последовательного характера, как текст, Vision Mamba сканирует фрагменты изображения в прямом и обратном направлениях (а иногда и по различным траекториям), чтобы обеспечить понимание пространственных отношений независимо от порядка сканирования. Такой подход позволяет модели достигать глобальных рецептивных полей, аналогичных Transformers, но с более быстрой скоростью вывода и меньшим использованием памяти, часто соперничая с передовыми результатами на таких тестах, как ImageNet.
Эффективность Vision Mamba делает его чрезвычайно актуальным для сред с ограниченными ресурсами и задач с высоким разрешением.
Хотя обе архитектуры нацелены на захват глобального контекста, они принципиально отличаются по принципу работы.
Хотя Vision Mamba представляет собой конкретную архитектуру, ее принципы эффективности соответствуют целям современных моделей реального времени
, таких как Ultralytics YOLO26. Пользователи, которым нужны оптимизированные
задачи для зрения, могут воспользоваться Платформа Ultralytics для обучения и
развертывания. Ниже приведен пример использования ultralytics пакет для выполнения инференции, демонстрирующий простоту
использования высокооптимизированных моделей зрения.
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt") # 'n' for nano, emphasizing efficiency
# Run inference on an image
results = model.predict("path/to/image.jpg")
# Display the results
results[0].show()
Внедрение архитектур на основе Mamba в компьютерное зрение сигнализирует о переходе к более аппаратно-ориентированному ИИ. За счет сокращения вычислительных затрат, связанных с глобальным вниманием, исследователи открывают возможности для развертывания передовых ИИ-агентов на более компактных устройствах.
Недавние исследования, такие как статья VMamba и разработки в области эффективного глубокого обучения, подчеркивают потенциал этих моделей для замены традиционных базовых структур в задачах, начиная от понимания видео до обнаружения 3D-объектов. По мере того как сообщество продолжает усовершенствовать стратегии сканирования и интеграцию с сверточными слоями, Vision Mamba готово стать стандартным компонентом в наборе инструментов глубокого обучения наряду с CNN и Transformers.