Glosario

Visión Mamba

Explora Vision Mamba, una alternativa de complejidad lineal a Transformers. Descubre cómo los modelos de espacio de estados (SSM) mejoran la eficiencia de la visión artificial de alta resolución.

Vision Mamba representa un cambio significativo en las arquitecturas de aprendizaje profundo para la visión por computadora, alejándose del dominio de los mecanismos basados en la atención que se encuentran en los transformadores. Se trata de una adaptación de la arquitectura Mamba, diseñada originalmente para el modelado eficiente de secuencias en el procesamiento del lenguaje natural, y adaptada específicamente para tareas visuales. Al aprovechar los modelos de espacio de estado (SSM), Vision Mamba ofrece una alternativa de complejidad lineal a la complejidad cuadrática de las capas tradicionales de autoatención. Esto le permite procesar imágenes de alta resolución de manera más eficiente, lo que lo hace particularmente valioso para aplicaciones en las que los recursos computacionales son limitados o en las que se deben capturar dependencias de largo alcance en datos visuales sin la gran huella de memoria típica de los Vision Transformers (ViT).

Cómo funciona Vision Mamba

En el núcleo de Vision Mamba se encuentra el concepto de escaneo selectivo de datos. Las redes neuronales convolucionales (CNN)tradicionales procesan las imágenes utilizando ventanas deslizantes locales, que son excelentes para detectar texturas y bordes, pero tienen dificultades con el contexto global. Por el contrario, los transformadores utilizan la atención global para relacionar cada píxel (o parche) con todos los demás píxeles, lo que proporciona un contexto excelente, pero se vuelve computacionalmente costoso a medida que aumenta la resolución de la imagen. Vision Mamba salva esta brecha aplanando las imágenes en secuencias y procesándolas utilizando espacios de estado selectivos. Esto permite al modelo comprimir la información visual en un estado de tamaño fijo, conservando los detalles relevantes a largas distancias en la secuencia de imágenes y descartando el ruido irrelevante.

La arquitectura suele incluir un mecanismo de escaneo bidireccional. Dado que las imágenes son estructuras 2D y no son secuenciales por naturaleza como el texto, Vision Mamba escanea los fragmentos de imagen en direcciones hacia adelante y hacia atrás (y a veces en rutas variables) para garantizar que se comprendan las relaciones espaciales independientemente del orden de escaneo. Este enfoque permite al modelo lograr campos receptivos globales similares a los de los transformadores, pero con velocidades de inferencia más rápidas y un menor uso de memoria, a menudo rivalizando con los resultados de vanguardia en benchmarks como ImageNet.

Aplicaciones en el mundo real

La eficiencia de Vision Mamba lo hace muy adecuado para entornos con recursos limitados y tareas de alta resolución.

Análisis de imágenes médicas: en campos como la radiología, el análisis de resonancias magnéticas o tomografías computarizadas de alta resolución requiere detectar anomalías sutiles que pueden estar espacialmente distantes dentro de una imagen grande. Vision Mamba puede procesar estos grandes archivos de análisis de imágenes médicas de manera eficaz sin los cuellos de botella de memoria que a menudo afectan a los transformadores estándar, lo que ayuda a los médicos a identificar tumores o fracturas con gran precisión.
Navegación autónoma en dispositivos periféricos: los coches autónomos y los drones dependen de la computación periférica para procesar las señales de vídeo en tiempo real . El escalado lineal de Vision Mamba permite a estos sistemas manejar entradas de vídeo de alta velocidad de fotogramas para la detección de objetos y la segmentación semántica de forma más eficiente que los pesados modelos Transformer, lo que garantiza tiempos de reacción más rápidos para las decisiones críticas para la seguridad.

Vision Mamba frente a Vision Transformers (ViT)

Aunque ambas arquitecturas tienen como objetivo capturar el contexto global, difieren fundamentalmente en su funcionamiento.

Transformador de visión (ViT): Se basa en el mecanismo de atención, que calcula la relación entre cada par de fragmentos de imagen. Esto da como resultado una complejidad cuadrática ($O(N^2)$), lo que significa que duplicar el tamaño de la imagen cuadriplica el coste computacional.
Vision Mamba: Utiliza modelos de espacio de estado (SSM) para procesar tokens visuales de forma lineal ($O(N)$). Mantiene un estado en ejecución que se actualiza a medida que ve nuevos parches, lo que le permite escalar mucho mejor con resoluciones más altas mientras mantiene una precisión comparable.

Ejemplo: Flujo de trabajo de inferencia eficiente

Aunque Vision Mamba es una arquitectura específica, sus principios de eficiencia se ajustan a los objetivos de los modelos modernos en tiempo real , como Ultralytics YOLO26Los usuarios que buscan tareas de visión optimizadas pueden aprovechar el Plataforma Ultralytics para formación y despliegue. A continuación se muestra un ejemplo utilizando el ultralytics paquete para ejecutar la inferencia, lo que demuestra la facilidad de uso de modelos de visión altamente optimizados.

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")  # 'n' for nano, emphasizing efficiency

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Display the results
results[0].show()

Ventajas principales y perspectivas de futuro

La introducción de arquitecturas basadas en Mamba en la visión por ordenador supone un avance hacia una IA más consciente del hardware. Al reducir la sobrecarga computacional asociada a la atención global, los investigadores están abriendo las puertas al despliegue de agentes de IA avanzados en dispositivos más pequeños.

Investigaciones recientes, como el artículo sobre VMamba y los avances en el aprendizaje profundo eficiente, destacan el potencial de estos modelos para sustituir a las estructuras tradicionales en tareas que van desde la comprensión de vídeos hasta la detección de objetos en 3D. A medida que la comunidad sigue perfeccionando las estrategias de escaneo y la integración con capas convolucionales, Vision Mamba está llamada a convertirse en un componente estándar de la caja de herramientas del aprendizaje profundo, junto con las CNN y los Transformers.

Visión Mamba

Entrene los modelosYOLO Ultralytics para agilizar los flujos de trabajo en todos los sectores

Solución de licencias empresariales flexible para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Cómo funciona Vision Mamba

Aplicaciones en el mundo real

Vision Mamba frente a Vision Transformers (ViT)

Ejemplo: Flujo de trabajo de inferencia eficiente

Ventajas principales y perspectivas de futuro

Leer más en esta categoría

Cómo mejorar mAP del modelo mAP objetos pequeños: guía rápida

Redefiniendo la vigilancia de la biodiversidad con visión artificial

Los 5 mejores consejos para implementar YOLO26 de manera eficiente en el borde y la nube

Únase a la comunidad Ultralytics