Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Indicaciones visuales

Explora las indicaciones visuales para guiar los modelos de IA con puntos y recuadros. Descubre cómo Ultralytics YOLO SAM una segmentación precisa y una anotación de datos más rápida.

Las indicaciones visuales son una técnica emergente en la visión por ordenador en la que los usuarios proporcionan señales espaciales o visuales, como puntos, cuadros delimitadores o garabatos, para guiar el enfoque de un modelo de IA hacia objetos o regiones específicos dentro de una imagen. A diferencia de la ingeniería de indicaciones tradicional, que se basa principalmente en descripciones de texto, las indicaciones visuales permiten una interacción más precisa e intuitiva con los sistemas de inteligencia artificial (IA). Este método aprovecha las capacidades de los modernos modelos básicos para realizar tareas como la segmentación y la detección sin necesidad de un reentrenamiento exhaustivo ni de grandes conjuntos de datos etiquetados. Al «señalar» eficazmente lo que importa, los usuarios pueden adaptar los modelos de uso general a tareas novedosas de forma instantánea, salvando la brecha entre la intención humana y la percepción de la máquina.

Mecanismos de estimulación visual

En esencia, las indicaciones visuales funcionan inyectando información espacial directamente en el proceso de procesamiento del modelo. Cuando un usuario hace clic en un objeto o dibuja un recuadro, estas entradas se convierten en incrustaciones basadas en coordenadas que la red neuronal integra con las características de la imagen. Este proceso es fundamental para arquitecturas interactivas como el modelo Segment Anything Model (SAM), en el que el modelo predice máscaras basándose en indicaciones geométricas.

La flexibilidad de las indicaciones visuales permite diversos tipos de interacción:

  • Indicaciones puntuales: El usuario hace clic en un píxel específico para indicar el objeto de interés. A continuación, el modelo amplía esta selección a todos los límites del objeto.
  • Indicaciones del cuadro: Dibujar un cuadro delimitador proporciona una localización aproximada, indicando al modelo que segment classify se encuentra dentro de esa área.
  • Indicaciones para garabatear: Las líneas dibujadas a mano alzada sobre un objeto pueden ayudar a desambiguar escenas complejas en las que los objetos se superponen o tienen texturas similares.

Una investigación reciente presentada en CVPR 2024 destaca cómo las indicaciones visuales reducen significativamente el tiempo necesario para la anotación de datos, ya que los anotadores humanos pueden corregir las predicciones del modelo en tiempo real con simples clics en lugar de trazar polígonos manualmente.

Indicaciones visuales frente a indicaciones textuales

Si bien ambas técnicas tienen como objetivo guiar el comportamiento del modelo, es importante distinguir las indicaciones visuales de los métodos basados en texto . La generación de texto a imagen o la detección de disparo cero se basa en el procesamiento del lenguaje natural (NLP) para interpretar descripciones semánticas (por ejemplo, «encontrar el coche rojo»). Sin embargo, el lenguaje puede ser ambiguo o insuficiente para describir ubicaciones espaciales precisas o formas abstractas.

Las indicaciones visuales resuelven esta ambigüedad al basar la instrucción en el propio espacio de píxeles. Por ejemplo, en el análisis de imágenes médicas, es mucho más preciso que un radiólogo haga clic en un nódulo sospechoso que intentar describir sus coordenadas exactas y su forma irregular mediante texto. A menudo, los flujos de trabajo más potentes combinan ambos enfoques: el uso de texto para el filtrado semántico y las indicaciones visuales para la precisión espacial, un concepto conocido como aprendizaje multimodal.

Aplicaciones en el mundo real

La adaptabilidad de las indicaciones visuales ha llevado a su rápida adopción en diversos sectores:

  • Diagnóstico médico interactivo: los médicos utilizan herramientas de indicación visual para aislar tumores u órganos en las resonancias magnéticas. Con solo hacer clic en una región de interés, pueden generar instantáneamente mediciones volumétricas en 3D, lo que ayuda a la detecciónprecisa de tumores y a la planificación quirúrgica.
  • Edición inteligente de fotos: En software de consumo como Adobe Photoshop o aplicaciones móviles, las indicaciones visuales potencian las herramientas de «selección mágica». Los usuarios pueden tocar una persona u objeto para eliminar el fondo o aplicar filtros específicos , utilizando tecnologías subyacentes de segmentación de instancias sin necesidad de tener habilidades de enmascaramiento manual.
  • Manipulación robótica: En AI in Robotics, se puede instruir a los robots para que recojan elementos específicos a través de una interfaz visual. Un operador hace clic en un objeto en la imagen de la cámara del robot, lo que proporciona una indicación visual que el robot traduce en coordenadas de agarre, lo que facilita la automatización con intervención humana en almacenes.

Aplicación con Ultralytics

El Ultralytics admite flujos de trabajo de indicaciones visuales, en particular a través de modelos como FastSAM SAM. Estos modelos permiten a los desarrolladores pasar coordenadas de puntos o cuadros mediante programación para recuperar máscaras de segmentación.

El siguiente ejemplo muestra cómo utilizar la función ultralytics paquete para aplicar un indicador de punto a una imagen, indicando al modelo que segment objeto situado en unas coordenadas específicas.

from ultralytics import SAM

# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")

# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])

# Display the segmented result
results[0].show()

Avanzando en la agilidad de los modelos

Las indicaciones visuales representan un cambio hacia una visión artificial «indicable», en la que los modelos ya no son «cajas negras» estáticas, sino herramientas interactivas. Esta capacidad es esencial para los bucles de aprendizaje activo, en los que los modelos mejoran rápidamente al incorporar los comentarios de los usuarios.

Para los desarrolladores que deseen integrar estas capacidades en la producción, Ultralytics ofrece herramientas para gestionar conjuntos de datos e implementar modelos que pueden manejar entradas dinámicas. A medida que avance la investigación, esperamos ver una integración aún más estrecha entre las indicaciones visuales y los grandes modelos de lenguaje (LLM), lo que permitirá que los sistemas puedan razonar sobre las entradas visuales con la misma fluidez con la que actualmente manejan el texto.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora