Explora las indicaciones visuales para guiar los modelos de IA con puntos y recuadros. Descubre cómo Ultralytics YOLO SAM una segmentación precisa y una anotación de datos más rápida.
Las indicaciones visuales son una técnica emergente en la visión por ordenador en la que los usuarios proporcionan señales espaciales o visuales, como puntos, cuadros delimitadores o garabatos, para guiar el enfoque de un modelo de IA hacia objetos o regiones específicos dentro de una imagen. A diferencia de la ingeniería de indicaciones tradicional, que se basa principalmente en descripciones de texto, las indicaciones visuales permiten una interacción más precisa e intuitiva con los sistemas de inteligencia artificial (IA). Este método aprovecha las capacidades de los modernos modelos básicos para realizar tareas como la segmentación y la detección sin necesidad de un reentrenamiento exhaustivo ni de grandes conjuntos de datos etiquetados. Al «señalar» eficazmente lo que importa, los usuarios pueden adaptar los modelos de uso general a tareas novedosas de forma instantánea, salvando la brecha entre la intención humana y la percepción de la máquina.
En esencia, las indicaciones visuales funcionan inyectando información espacial directamente en el proceso de procesamiento del modelo. Cuando un usuario hace clic en un objeto o dibuja un recuadro, estas entradas se convierten en incrustaciones basadas en coordenadas que la red neuronal integra con las características de la imagen. Este proceso es fundamental para arquitecturas interactivas como el modelo Segment Anything Model (SAM), en el que el modelo predice máscaras basándose en indicaciones geométricas.
La flexibilidad de las indicaciones visuales permite diversos tipos de interacción:
Una investigación reciente presentada en CVPR 2024 destaca cómo las indicaciones visuales reducen significativamente el tiempo necesario para la anotación de datos, ya que los anotadores humanos pueden corregir las predicciones del modelo en tiempo real con simples clics en lugar de trazar polígonos manualmente.
Si bien ambas técnicas tienen como objetivo guiar el comportamiento del modelo, es importante distinguir las indicaciones visuales de los métodos basados en texto . La generación de texto a imagen o la detección de disparo cero se basa en el procesamiento del lenguaje natural (NLP) para interpretar descripciones semánticas (por ejemplo, «encontrar el coche rojo»). Sin embargo, el lenguaje puede ser ambiguo o insuficiente para describir ubicaciones espaciales precisas o formas abstractas.
Las indicaciones visuales resuelven esta ambigüedad al basar la instrucción en el propio espacio de píxeles. Por ejemplo, en el análisis de imágenes médicas, es mucho más preciso que un radiólogo haga clic en un nódulo sospechoso que intentar describir sus coordenadas exactas y su forma irregular mediante texto. A menudo, los flujos de trabajo más potentes combinan ambos enfoques: el uso de texto para el filtrado semántico y las indicaciones visuales para la precisión espacial, un concepto conocido como aprendizaje multimodal.
La adaptabilidad de las indicaciones visuales ha llevado a su rápida adopción en diversos sectores:
El Ultralytics admite flujos de trabajo de indicaciones visuales, en particular a través de modelos como FastSAM SAM. Estos modelos permiten a los desarrolladores pasar coordenadas de puntos o cuadros mediante programación para recuperar máscaras de segmentación.
El siguiente ejemplo muestra cómo utilizar la función ultralytics paquete para aplicar un indicador de punto a una
imagen, indicando al modelo que segment objeto situado en unas coordenadas específicas.
from ultralytics import SAM
# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")
# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])
# Display the segmented result
results[0].show()
Las indicaciones visuales representan un cambio hacia una visión artificial «indicable», en la que los modelos ya no son «cajas negras» estáticas, sino herramientas interactivas. Esta capacidad es esencial para los bucles de aprendizaje activo, en los que los modelos mejoran rápidamente al incorporar los comentarios de los usuarios.
Para los desarrolladores que deseen integrar estas capacidades en la producción, Ultralytics ofrece herramientas para gestionar conjuntos de datos e implementar modelos que pueden manejar entradas dinámicas. A medida que avance la investigación, esperamos ver una integración aún más estrecha entre las indicaciones visuales y los grandes modelos de lenguaje (LLM), lo que permitirá que los sistemas puedan razonar sobre las entradas visuales con la misma fluidez con la que actualmente manejan el texto.