Visual Prompting
Explora el prompting visual para guiar modelos de IA con puntos y cajas. Aprende cómo Ultralytics YOLO y SAM permiten una segmentación precisa y una anotación de datos más rápida.
El prompting visual es una técnica emergente en visión artificial donde los usuarios proporcionan señales espaciales o visuales (como puntos, cuadros delimitadores o garabatos) para guiar el enfoque de un modelo de IA hacia objetos o regiones específicas dentro de una imagen. A diferencia del prompt engineering tradicional, que se basa principalmente en descripciones de texto, el prompting visual permite una interacción más precisa e intuitiva con los sistemas de Inteligencia Artificial (IA). Este método aprovecha las capacidades de los modelos fundacionales modernos para realizar tareas como la segmentación y la detección sin requerir un reentrenamiento exhaustivo o grandes conjuntos de datos etiquetados. Al "señalar" eficazmente lo que importa, los usuarios pueden adaptar modelos de propósito general a tareas novedosas al instante, cerrando la brecha entre la intención humana y la percepción de la máquina.
Link to this sectionMecanismos del prompting visual#
En esencia, el prompting visual funciona inyectando información espacial directamente en el proceso de procesamiento del modelo. Cuando un usuario hace clic en un objeto o dibuja un cuadro, estas entradas se convierten en incrustaciones basadas en coordenadas que la red neuronal integra con las características de la imagen. Este proceso es fundamental para arquitecturas interactivas como el Segment Anything Model (SAM), donde el modelo predice máscaras basadas en prompts geométricos.
La flexibilidad del prompting visual permite varios tipos de interacción:
- Prompts de puntos: Un usuario hace clic en un píxel específico para indicar el objeto de interés. Luego, el modelo expande esta selección a los límites completos del objeto.
- Prompts de cuadros: Dibujar un bounding box proporciona una localización aproximada, señalando al modelo que segmente o clasifique todo lo que contiene esa área.
- Prompts de garabatos: Las líneas a mano alzada dibujadas sobre un objeto pueden ayudar a desambiguar escenas complejas donde los objetos se superponen o tienen texturas similares.
Investigaciones recientes presentadas en CVPR 2024 destacan cómo el prompting visual reduce significativamente el tiempo necesario para la anotación de datos, ya que los anotadores humanos pueden corregir las predicciones del modelo en tiempo real con simples clics en lugar de trazar polígonos manualmente.
Link to this sectionPrompting visual frente a prompting de texto#
Aunque ambas técnicas tienen como objetivo guiar el comportamiento del modelo, es importante distinguir el prompting visual de los métodos basados en texto. La generación de text-to-image o la detección zero-shot se basa en el procesamiento de lenguaje natural (NLP) para interpretar descripciones semánticas (por ejemplo, "encuentra el coche rojo"). Sin embargo, el lenguaje puede ser ambiguo o insuficiente para describir ubicaciones espaciales precisas o formas abstractas.
El prompting visual resuelve esta ambigüedad al basar la instrucción en el propio espacio de píxeles. Por ejemplo, en el análisis de imágenes médicas, es mucho más preciso para un radiólogo hacer clic en un nódulo sospechoso que intentar describir sus coordenadas exactas y su forma irregular mediante texto. A menudo, los flujos de trabajo más potentes combinan ambos enfoques (usar texto para el filtrado semántico y prompts visuales para la precisión espacial), un concepto conocido como aprendizaje multimodal.
Link to this sectionAplicaciones en el mundo real#
La adaptabilidad del prompting visual ha llevado a su rápida adopción en diversas industrias:
- Diagnóstico médico interactivo: Los médicos utilizan herramientas de prompting visual para aislar tumores u órganos en escáneres de resonancia magnética. Con solo hacer clic en una región de interés, pueden generar instantáneamente medidas volumétricas 3D, lo que ayuda en la detección de tumores precisa y en la planificación quirúrgica.
- Edición inteligente de fotos: En software de consumo como Adobe Photoshop o aplicaciones móviles, el prompting visual potencia las herramientas de "selección mágica". Los usuarios pueden tocar a una persona u objeto para eliminar el fondo o aplicar filtros específicos, utilizando tecnologías subyacentes de instancia de segmentación sin necesidad de habilidades de enmascaramiento manual.
- Manipulación robótica: En la IA en Robótica, se puede dar instrucciones a los robots para que recojan artículos específicos a través de una interfaz visual. Un operador hace clic en un objeto en la transmisión de la cámara del robot, proporcionando un prompt visual que el robot traduce en coordenadas de agarre, facilitando la automatización human-in-the-loop en almacenes.
Link to this sectionImplementación con Ultralytics#
El ecosistema Ultralytics admite flujos de trabajo de prompting visual, particularmente a través de modelos como FastSAM y SAM. Estos modelos permiten a los desarrolladores pasar coordenadas de puntos o cuadros mediante programación para recuperar máscaras de segmentación.
El siguiente ejemplo demuestra cómo utilizar el paquete ultralytics para aplicar un prompt de punto a una imagen, instruyendo al modelo para que segmente el objeto ubicado en coordenadas específicas.
from ultralytics import SAM
# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")
# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])
# Display the segmented result
results[0].show()Link to this sectionAvanzando en la agilidad del modelo#
El prompting visual representa un cambio hacia una visión artificial "promptable", donde los modelos ya no son "cajas negras" estáticas, sino herramientas interactivas. Esta capacidad es esencial para los bucles de aprendizaje activo, donde los modelos mejoran rápidamente incorporando la retroalimentación del usuario.
Para los desarrolladores que buscan integrar estas capacidades en producción, la Plataforma Ultralytics ofrece herramientas para gestionar conjuntos de datos y desplegar modelos que pueden manejar entradas dinámicas. A medida que avanza la investigación, esperamos ver una integración aún más estrecha entre los prompts visuales y los grandes modelos de lenguaje (LLMs), permitiendo sistemas que puedan razonar sobre entradas visuales con la misma fluidez con la que manejan el texto actualmente.






