Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
IA de visión

Entender la segmentación de conceptos basada en prompts

Explora la segmentación de conceptos basada en prompts, cómo difiere de los métodos tradicionales y cómo modelos relacionados como YOLOE-26 habilitan capacidades de vocabulario abierto.

ABAbirami Vina
4 min read
Segmentación de conceptos basada en prompts de objetos en una imagen

La IA de visión está avanzando rápidamente y se utiliza ampliamente para analizar imágenes y vídeos en entornos reales. Por ejemplo, aplicaciones que van desde sistemas de gestión de tráfico hasta analítica minorista se están integrando con modelos de visión artificial.

En muchas de estas aplicaciones, los modelos de visión, como los modelos de detección de objetos, se entrenan para reconocer un conjunto predefinido de objetos, incluyendo vehículos, personas y equipos. Durante el entrenamiento, estos modelos ven muchos ejemplos etiquetados para que puedan aprender cómo aparece cada objeto y cómo distinguirlo de otros en una escena.

Para las tareas de segmentación, los modelos van un paso más allá al producir contornos precisos a nivel de píxel alrededor de estos objetos. Esto permite a los sistemas entender exactamente dónde se encuentra cada objeto en una imagen.

Esto funciona bien siempre que el sistema solo necesite reconocer aquello para lo que fue entrenado. Sin embargo, en entornos del mundo real, eso rara vez es el caso.

Las escenas visuales suelen ser dinámicas. Aparecen nuevos objetos y conceptos visuales, las condiciones cambian y los usuarios a menudo quieren segmentar objetos que no formaban parte de la configuración original de entrenamiento.

Estas limitaciones son especialmente claras cuando se trata de segmentación. A medida que la IA de visión sigue evolucionando, existe una necesidad creciente de modelos de segmentación más flexibles que puedan adaptarse a nuevos conceptos sin necesidad de repetir el entrenamiento. Por eso, la segmentación de conceptos mediante prompts (PCS) está ganando atención.

En lugar de depender de una lista fija de categorías de objetos, puedes describir lo que quieres segmentar usando texto, prompts visuales o imágenes de ejemplo. Estos modelos pueden entonces identificar y segmentar todas las regiones que coincidan con el concepto descrito, incluso si ese concepto no se incluyó explícitamente durante el entrenamiento.

En este artículo, exploraremos cómo funciona la segmentación de conceptos mediante prompts, en qué se diferencia de los enfoques tradicionales y dónde se utiliza hoy en día.

Link to this section¿Qué es la segmentación de conceptos mediante prompts?#

En la mayoría de los casos, los modelos de segmentación se entrenan para reconocer una lista corta de tipos de objetos. Esto funciona bien cuando un sistema de IA de visión solo necesita detectar y segmentar un conjunto específico de objetos.

Sin embargo, en las aplicaciones del mundo real, las escenas visuales son dinámicas. Aparecen nuevos objetos, los requisitos de la tarea cambian y los usuarios a menudo necesitan segmentar conceptos que no estaban incluidos en el conjunto de etiquetas original. Apoyar estas situaciones suele implicar recopilar nuevos datos y anotaciones de alta calidad y volver a entrenar el modelo, lo que aumenta los costes y ralentiza el despliegue.

La segmentación de conceptos mediante prompts resuelve este problema permitiendo a los usuarios decirle al modelo qué buscar en lugar de elegir de una lista fija de etiquetas. Los usuarios describen el objeto o la idea que buscan, y el modelo resalta todas las áreas coincidentes en la imagen. Esto hace que sea mucho más fácil conectar la intención del usuario con los píxeles reales de una imagen.

Uso de prompts conceptuales para segmentar objetos en una imagen

Fig 1. Un vistazo al uso de prompts de conceptos para la segmentación (Fuente)

Link to this sectionGuiando la segmentación con diferentes tipos de prompts#

Los modelos que admiten la segmentación de conceptos mediante prompts son flexibles porque pueden aceptar diferentes tipos de entrada. En otras palabras, hay más de una forma de decirle al modelo qué buscar, como descripciones de texto, pistas visuales o mediante imágenes de ejemplo.

Aquí tienes un análisis más detallado de cada enfoque:

  • Prompts de texto: Frases cortas como "autobús escolar" o "región tumoral" pueden utilizarse para describir el concepto a segmentar. El modelo interpreta el significado de las palabras e identifica las regiones coincidentes.
  • Prompts visuales: Estos prompts utilizan puntos, cajas o bocetos rápidos dentro de la imagen como pistas. Estas señales guían hacia dónde mirar y ayudan a dar forma al contorno final.
  • Ejemplares de imagen: Imágenes de referencia o pequeños recortes representan el concepto de interés. El modelo busca regiones visualmente similares y las segmenta basándose en su apariencia visual.

Link to this sectionLa diferencia entre PCS y la segmentación tradicional#

Antes de profundizar en cómo funciona la segmentación de conceptos mediante prompts, comparemos primero con varios métodos tradicionales de segmentación de objetos.

PCS permite modelos que son de vocabulario abierto y basados en prompts. Puede trabajar con nuevas ideas descritas a través de prompts, pero la segmentación tradicional no puede. Existen varios tipos diferentes de enfoques de segmentación tradicionales, cada uno con sus propias suposiciones y limitaciones.

Aquí tienes un vistazo a algunos tipos clave de segmentación tradicional:

  • Segmentación semántica: Cada píxel de la imagen se etiqueta como parte de una categoría como carretera, edificio o persona. Todos los píxeles con la misma etiqueta se agrupan, por lo que el modelo no separa instancias individuales de objetos.
  • Segmentación de instancias: El modelo identifica y segmenta objetos individuales, por lo que dos personas o dos coches se tratan como elementos separados.
  • Segmentación panóptica: Esta técnica combina la segmentación semántica y de instancias para proporcionar una vista completa de la escena, cubriendo tanto las regiones de fondo como los objetos individuales.

Todos estos enfoques dependen de una lista predefinida de categorías de objetos. Funcionan bien dentro de ese ámbito, pero no manejan muy bien los conceptos fuera de él. Cuando se necesita segmentar un nuevo objeto específico, generalmente se requieren datos de entrenamiento adicionales y un ajuste fino del modelo.

PCS pretende cambiar eso. En lugar de estar limitado a categorías predefinidas, te permite describir lo que quieres segmentar en una imagen en el momento de la inferencia.

Link to this sectionLa evolución de los modelos PCS#

A continuación, recorramos cómo evolucionaron los modelos de segmentación hacia la segmentación de conceptos mediante prompts.

Un modelo base popular que marcó un cambio en la segmentación fue SAM, o Segment Anything Model. Se introdujo en 2023. En lugar de depender de categorías de objetos predefinidas, SAM permitía a los usuarios guiar la segmentación usando prompts visuales simples como puntos o cajas delimitadoras.

Con SAM, los usuarios ya no tenían que seleccionar una etiqueta. Simplemente podían indicar dónde estaba un objeto y el modelo generaría una máscara para él. Esto hizo que la segmentación fuera más flexible, pero los usuarios aún tenían que mostrarle al modelo dónde mirar.

SAM 2, lanzado en 2024, se basó en esta idea manejando escenas más complejas y extendiendo la segmentación mediante prompts al vídeo. Mejoró la robustez en diferentes condiciones de iluminación, formas de objetos y movimiento, aunque seguía dependiendo principalmente de prompts visuales para guiar la segmentación.

El modelo SAM 3 es el último paso en esta evolución. Se lanzó el año pasado y es un modelo unificado que combina la comprensión visual con la guía lingüística, permitiendo un comportamiento consistente en tareas de segmentación de imágenes y vídeos.

Con SAM 3, los usuarios no están limitados a señalar o dibujar prompts. En su lugar, pueden describir lo que quieren segmentar usando texto, y el modelo busca en los fotogramas de la imagen o vídeo las regiones que coinciden con esa descripción.

La segmentación se guía por conceptos en lugar de categorías fijas de objetos, lo que admite un vocabulario abierto en diferentes escenas y a lo largo del tiempo. De hecho, SAM 3 opera sobre un gran espacio de conceptos aprendidos que se basa en una ontología derivada de fuentes como Wikidata y ampliada mediante datos de entrenamiento a gran escala.

Uso de prompts en SAM 3 para segmentar una sola imagen

Fig 2. Un ejemplo de cómo usar prompts en SAM 3 y segmentar una sola imagen (Fuente)

En comparación con las versiones anteriores que dependían principalmente de prompts geométricos, SAM 3 representa un paso hacia una segmentación más flexible y basada en conceptos. Esto lo hace más adecuado para aplicaciones del mundo real donde los objetos o ideas de interés pueden cambiar y no siempre pueden definirse de antemano.

Link to this sectionExplorando cómo funciona la segmentación visual mediante prompts#

Entonces, ¿cómo funciona la segmentación de conceptos mediante prompts? Se basa en grandes modelos de visión preentrenados y modelos de lenguaje visual, que son modelos entrenados en colecciones masivas de imágenes y, en muchos casos, texto emparejado. Este entrenamiento les permite aprender patrones visuales generales y significado semántico.

La mayoría de los modelos PCS utilizan arquitecturas basadas en Transformer, que procesan una imagen completa a la vez para comprender cómo se relacionan las diferentes regiones entre sí. Un Transformer de visión extrae características visuales de la imagen, mientras que un codificador de texto convierte las palabras en representaciones numéricas con las que el modelo puede trabajar.

Durante el entrenamiento, estos modelos pueden aprender de diferentes tipos de supervisión, incluyendo máscaras a nivel de píxel que definen los límites exactos de los objetos, cajas delimitadoras que localizan aproximadamente los objetos y etiquetas a nivel de imagen que describen lo que aparece en una imagen. Entrenar usando diferentes tipos de datos etiquetados ayuda al modelo a capturar tanto detalles finos como conceptos visuales más amplios.

En el momento de la inferencia, es decir, cuando el modelo se utiliza realmente para hacer predicciones, PCS sigue un proceso impulsado por prompts. Un usuario proporciona orientación a través de descripciones de texto, pistas visuales como puntos o cajas, o imágenes de ejemplo. El modelo codifica tanto el prompt como la imagen en una representación interna compartida o embeddings e identifica las regiones que se alinean con el concepto descrito.

Luego, un decodificador de máscara convierte esta representación compartida en máscaras de segmentación precisas a nivel de píxel. Dado que el modelo vincula las características visuales con el significado semántico, puede segmentar nuevos conceptos incluso si no se incluyeron explícitamente durante el entrenamiento.

Además, a menudo el resultado se puede refinar ajustando el prompt o añadiendo orientación adicional, lo que ayuda al modelo a manejar escenas complejas o ambiguas. Este proceso iterativo admite la optimización práctica durante el despliegue.

Los modelos de segmentación de conceptos mediante prompts suelen evaluarse según lo bien que segmentan conceptos no vistos anteriormente y lo robustamente que funcionan en diferentes escenas. Los benchmarks suelen centrarse en la calidad de la máscara, la generalización y la eficiencia computacional, reflejando los requisitos de despliegue del mundo real.

Link to this sectionCasos de uso de PCS en el mundo real#

A continuación, veamos dónde se está utilizando ya la segmentación de conceptos mediante prompts y empezando a tener un impacto real.

Link to this sectionSegmentación de imagen flexible para imágenes médicas#

La imagen médica involucra muchas estructuras biológicas, enfermedades y tipos de escaneos, y aparecen nuevos casos cada día. Los modelos de segmentación tradicionales luchan por mantenerse al día con esta variedad.

PCS encaja naturalmente en este espacio porque permite a los médicos describir lo que quieren encontrar en lugar de elegir de una lista corta y rígida. Con frases de texto o prompts visuales, PCS se puede utilizar para segmentar órganos o áreas de interés directamente, sin volver a entrenar el modelo para cada nueva tarea. Esto hace que sea más fácil manejar diversas necesidades clínicas, reduce la necesidad de dibujar máscaras manualmente y funciona en muchos tipos de imágenes.

Un gran ejemplo es MedSAM-3, que adapta la arquitectura de SAM 3 para PCS mediante prompts de texto en imágenes médicas. A este modelo se le puede dar un prompt con términos anatómicos y patológicos explícitos, como nombres de órganos como hígado o riñón y conceptos relacionados con lesiones como tumor o lesión. Dado un prompt, el modelo segmenta directamente la región correspondiente en la imagen médica.

MedSAM-3 también integra modelos de lenguaje grandes multimodales (MLLMs o LLMs multimodales), que pueden razonar tanto sobre texto como sobre imágenes. Estos modelos operan en una configuración de agente en el bucle, donde los resultados se refinan iterativamente para mejorar la precisión en los casos más difíciles.

Pipeline de MedSAM-3 para la segmentación de tumores mediante prompts de texto en imágenes médicas

Fig 3. Un pipeline de MedSAM-3 para la segmentación de tumores mediante prompts de texto en imágenes médicas (Fuente)

MedSAM-3 funciona bien con datos de rayos X, MRI, CT, ultrasonido y vídeo, destacando cómo PCS puede permitir flujos de trabajo de imagen médica más flexibles y eficientes en entornos clínicos reales.

Link to this sectionSegmentación adaptativa para cirugía robótica y automatización#

La cirugía robótica depende de sistemas de visión para rastrear herramientas y entender escenas quirúrgicas que cambian rápidamente. Los instrumentos se mueven rápido, la iluminación varía y pueden aparecer herramientas nuevas en cualquier momento, lo que hace que los sistemas de etiquetas predefinidos sean difíciles de mantener.

Con PCS, los robots pueden rastrear herramientas, guiar cámaras y seguir los pasos quirúrgicos en tiempo real. Esto reduce el etiquetado manual y hace que los sistemas sean más fáciles de adaptar a diferentes procedimientos. Los cirujanos o los sistemas automatizados pueden usar prompts de texto como "pinza", "bisturí" o "herramienta de cámara" para indicar qué debe segmentarse en una imagen.

Segmentación de instrumentos quirúrgicos durante una cirugía robótica

Fig 4. Segmentación de instrumentos quirúrgicos utilizados durante la cirugía robótica (Fuente)

Link to this sectionSegmentación de vocabulario abierto con Ultralytics YOLOE-26#

Otro modelo de vanguardia interesante relacionado con la segmentación de conceptos mediante prompts es nuestro Ultralytics YOLOE-26. Nuestro modelo aporta segmentación de vocabulario abierto basada en prompts a la familia de modelos YOLO de Ultralytics.

YOLOE-26 se basa en la arquitectura Ultralytics YOLO26 y admite segmentación de instancias de vocabulario abierto. YOLOE-26 permite a los usuarios guiar la segmentación de varias maneras.

Admite prompts de texto, donde frases cortas y visualmente fundamentadas pueden especificar el objeto objetivo, así como prompts visuales, que proporcionan orientación adicional basada en pistas de la imagen. Además, YOLOE-26 incluye un modo sin prompts para inferencia zero-shot, donde el modelo detecta y segmenta objetos de un vocabulario integrado sin requerir prompts del usuario.

YOLOE-26 es ideal para aplicaciones como analítica de vídeo, percepción robótica y sistemas basados en el borde, donde las categorías de objetos pueden cambiar pero la baja latencia y el rendimiento fiable siguen siendo esenciales. También es especialmente útil para el etiquetado de datos y la curación de datasets, ya que agiliza los flujos de trabajo al automatizar partes del proceso de anotación.

Link to this sectionPros y contras de la segmentación de conceptos mediante prompts#

Aquí tienes algunos de los principales beneficios de usar la segmentación de conceptos mediante prompts:

  • Iteración y creación de prototipos más rápidas: Las nuevas tareas de segmentación se pueden probar rápidamente cambiando los prompts en lugar de reconstruir datasets o volver a entrenar modelos, lo que acelera la experimentación y el desarrollo.
  • Adaptabilidad entre dominios: El mismo modelo PCS a menudo se puede aplicar a diferentes dominios, como imágenes médicas, robótica o analítica de vídeo, con cambios mínimos en el flujo de trabajo.
  • Refinamiento interactivo: Los usuarios pueden ajustar iterativamente los prompts o añadir orientación para mejorar los resultados, lo que facilita el manejo de escenas ambiguas o casos extremos sin necesidad de reentrenamiento.

Aunque PCS tiene claras ventajas, aquí tienes algunas limitaciones a considerar:

  • Sensibilidad a los prompts: Pequeños cambios en cómo se escribe o se proporciona un prompt pueden afectar al resultado. Los prompts demasiado vagos o demasiado específicos pueden llevar a una segmentación incompleta o incorrecta.
  • Comportamiento menos predecible: Dado que el modelo interpreta los prompts en lugar de seleccionar entre etiquetas fijas, los resultados pueden variar más entre escenas y entradas, lo que puede ser un problema para pipelines estrictamente controlados.
  • Interpretación ambigua de conceptos: Algunos conceptos son subjetivos o están definidos de forma imprecisa, lo que puede llevar a resultados de segmentación inconsistentes entre usuarios o entre imágenes.
  • Fiabilidad limitada para objetivos altamente específicos: Los modelos basados en prompts son generalmente menos fiables para tareas estrechamente definidas y específicas de instancias, como la detección de defectos, donde se requiere una identificación precisa y consistente de características sutiles.

Link to this sectionElegir entre segmentación mediante prompts y tradicional#

A medida que exploras la segmentación mediante prompts, podrías preguntarte para qué aplicaciones es más adecuada y cuándo un modelo de visión artificial tradicional como YOLO26 se ajusta mejor al problema que intentas resolver. La segmentación mediante prompts funciona bien para objetos generales, pero no es adecuada para casos de uso que requieran resultados muy precisos y consistentes.

La detección de defectos es un buen ejemplo. En la fabricación, los defectos suelen ser pequeños y sutiles, como pequeños arañazos, abolladuras, desalineaciones o irregularidades en la superficie. También pueden variar ampliamente dependiendo de los materiales, la iluminación y las condiciones de producción.

Estos problemas son difíciles de describir con un simple prompt y aún más difíciles de detectar de forma fiable para un modelo de propósito general. En general, los modelos basados en prompts tienden a pasar por alto defectos o producir resultados inestables, mientras que los modelos entrenados específicamente con datos de defectos son mucho más fiables para los sistemas de inspección del mundo real.

Link to this sectionConclusiones clave#

La segmentación de conceptos mediante prompts hace que los sistemas de visión sean más fáciles de adaptar al mundo real, donde aparecen constantemente nuevos objetos e ideas. En lugar de estar bloqueados en etiquetas fijas, los usuarios pueden simplemente describir lo que quieren segmentar y dejar que el modelo haga el resto, lo que ahorra tiempo y reduce el trabajo manual. Aunque todavía tiene limitaciones, PCS ya está cambiando cómo se utiliza la segmentación en la práctica y es probable que se convierta en una parte central de los futuros sistemas de visión.

Explora más sobre IA visitando nuestro repositorio de GitHub y uniéndote a nuestra comunidad. Echa un vistazo a nuestras páginas de soluciones para aprender sobre IA en robótica y visión artificial en la fabricación. ¡Descubre nuestras opciones de licencia para empezar con la IA de visión hoy mismo!

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático