Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Segmentación interactiva

Descubre cómo la segmentación interactiva utiliza indicaciones con intervención humana para aislar objetos. Descubre cómo utilizar Ultralytics y la Ultralytics para realizar tareas.

La segmentación interactiva es un enfoque altamente colaborativo de la visión artificial en el que un usuario humano proporciona datos de forma continua o puntual —como clics, cuadros delimitadores o indicaciones de texto— para guiar a un modelo de IA a la hora de aislar objetos específicos dentro de una imagen. A diferencia de los métodos totalmente automatizados, esta técnica con intervención humana permite a los usuarios definir exactamente qué es lo que hay que segmentar, lo que la hace especialmente valiosa cuando se trata de datos visuales ambiguos, objetos superpuestos o clases desconocidas. En los últimos años, la introducción de modelos fundamentales ha mejorado drásticamente la velocidad y la precisión de este proceso, convirtiéndolo en una herramienta vital para la anotación de datos y la obtención de imágenes de alta precisión.

Cómo funciona la segmentación interactiva

En esencia, el flujo de trabajo se basa en la segmentación de conceptos mediante indicaciones, en la que el modelo interpreta las instrucciones del usuario para generar una máscara con precisión al píxel. El usuario puede realizar un clic «positivo» sobre el objeto en primer plano que desea seleccionar y un clic «negativo» sobre las áreas de fondo que desea excluir. Modelos avanzados como el Segment Anything Model (SAM) y sus sucesores, Meta SAM , llevan esto más allá al aceptar diversos tipos de gestos [1], cuadros delimitadores e incluso descripciones de texto para fundamentar la búsqueda visual. El modelo calcula el límite óptimo basándose en estas indicaciones, y el usuario puede refinar la máscara de forma iterativa con clics adicionales hasta alcanzar la precisión deseada.

Aplicaciones en el mundo real

La segmentación interactiva está transformando los flujos de trabajo en numerosos sectores al combinar la experiencia humana con la eficiencia de la IA.

  • Imágenes médicas: En el ámbito de la IA aplicada a la sanidad, los médicos y radiólogos utilizan herramientas interactivas para aislar tumores, lesiones u órganos específicos en resonancias magnéticas y tomografías computarizadas. Las investigaciones sobre el modelado espacial de imágenes médicas [2] demuestran que los clics interactivos permiten a los profesionales sanitarios corregir rápidamente las predicciones de la IA, garantizando así la precisión rigurosa necesaria para el diagnóstico de los pacientes.
  • Cartografía geoespacial y satelital: Los urbanistas y los científicos medioambientales utilizan modelos interactivos para acelerar la extracción de elementos SIG [3]. En lugar de trazar manualmente costas complejas, límites agrícolas o nuevas infraestructuras, los analistas pueden realizar unos pocos clics estratégicos para generar al instante polígonos geográficos precisos.
  • Detección de defectos industriales: En el ámbito de la IA aplicada a la fabricación, los ingenieros de control de calidad pueden utilizar indicaciones interactivas para señalar fallos microscópicos en las líneas de producción, adaptando dinámicamente el sistema a nuevos tipos de defectos sin necesidad de volver a entrenar todo el modelo.

Segmentación interactiva frente a segmentación de instancias

Aunque ambos conceptos implican la separación de objetos a nivel de píxel, tienen fines operativos distintos. La segmentación de instancias suele ser un proceso totalmente automatizado en el que un modelo, como Ultralytics , detecta y delimita clases predefinidas (por ejemplo, «coche», «persona», «perro») sin intervención del usuario. Puedes obtener más información sobre cómo funciona esto en nuestra guía sobre la segmentación de instancias.

Por el contrario, la segmentación interactiva no se basa estrictamente en clases predefinidas. Es independiente de las clases, lo que significa que segmenta aquello a lo que el usuario señale, lo que la convierte en una opción ideal para flujos de trabajo de aprendizaje activo en los que es necesario anotar rápidamente objetos nuevos e incorporarlos a conjuntos de datos personalizados mediante herramientas como la Ultralytics .

Ejemplo de uso de Ultralytics

Puedes implementar fácilmente la segmentación interactiva en tus propios proyectos utilizando PyTorch y el ultralytics Python . En este ejemplo, utilizamos FastSAM para segment objeto específico mediante la introducción de un cuadro delimitador.

from ultralytics import FastSAM

# Load a pretrained FastSAM model
model = FastSAM("FastSAM-s.pt")

# Perform interactive segmentation using a bounding box prompt [x1, y1, x2, y2]
results = model("path/to/image.jpg", bboxes=[100, 100, 300, 300])

# Display the segmented result on screen
results[0].show()

Este fragmento de código muestra cómo una sencilla indicación espacial guía directamente al modelo para aislar la región de interés, simplificando las complejas tareas de segmentación de imágenes con un código mínimo.

¡Construyamos juntos el futuro de la IA!

Comience su viaje con el futuro del aprendizaje automático