Descubre cómo la segmentación interactiva utiliza indicaciones con intervención humana para aislar objetos. Descubre cómo utilizar Ultralytics y la Ultralytics para realizar tareas.
La segmentación interactiva es un enfoque altamente colaborativo de la visión artificial en el que un usuario humano proporciona datos de forma continua o puntual —como clics, cuadros delimitadores o indicaciones de texto— para guiar a un modelo de IA a la hora de aislar objetos específicos dentro de una imagen. A diferencia de los métodos totalmente automatizados, esta técnica con intervención humana permite a los usuarios definir exactamente qué es lo que hay que segmentar, lo que la hace especialmente valiosa cuando se trata de datos visuales ambiguos, objetos superpuestos o clases desconocidas. En los últimos años, la introducción de modelos fundamentales ha mejorado drásticamente la velocidad y la precisión de este proceso, convirtiéndolo en una herramienta vital para la anotación de datos y la obtención de imágenes de alta precisión.
En esencia, el flujo de trabajo se basa en la segmentación de conceptos mediante indicaciones, en la que el modelo interpreta las instrucciones del usuario para generar una máscara con precisión al píxel. El usuario puede realizar un clic «positivo» sobre el objeto en primer plano que desea seleccionar y un clic «negativo» sobre las áreas de fondo que desea excluir. Modelos avanzados como el Segment Anything Model (SAM) y sus sucesores, Meta SAM , llevan esto más allá al aceptar diversos tipos de gestos [1], cuadros delimitadores e incluso descripciones de texto para fundamentar la búsqueda visual. El modelo calcula el límite óptimo basándose en estas indicaciones, y el usuario puede refinar la máscara de forma iterativa con clics adicionales hasta alcanzar la precisión deseada.
La segmentación interactiva está transformando los flujos de trabajo en numerosos sectores al combinar la experiencia humana con la eficiencia de la IA.
Aunque ambos conceptos implican la separación de objetos a nivel de píxel, tienen fines operativos distintos. La segmentación de instancias suele ser un proceso totalmente automatizado en el que un modelo, como Ultralytics , detecta y delimita clases predefinidas (por ejemplo, «coche», «persona», «perro») sin intervención del usuario. Puedes obtener más información sobre cómo funciona esto en nuestra guía sobre la segmentación de instancias.
Por el contrario, la segmentación interactiva no se basa estrictamente en clases predefinidas. Es independiente de las clases, lo que significa que segmenta aquello a lo que el usuario señale, lo que la convierte en una opción ideal para flujos de trabajo de aprendizaje activo en los que es necesario anotar rápidamente objetos nuevos e incorporarlos a conjuntos de datos personalizados mediante herramientas como la Ultralytics .
Puedes implementar fácilmente la segmentación interactiva en tus propios proyectos utilizando
PyTorch y el ultralytics Python . En este
ejemplo, utilizamos FastSAM para segment objeto específico
mediante la introducción de un cuadro delimitador.
from ultralytics import FastSAM
# Load a pretrained FastSAM model
model = FastSAM("FastSAM-s.pt")
# Perform interactive segmentation using a bounding box prompt [x1, y1, x2, y2]
results = model("path/to/image.jpg", bboxes=[100, 100, 300, 300])
# Display the segmented result on screen
results[0].show()
Este fragmento de código muestra cómo una sencilla indicación espacial guía directamente al modelo para aislar la región de interés, simplificando las complejas tareas de segmentación de imágenes con un código mínimo.


Comience su viaje con el futuro del aprendizaje automático