Saiba como a segmentação interativa utiliza prompts com intervenção humana para isolar objetos. Descubra como utilizar Ultralytics e a Ultralytics para realizar tarefas.
A segmentação interativa é uma abordagem altamente colaborativa à visão computacional, na qual um utilizador humano fornece entradas contínuas ou pontuais — tais como cliques, caixas delimitadoras ou instruções de texto — para orientar um modelo de IA na identificação de objetos específicos dentro de uma imagem. Ao contrário dos métodos totalmente automatizados, esta técnica «human-in-the-loop» permite aos utilizadores definir exatamente o que precisa de ser segmentado, tornando-a especialmente valiosa ao lidar com dados visuais ambíguos, objetos sobrepostos ou classes nunca antes vistas. Nos últimos anos, a introdução de modelos fundamentais melhorou drasticamente a velocidade e a precisão deste processo, transformando-o numa ferramenta vital para a anotação de dados e a imagem de precisão.
Na sua essência, o fluxo de trabalho baseia-se na segmentação de conceitos orientada por prompts, em que o modelo interpreta as instruções do utilizador para gerar uma máscara com precisão ao nível do pixel. Um utilizador pode efetuar um clique «positivo» no objeto em primeiro plano que pretende selecionar e um clique «negativo» nas áreas de fundo que pretende excluir. Modelos avançados como o Segment Anything Model (SAM) e os seus sucessores, o Meta SAM , vão mais além ao aceitar diversos tipos de gestos [1], caixas delimitadoras e até mesmo descrições de texto para fundamentar a pesquisa visual. O modelo calcula o limite ideal com base nestes prompts, e o utilizador pode refinar a máscara de forma iterativa com cliques adicionais até que a precisão desejada seja alcançada.
A segmentação interativa está a transformar os fluxos de trabalho em diversos setores, combinando a experiência humana com a eficiência da IA .
Embora ambos os conceitos envolvam a separação de objetos ao nível do pixel, servem objetivos operacionais diferentes. A segmentação de instâncias é normalmente um processo totalmente automatizado, no qual um modelo, como Ultralytics , deteta e contorna classes predefinidas (por exemplo, «carro», «pessoa», «cão») sem intervenção do utilizador. Pode saber mais sobre como isto funciona no nosso guia sobre segmentação de instâncias.
Por outro lado, a segmentação interativa não depende estritamente de classes predefinidas. É independente de classes, o que significa que segmenta tudo aquilo para onde o utilizador apontar, tornando-a uma excelente opção para fluxos de trabalho de aprendizagem ativa, nos quais novos objetos precisam de ser rapidamente anotados e adicionados a conjuntos de dados personalizados utilizando ferramentas como a Ultralytics .
Pode implementar facilmente a segmentação interativa nos seus próprios projetos utilizando
PyTorch e o ultralytics Python . Neste
exemplo, utilizamos FastSAM para segment objeto específico
através de um prompt de caixa delimitadora.
from ultralytics import FastSAM
# Load a pretrained FastSAM model
model = FastSAM("FastSAM-s.pt")
# Perform interactive segmentation using a bounding box prompt [x1, y1, x2, y2]
results = model("path/to/image.jpg", bboxes=[100, 100, 300, 300])
# Display the segmented result on screen
results[0].show()
Este trecho de código demonstra como uma simples instrução espacial orienta diretamente o modelo a isolar a região de interesse, simplificando tarefas complexas de segmentação de imagens com um código mínimo.

Comece sua jornada com o futuro do aprendizado de máquina