Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Segmentação interativa

Saiba como a segmentação interativa utiliza prompts com intervenção humana para isolar objetos. Descubra como utilizar Ultralytics e a Ultralytics para realizar tarefas.

A segmentação interativa é uma abordagem altamente colaborativa à visão computacional, na qual um utilizador humano fornece entradas contínuas ou pontuais — tais como cliques, caixas delimitadoras ou instruções de texto — para orientar um modelo de IA na identificação de objetos específicos dentro de uma imagem. Ao contrário dos métodos totalmente automatizados, esta técnica «human-in-the-loop» permite aos utilizadores definir exatamente o que precisa de ser segmentado, tornando-a especialmente valiosa ao lidar com dados visuais ambíguos, objetos sobrepostos ou classes nunca antes vistas. Nos últimos anos, a introdução de modelos fundamentais melhorou drasticamente a velocidade e a precisão deste processo, transformando-o numa ferramenta vital para a anotação de dados e a imagem de precisão.

Como funciona a segmentação interativa

Na sua essência, o fluxo de trabalho baseia-se na segmentação de conceitos orientada por prompts, em que o modelo interpreta as instruções do utilizador para gerar uma máscara com precisão ao nível do pixel. Um utilizador pode efetuar um clique «positivo» no objeto em primeiro plano que pretende selecionar e um clique «negativo» nas áreas de fundo que pretende excluir. Modelos avançados como o Segment Anything Model (SAM) e os seus sucessores, o Meta SAM , vão mais além ao aceitar diversos tipos de gestos [1], caixas delimitadoras e até mesmo descrições de texto para fundamentar a pesquisa visual. O modelo calcula o limite ideal com base nestes prompts, e o utilizador pode refinar a máscara de forma iterativa com cliques adicionais até que a precisão desejada seja alcançada.

Aplicações no Mundo Real

A segmentação interativa está a transformar os fluxos de trabalho em diversos setores, combinando a experiência humana com a eficiência da IA .

  • Imagiologia médica: No âmbito da IA na área da saúde, médicos e radiologistas utilizam ferramentas interativas para identificar tumores, lesões ou órgãos específicos em exames de ressonância magnética e tomografia computadorizada. A investigação sobre modelagem espacial para imagens médicas [2] demonstra que os cliques interativos permitem aos profissionais de saúde corrigir rapidamente as previsões da IA, garantindo a precisão rigorosa necessária para o diagnóstico dos doentes.
  • Cartografia geoespacial e por satélite: Os urbanistas e os cientistas ambientais utilizam modelos interativos para acelerar a extração de elementos SIG [3]. Em vez de traçar manualmente linhas costeiras complexas, limites agrícolas ou novas infraestruturas, os analistas podem fazer alguns cliques estratégicos para gerar instantaneamente polígonos geográficos precisos.
  • Detecção de defeitos industriais: No âmbito da IA na indústria transformadora, os engenheiros de controlo de qualidade podem utilizar prompts interativos para identificar falhas microscópicas nas linhas de produção, adaptando dinamicamente o sistema a novos tipos de defeitos sem necessidade de retreinar todo o modelo.

Segmentação interativa vs. segmentação de instâncias

Embora ambos os conceitos envolvam a separação de objetos ao nível do pixel, servem objetivos operacionais diferentes. A segmentação de instâncias é normalmente um processo totalmente automatizado, no qual um modelo, como Ultralytics , deteta e contorna classes predefinidas (por exemplo, «carro», «pessoa», «cão») sem intervenção do utilizador. Pode saber mais sobre como isto funciona no nosso guia sobre segmentação de instâncias.

Por outro lado, a segmentação interativa não depende estritamente de classes predefinidas. É independente de classes, o que significa que segmenta tudo aquilo para onde o utilizador apontar, tornando-a uma excelente opção para fluxos de trabalho de aprendizagem ativa, nos quais novos objetos precisam de ser rapidamente anotados e adicionados a conjuntos de dados personalizados utilizando ferramentas como a Ultralytics .

Exemplo de utilização Ultralytics

Pode implementar facilmente a segmentação interativa nos seus próprios projetos utilizando PyTorch e o ultralytics Python . Neste exemplo, utilizamos FastSAM para segment objeto específico através de um prompt de caixa delimitadora.

from ultralytics import FastSAM

# Load a pretrained FastSAM model
model = FastSAM("FastSAM-s.pt")

# Perform interactive segmentation using a bounding box prompt [x1, y1, x2, y2]
results = model("path/to/image.jpg", bboxes=[100, 100, 300, 300])

# Display the segmented result on screen
results[0].show()

Este trecho de código demonstra como uma simples instrução espacial orienta diretamente o modelo a isolar a região de interesse, simplificando tarefas complexas de segmentação de imagens com um código mínimo.

Vamos construir juntos o futuro da IA!

Comece sua jornada com o futuro do aprendizado de máquina