Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

O que é segmentação de instâncias? Um guia rápido

Abirami Vina

Leitura de 6 min

6 de março de 2025

Junte-se a nós enquanto analisamos mais de perto o que é segmentação de instâncias, como funciona, seu uso em várias aplicações de visão computacional e o impacto que pode ter.

As aplicações de visão computacional estão se tornando mais comuns em nosso dia a dia, desde câmeras de trânsito monitorando as condições das estradas até sistemas de autoatendimento em lojas. Ao permitir que as máquinas entendam os dados visuais de maneira semelhante aos humanos, a Visão de IA está causando impacto em diversos setores.

Muitas dessas aplicações dependem da detecção de objetos, uma tarefa de visão computacional que coloca caixas delimitadoras ao redor de objetos-chave em imagens. Embora essa abordagem geralmente funcione bem, algumas soluções de análise de imagem precisam de uma precisão ainda maior.

Por exemplo, a imagem médica exige mais do que apenas detectar um tumor - é crucial delinear sua forma exata. Da mesma forma, na robótica, as máquinas precisam reconhecer os contornos exatos de um objeto para agarrá-lo corretamente. Para enfrentar esses desafios, a segmentação de instâncias oferece uma solução mais precisa.

A segmentação de instâncias é uma tarefa de visão computacional projetada para suportar casos de uso onde detectar objetos não é suficiente - ela fornece precisão em nível de pixel. Modelos de visão computacional como o Ultralytics YOLO11 podem ser usados para aplicar a segmentação de instâncias a imagens e vídeos facilmente. 

__wf_reserved_inherit
Fig. 1. Exemplo de uso do YOLO11 para segmentação de instâncias.

Neste guia, vamos detalhar como funciona a segmentação de instâncias, as suas aplicações e como o Ultralytics YOLO11 pode ser treinado de forma personalizada para tarefas de segmentação específicas.

O que é segmentação de instâncias?

Digamos que haja uma foto de grupo de pessoas em pé, próximas umas das outras. A detecção de objetos pode ajudar a desenhar caixas ao redor de cada pessoa, mas isso não informa seu formato exato. 

A segmentação de instâncias, por outro lado, é semelhante a traçar cuidadosamente o contorno de cada pessoa para que você possa ver seu contorno completo, mesmo que elas se sobreponham. Em vez de apenas marcar onde algo está com uma caixa, ela identifica a forma exata de cada objeto no nível do pixel, tornando mais fácil a compreensão de imagens complexas.

O resultado é uma máscara detalhada que preenche a forma de um objeto, identificando exatamente quais pixels pertencem a ele. Esse nível de precisão é útil em muitas aplicações do mundo real, onde a compreensão da forma exata e dos limites dos objetos é importante.

__wf_reserved_inherit
Fig 2. Apresentando o suporte do YOLO11 para segmentação de instâncias.

Segmentação de instâncias vs segmentação semântica

Ao explorar a segmentação de instâncias, você pode encontrar o conceito de segmentação semântica.

Ambas as técnicas ajudam os computadores a entender imagens no nível do pixel, mas servem a propósitos diferentes. A segmentação semântica rotula cada pixel com base em sua categoria, agrupando todos os objetos do mesmo tipo. Por exemplo, em uma imagem com vários carros, a segmentação semântica marcaria todos eles como "carro", sem distinguir entre veículos individuais.

A segmentação de instâncias, por outro lado, leva isso um passo adiante, identificando cada objeto separadamente. Ela atribui rótulos exclusivos a instâncias individuais e cria máscaras precisas ao redor de suas formas. Portanto, na mesma imagem, a segmentação de instâncias não apenas rotularia tudo como "carro", mas reconheceria e delinearia cada carro individualmente.

A principal diferença entre os dois é que a segmentação semântica agrupa objetos por categoria, enquanto a segmentação de instâncias distingue cada objeto como uma entidade única com limites claros. A escolha de qual tarefa usar depende da aplicação específica - se é suficiente saber o que está numa imagem ou se é importante diferenciar entre objetos individuais.

__wf_reserved_inherit
Fig 3. Segmentação de instância vs segmentação semântica (direita e esquerda, respectivamente).

Modelos populares de segmentação de instâncias

Existem vários modelos de segmentação de instâncias disponíveis para a comunidade de IA de Visão atualmente. Alguns são mais rápidos, outros são mais precisos e outros são mais fáceis de usar. 

Essas opções, embora úteis, podem levar à pergunta: qual é a certa para usar em uma tarefa específica? Entre as opções, os modelos YOLO da Ultralytics são bastante populares porque se concentram na velocidade e na precisão. 

Além disso, esses modelos evoluíram significativamente ao longo dos anos. Por exemplo, o Ultralytics YOLOv5 simplificou a implementação usando frameworks como o PyTorch, tornando a IA de Visão avançada acessível a um público mais amplo, sem exigir profundo conhecimento técnico.

Aproveitando esse sucesso, o Ultralytics YOLOv8 introduziu suporte aprimorado para tarefas de visão computacional, como segmentação de instâncias, estimativa de pose e classificação de imagens. 

Agora, o YOLO11 leva o desempenho a um novo nível. Ele alcança uma precisão média (mAP) mais alta no conjunto de dados COCO com 22% menos parâmetros do que o YOLOv8m, o que significa que ele pode reconhecer objetos com mais precisão enquanto usa menos recursos.

__wf_reserved_inherit
Fig 4. Benchmarking do YOLO11.

Simplificando, o YOLO11 oferece precisão de última geração sem comprometer a eficiência, tornando-o um divisor de águas no campo.

Entendendo como funciona a segmentação de instâncias

Em seguida, vamos explorar como a segmentação de instâncias normalmente funciona. Modelos de visão computacional mais antigos usam uma abordagem de duas etapas. 

Primeiro, eles detetam objetos desenhando caixas delimitadoras ao redor deles. Em seguida, geram uma máscara no nível do pixel para delinear a forma exata de cada objeto. Um exemplo bem conhecido é o Mask R-CNN, que se baseia em modelos de deteção de objetos adicionando uma etapa de previsão de máscara. Embora este método seja eficaz, pode ser lento porque processa a imagem em várias etapas, tornando as aplicações em tempo real mais desafiadoras.

Enquanto isso, modelos como o YOLO11 processam imagens de uma só vez, prevendo simultaneamente bounding boxes de objetos e máscaras de segmentação de instâncias. Essa abordagem simplificada o torna muito mais rápido, mantendo ainda alta precisão. Como resultado, é particularmente útil para aplicações em tempo real, como direção autônoma, análise de vídeo e robótica, onde velocidade e precisão são cruciais.

Treino personalizado de YOLO11 para segmentação de instâncias

O YOLO11 já vem como um modelo pré-treinado. Ele foi treinado no conjunto de dados COCO-Seg, que cobre objetos cotidianos para segmentação de instâncias. No entanto, o pacote Python Ultralytics oferece suporte ao treinamento personalizado, o que é essencial para aplicações especializadas onde objetos únicos precisam ser segmentados.

Por que o treino personalizado ou o ajuste fino de um modelo é importante? O treino personalizado aproveita a aprendizagem por transferência, baseando-se no conhecimento já incorporado em modelos pré-treinados. Em vez de começar do zero, adapta um modelo existente a novas tarefas usando conjuntos de dados menores e menos recursos computacionais, mantendo ao mesmo tempo uma alta precisão.

Como treinar o YOLO11 de forma personalizada

Aqui está uma análise mais detalhada das etapas envolvidas no ajuste fino do YOLO11 para segmentação de instâncias: 

  • Preparação de dados: Colete e anote imagens com base em sua aplicação específica. A Ultralytics oferece suporte para vários conjuntos de dados de imagem, mas você também pode treinar usando seu próprio conjunto de dados, preparando imagens e anotações no formato YOLO necessário.
  • Usando um modelo pré-treinado: Em vez de começar do zero, use um modelo Ultralytics YOLO11 pré-treinado. 
  • Treinamento do modelo: Ajuste as configurações de treinamento vitais, como tamanho do lote (imagens processadas por iteração), tamanho da imagem (resolução de entrada alvo) e épocas (ciclos de treinamento totais) e treine o modelo. 
  • Avaliação de desempenho: Após a conclusão do treinamento do modelo, você pode testar a precisão do modelo usando métricas de desempenho como o mAP. O pacote Ultralytics Python também fornece funções integradas para avaliação do modelo.

Aplicações de segmentação de instâncias habilitadas pelo YOLO11

A segmentação de instâncias pode ser usada para resolver desafios do mundo real, ajudando as máquinas a ver e entender objetos com mais precisão. Desde a melhoria da automação até a proteção do meio ambiente, ela desempenha um papel fundamental em muitos campos. Vamos percorrer alguns exemplos de onde ela está causando impacto.

Segurança e monitorização do local de construção utilizando YOLO11

A segmentação de instâncias pode ser uma parte crítica para garantir a segurança e a eficiência em canteiros de obras. Por exemplo, pode ser usada para monitorar máquinas pesadas. 

O YOLO11 pode ser ajustado para segmentar e identificar com precisão diferentes tipos de equipamentos, como guindastes, escavadeiras e bulldozers, e rastrear suas posições em tempo real. Isso permite que os gerentes de obra garantam que as máquinas operem estritamente dentro das áreas designadas e não invadam zonas onde trabalhadores estão presentes ou onde existam perigos. 

Além disso, a integração de tais soluções com sistemas de alerta em tempo real permite que ações corretivas rápidas sejam tomadas. Além disso, os insights coletados podem ajudar a otimizar o layout do site e o fluxo de trabalho, reduzindo ainda mais os riscos e aumentando a produtividade.

__wf_reserved_inherit
Fig 5. Monitoramento de máquinas pesadas usando YOLO11.

Monitorização de animais com segmentação e YOLO11

O monitoramento do comportamento animal ajuda pesquisadores, agricultores e conservacionistas a cuidar melhor dos animais em diferentes ambientes. A segmentação de instâncias desempenha um papel útil nesses sistemas, identificando e segmentando animais individuais em fazendas, zoológicos e habitats naturais. Ao contrário da detecção de objetos tradicional que usa caixas delimitadoras, a segmentação de instâncias fornece uma delimitação em nível de pixel de cada animal, o que é particularmente útil quando os animais estão muito próximos.

A segmentação detalhada facilita um rastreamento mais preciso de movimentos e comportamentos. Animais sobrepostos ou agrupados de perto podem ser reconhecidos distintamente, e fornecem uma análise mais precisa de interações, avaliações de saúde e padrões de atividade. No geral, insights mais profundos sobre o comportamento animal aprimoram as práticas de cuidado e manejo animal.

__wf_reserved_inherit
Fig 6. Monitoramento de gado usando segmentação de instâncias.

YOLO11 em análises esportivas e rastreamento de jogadores

O rastreamento preciso de jogadores e eventos é uma parte importante da análise esportiva. Os métodos de rastreamento tradicionais dependem da marcação manual, que pode não capturar interações detalhadas. A visão computacional pode ser usada para segmentar detalhes como cada jogador, bola e evento chave no nível do pixel para obter insights detalhados.

Por exemplo, a segmentação de instâncias pode ajudar a detectar eventos como faltas ou incidentes fora da bola, separando claramente cada jogador e objeto. Este monitoramento granular habilitado por modelos como o YOLO11 oferece aos analistas informações mais claras para estudar padrões de movimento, posicionamento espacial e interações com alta precisão. Um benefício fundamental dessas percepções é que elas ajudam as equipes a refinar suas estratégias e impulsionar o desempenho geral.

Prós e contras da segmentação de instâncias

Aqui estão alguns dos principais benefícios que a segmentação de instâncias pode trazer para vários setores:

  • Automação aprimorada: Ao automatizar tarefas como controle de qualidade e monitoramento de segurança, a segmentação de instâncias reduz a necessidade de intervenção manual e minimiza o erro humano.
  • Melhor compreensão da cena: Ao delinear com precisão cada objeto, a segmentação de instância contribui para uma compreensão mais profunda de cenas complexas, apoiando uma tomada de decisão mais informada.
  • Pós-processamento eficiente: A saída no nível do pixel simplifica tarefas como remoção de fundo, contagem de objetos e análise espacial, reduzindo a necessidade de etapas de processamento adicionais.

Embora esses benefícios destaquem como a segmentação de instâncias impacta diferentes casos de uso, também é essencial considerar os desafios envolvidos em sua implementação. 

Aqui estão algumas das principais limitações da segmentação de instâncias:

  • Desafios com a transparência: Segmentar objetos transparentes ou reflexivos, como vidro e água, é difícil, levando a limites imprecisos.
  • Sobrecarga de manutenção: Para manter os modelos precisos e relevantes, atualizações contínuas e ajuste fino são necessários à medida que as condições ambientais e os conjuntos de dados mudam.
  • Alto esforço de anotação: O treinamento de modelos de segmentação de instâncias requer anotações detalhadas no nível do pixel, o que aumenta significativamente o tempo e o custo envolvidos na preparação dos dados.

Principais conclusões

A segmentação de instâncias torna possível distinguir objetos individuais com precisão, mesmo quando eles se sobrepõem. Ao capturar os limites dos objetos no nível do pixel, ela fornece uma compreensão mais profunda dos dados visuais em comparação com as tarefas tradicionais de visão computacional, como a detecção de objetos.

Avanços recentes em visão computacional tornaram a segmentação de instâncias mais rápida e fácil de usar. Em particular, modelos de visão computacional como o Ultralytics YOLO11 simplificam o processo, permitindo a segmentação em tempo real com configuração mínima, tornando-o mais acessível para vários setores e aplicações.

Tem curiosidade sobre IA? Visite o nosso repositório GitHub e conecte-se com a nossa comunidade para continuar a explorar. Saiba mais sobre inovações como IA em carros autónomos e Visão de IA na agricultura nas nossas páginas de soluções. Consulte as nossas opções de licenciamento e comece já o seu projeto de visão computacional!

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência