Segmentação de instâncias: Um guia rápido

As aplicações de visão computacional estão se tornando mais comuns em nosso dia a dia, desde câmeras de trânsito monitorando as condições das estradas até sistemas de autoatendimento em lojas. Ao permitir que as máquinas entendam os dados visuais de maneira semelhante aos humanos, a Visão de IA está causando impacto em diversos setores.

Muitas dessas aplicações dependem da detecção de objetos, uma tarefa de visão computacional que coloca caixas delimitadoras ao redor de objetos-chave em imagens. Embora essa abordagem geralmente funcione bem, algumas soluções de análise de imagem precisam de uma precisão ainda maior.

Por exemplo, a imagem médica exige mais do que apenas detectar um tumor - é crucial delinear sua forma exata. Da mesma forma, na robótica, as máquinas precisam reconhecer os contornos exatos de um objeto para agarrá-lo corretamente. Para enfrentar esses desafios, a segmentação de instâncias oferece uma solução mais precisa.

A segmentação de instâncias é uma tarefa de visão por computador concebida para suportar casos de utilização em que a deteção de objectos não é suficiente - fornece precisão ao nível do pixel. Modelos de visão por computador como o Ultralytics YOLO11 podem ser utilizados para aplicar facilmente a segmentação de instâncias a imagens e vídeos.

__wf_reserved_inherit — Fig. 1. Exemplo de utilização do YOLO11 para a segmentação de exemplos.

‍

Neste guia, vamos explicar como funciona a segmentação de instâncias, as suas aplicações e como Ultralytics YOLO11 pode ser treinado de forma personalizada para tarefas de segmentação específicas.

O que é segmentação de instâncias?

Digamos que haja uma foto de grupo de pessoas em pé, próximas umas das outras. A detecção de objetos pode ajudar a desenhar caixas ao redor de cada pessoa, mas isso não informa seu formato exato.

A segmentação de instâncias, por outro lado, é semelhante a traçar cuidadosamente o contorno de cada pessoa para que você possa ver seu contorno completo, mesmo que elas se sobreponham. Em vez de apenas marcar onde algo está com uma caixa, ela identifica a forma exata de cada objeto no nível do pixel, tornando mais fácil a compreensão de imagens complexas.

O resultado é uma máscara detalhada que preenche a forma de um objeto, identificando exatamente quais pixels pertencem a ele. Esse nível de precisão é útil em muitas aplicações do mundo real, onde a compreensão da forma exata e dos limites dos objetos é importante.

‍

Segmentação de instâncias vs segmentação semântica

Ao explorar a segmentação de instâncias, você pode encontrar o conceito de segmentação semântica.

Ambas as técnicas ajudam os computadores a entender imagens no nível do pixel, mas servem a propósitos diferentes. A segmentação semântica rotula cada pixel com base em sua categoria, agrupando todos os objetos do mesmo tipo. Por exemplo, em uma imagem com vários carros, a segmentação semântica marcaria todos eles como "carro", sem distinguir entre veículos individuais.

A segmentação de instâncias, por outro lado, leva isso um passo adiante, identificando cada objeto separadamente. Ela atribui rótulos exclusivos a instâncias individuais e cria máscaras precisas ao redor de suas formas. Portanto, na mesma imagem, a segmentação de instâncias não apenas rotularia tudo como "carro", mas reconheceria e delinearia cada carro individualmente.

A principal diferença entre os dois é que a segmentação semântica agrupa objetos por categoria, enquanto a segmentação de instâncias distingue cada objeto como uma entidade única com limites claros. A escolha de qual tarefa usar depende da aplicação específica - se é suficiente saber o que está numa imagem ou se é importante diferenciar entre objetos individuais.

‍

Modelos populares de segmentação de instâncias

Existem vários modelos de segmentação de instâncias disponíveis para a comunidade de IA de Visão atualmente. Alguns são mais rápidos, outros são mais precisos e outros são mais fáceis de usar.

Estas opções, embora úteis, podem levar à questão de saber qual é a opção correta a utilizar para uma tarefa específica. Entre as opções, os modelos Ultralytics YOLO são bastante populares porque se centram na velocidade e na precisão.

Além disso, estes modelos evoluíram significativamente ao longo dos anos. Por exemplo, Ultralytics YOLOv5 simplificou a implantação usando estruturas como o PyTorch, tornando a IA de visão avançada acessível a um público mais amplo, sem a necessidade de conhecimento técnico profundo.

Aproveitando esse sucesso, Ultralytics YOLOv8 introduziu um suporte melhorado para tarefas de visão computacional, como a segmentação de instâncias, a estimativa de pose e a classificação de imagens.

Agora, YOLO11 leva o desempenho a um novo nível. Atinge uma precisão média superiormAP) no conjunto de dados COCO com menos 22% de parâmetros do que YOLOv8m, o que significa que pode reconhecer objectos com maior precisão utilizando menos recursos.

‍

Resumindo, YOLO11 oferece uma precisão de última geração sem comprometer a eficiência, o que o torna um divisor de águas no terreno.

Entendendo como funciona a segmentação de instâncias

Em seguida, vamos explorar como a segmentação de instâncias normalmente funciona. Modelos de visão computacional mais antigos usam uma abordagem de duas etapas.

Primeiro, detect os objectos desenhando caixas delimitadoras à sua volta. Depois, geram uma máscara ao nível do pixel para delinear a forma exacta de cada objeto. Um exemplo bem conhecido é o Mask R-CNN, que se baseia em modelos de deteção de objectos, adicionando um passo de previsão de máscara. Embora este método seja eficaz, pode ser lento porque processa a imagem em várias fases, o que torna as aplicações em tempo real mais difíceis.

Entretanto, modelos como o YOLO11 processam imagens de uma só vez, prevendo simultaneamente caixas delimitadoras de objectos e máscaras de segmentação de instâncias. Esta abordagem simplificada torna-a muito mais rápida, mantendo ao mesmo tempo uma elevada precisão. Consequentemente, é particularmente útil para aplicações em tempo real, como a condução autónoma, a análise de vídeo e a robótica, em que tanto a velocidade como a precisão são cruciais.

Formação personalizada YOLO11 para segmentação de exemplos

YOLO11 é fornecido como um modelo pré-treinado. Foi treinado no conjunto de dadosCOCO, que abrange objectos do quotidiano para segmentação de exemplos. No entanto, o pacote Ultralytics Python suporta formação personalizada, o que é essencial para aplicações especializadas em que é necessário segmentar objectos únicos.

Por que o treino personalizado ou o ajuste fino de um modelo é importante? O treino personalizado aproveita a aprendizagem por transferência, baseando-se no conhecimento já incorporado em modelos pré-treinados. Em vez de começar do zero, adapta um modelo existente a novas tarefas usando conjuntos de dados menores e menos recursos computacionais, mantendo ao mesmo tempo uma alta precisão.

Como personalizar o treino YOLO11

Eis uma análise mais detalhada dos passos envolvidos no ajuste fino YOLO11 para a segmentação de exemplos:

Preparação de dados: Recolha e anote imagens com base na sua aplicação específica. Ultralytics oferece suporte para vários conjuntos de dados de imagens, mas também pode treinar utilizando o seu próprio conjunto de dados, preparando imagens e anotações no formato YOLO necessário.
‍
Utilizar um modelo pré-treinado: Em vez de começar do zero, utilize um modelo pré-treinado Ultralytics YOLO11 .
‍
Treinamento do modelo: Ajuste as configurações de treinamento vitais, como tamanho do lote (imagens processadas por iteração), tamanho da imagem (resolução de entrada alvo) e épocas (ciclos de treinamento totais) e treine o modelo.
‍
Avaliação do desempenho: Após a conclusão do treino do modelo, pode testar a precisão do modelo utilizando métricas de desempenho como o mAP. O pacotePython Ultralytics também fornece funções integradas para a avaliação do modelo.

Aplicações de segmentação de instâncias permitidas pelo YOLO11

A segmentação de instâncias pode ser usada para resolver desafios do mundo real, ajudando as máquinas a ver e entender objetos com mais precisão. Desde a melhoria da automação até a proteção do meio ambiente, ela desempenha um papel fundamental em muitos campos. Vamos percorrer alguns exemplos de onde ela está causando impacto.

Segurança e monitorização de estaleiros de construção com YOLO11

A segmentação de instâncias pode ser uma parte crítica para garantir a segurança e a eficiência em canteiros de obras. Por exemplo, pode ser usada para monitorar máquinas pesadas.

YOLO11 pode ser ajustado para segment e identificar com precisão diferentes tipos de equipamento, como gruas, escavadoras e bulldozers, e track as suas posições em tempo real. Isto permite que os gestores de obra se certifiquem de que a maquinaria funciona estritamente dentro das áreas designadas e não invade zonas onde estão presentes trabalhadores ou onde existem perigos.

Além disso, a integração de tais soluções com sistemas de alerta em tempo real permite que ações corretivas rápidas sejam tomadas. Além disso, os insights coletados podem ajudar a otimizar o layout do site e o fluxo de trabalho, reduzindo ainda mais os riscos e aumentando a produtividade.

‍

Monitorização de animais com segmentação e YOLO11

O monitoramento do comportamento animal ajuda pesquisadores, agricultores e conservacionistas a cuidar melhor dos animais em diferentes ambientes. A segmentação de instâncias desempenha um papel útil nesses sistemas, identificando e segmentando animais individuais em fazendas, zoológicos e habitats naturais. Ao contrário da detecção de objetos tradicional que usa caixas delimitadoras, a segmentação de instâncias fornece uma delimitação em nível de pixel de cada animal, o que é particularmente útil quando os animais estão muito próximos.

A segmentação detalhada facilita um rastreamento mais preciso de movimentos e comportamentos. Animais sobrepostos ou agrupados de perto podem ser reconhecidos distintamente, e fornecem uma análise mais precisa de interações, avaliações de saúde e padrões de atividade. No geral, insights mais profundos sobre o comportamento animal aprimoram as práticas de cuidado e manejo animal.

‍

YOLO11 em análise desportiva e acompanhamento de jogadores

O acompanhamento preciso de jogadores e eventos é uma parte importante da análise desportiva. Os métodos tradicionais de seguimento dependem da marcação manual, que pode não captar interações detalhadas. A visão por computador pode ser utilizada para segment detalhes como cada jogador, bola e evento chave ao nível do pixel para obter informações detalhadas.

Por exemplo, a segmentação de instâncias pode ajudar a detect eventos como faltas ou incidentes fora da bola, separando claramente cada jogador e objeto. Esta monitorização granular possibilitada por modelos como o YOLO11 oferece aos analistas informações mais claras para estudar padrões de movimento, posicionamento espacial e interações com elevada precisão. Uma das principais vantagens destas informações é que ajudam as equipas a aperfeiçoar as suas estratégias e a melhorar o desempenho geral.

Prós e contras da segmentação de instâncias

Aqui estão alguns dos principais benefícios que a segmentação de instâncias pode trazer para vários setores:

Automação aprimorada: Ao automatizar tarefas como controle de qualidade e monitoramento de segurança, a segmentação de instâncias reduz a necessidade de intervenção manual e minimiza o erro humano.
‍
Melhor compreensão da cena: Ao delinear com precisão cada objeto, a segmentação de instância contribui para uma compreensão mais profunda de cenas complexas, apoiando uma tomada de decisão mais informada.
‍
Pós-processamento eficiente: A saída no nível do pixel simplifica tarefas como remoção de fundo, contagem de objetos e análise espacial, reduzindo a necessidade de etapas de processamento adicionais.

Embora esses benefícios destaquem como a segmentação de instâncias impacta diferentes casos de uso, também é essencial considerar os desafios envolvidos em sua implementação.

Aqui estão algumas das principais limitações da segmentação de instâncias:

Desafios com a transparência: Segmentar objetos transparentes ou reflexivos, como vidro e água, é difícil, levando a limites imprecisos.
‍
Sobrecarga de manutenção: Para manter os modelos precisos e relevantes, atualizações contínuas e ajuste fino são necessários à medida que as condições ambientais e os conjuntos de dados mudam.
‍
Alto esforço de anotação: O treinamento de modelos de segmentação de instâncias requer anotações detalhadas no nível do pixel, o que aumenta significativamente o tempo e o custo envolvidos na preparação dos dados.

Principais conclusões

A segmentação de instâncias torna possível distinguir objetos individuais com precisão, mesmo quando eles se sobrepõem. Ao capturar os limites dos objetos no nível do pixel, ela fornece uma compreensão mais profunda dos dados visuais em comparação com as tarefas tradicionais de visão computacional, como a detecção de objetos.

Os recentes avanços na visão por computador tornaram a segmentação de instâncias mais rápida e fácil de utilizar. Em particular, os modelos de visão por computador como o Ultralytics YOLO11 simplificam o processo, permitindo a segmentação em tempo real com uma configuração mínima, tornando-o mais acessível a várias indústrias e aplicações.

Tem curiosidade sobre IA? Visite o nosso repositório GitHub e conecte-se com a nossa comunidade para continuar a explorar. Saiba mais sobre inovações como IA em carros autónomos e Visão de IA na agricultura nas nossas páginas de soluções. Consulte as nossas opções de licenciamento e comece já o seu projeto de visão computacional!

O que é segmentação de instâncias? Um guia rápido

O que é segmentação de instâncias?

Segmentação de instâncias vs segmentação semântica

Modelos populares de segmentação de instâncias

Entendendo como funciona a segmentação de instâncias

Formação personalizada YOLO11 para segmentação de exemplos

Como personalizar o treino YOLO11

Aplicações de segmentação de instâncias permitidas pelo YOLO11

Segurança e monitorização de estaleiros de construção com YOLO11

Monitorização de animais com segmentação e YOLO11

YOLO11 em análise desportiva e acompanhamento de jogadores

Prós e contras da segmentação de instâncias

Principais conclusões

Leia mais nesta categoria

O que é a correspondência de imagens na IA de visão? Uma breve introdução

Uma introdução ao domínio emergente da IA neuro-simbólica

Dos bits aos qubits: Como a otimização quântica está a remodelar a IA

Vamos construir o futuro
da IA juntos!

O que é segmentação de instâncias? Um guia rápido

O que é segmentação de instâncias?

Segmentação de instâncias vs segmentação semântica

Modelos populares de segmentação de instâncias

Entendendo como funciona a segmentação de instâncias

Formação personalizada YOLO11 para segmentação de exemplos

Como personalizar o treino YOLO11

Aplicações de segmentação de instâncias permitidas pelo YOLO11

Segurança e monitorização de estaleiros de construção com YOLO11

Monitorização de animais com segmentação e YOLO11

YOLO11 em análise desportiva e acompanhamento de jogadores

Prós e contras da segmentação de instâncias

Principais conclusões

Leia mais nesta categoria

O que é a correspondência de imagens na IA de visão? Uma breve introdução

Uma introdução ao domínio emergente da IA neuro-simbólica

Dos bits aos qubits: Como a otimização quântica está a remodelar a IA

Vamos construir o futuro da IA juntos!

Vamos construir o futuro
da IA juntos!