Yolo Vision Shenzhen
Shenzhen
Junte-se agora

O que é Mask R-CNN e como funciona?

Abirami Vina

4 min de leitura

21 de março de 2025

Descubra como o Mask R-CNN pode ser usado para segmentar objetos com precisão em imagens e vídeos para diversas aplicações em diferentes setores.

Inovações como robôs em armazéns, carros autônomos movendo-se com segurança por ruas movimentadas, drones verificando plantações e sistemas de IA inspecionando produtos em fábricas estão a tornar-se mais comuns à medida que a adoção da IA aumenta. Uma tecnologia chave que impulsiona estas inovações é a visão computacional, um ramo da IA que permite que as máquinas compreendam e interpretem dados visuais.

Por exemplo, a detecção de objetos é uma tarefa de visão computacional que ajuda a identificar e localizar objetos em imagens usando bounding boxes. Embora as bounding boxes ofereçam informações úteis, elas fornecem apenas uma estimativa aproximada da posição de um objeto e não conseguem capturar sua forma ou limites exatos. Isso os torna menos eficazes em aplicações que exigem identificação precisa.

Para resolver este problema, os investigadores desenvolveram modelos de segmentação que capturam os contornos exatos dos objetos, fornecendo detalhes ao nível do pixel para uma detecção e análise mais precisas.

Mask R-CNN é um desses modelos. Introduzido em 2017 pela Facebook AI Research (FAIR), ele se baseia em modelos anteriores como R-CNN, Fast R-CNN e Faster R-CNN. Como um marco importante na história da visão computacional, o Mask R-CNN abriu caminho para modelos mais avançados, como o Ultralytics YOLO11.

Neste artigo, vamos explorar o que é o Mask R-CNN, como ele funciona, suas aplicações e quais melhorias vieram depois dele, levando ao YOLO11.

Uma visão geral do Mask R-CNN

Mask R-CNN, que significa Mask Region-based Convolutional Neural Network (Rede Neural Convolucional Baseada em Região de Máscara), é um modelo de aprendizado profundo projetado para tarefas de visão computacional como detecção de objetos e segmentação de instâncias. 

A segmentação de instâncias vai além da detecção de objetos tradicional, não só identificando objetos em uma imagem, mas também delineando com precisão cada um deles. Ela atribui um rótulo exclusivo a cada objeto detectado e captura sua forma exata no nível do pixel. Essa abordagem detalhada possibilita distinguir claramente entre objetos sobrepostos e lidar com precisão com formas complexas.

O Mask R-CNN é construído sobre o Faster R-CNN, que detecta e rotula objetos, mas não define suas formas exatas. O Mask R-CNN aprimora isso identificando os pixels exatos que compõem cada objeto, permitindo uma análise de imagem muito mais detalhada e precisa.

Fig 1. Comparando detecção de objetos e segmentação de instâncias.

Um olhar sobre a arquitetura do Mask R-CNN e como ele funciona

O Mask R-CNN adota uma abordagem passo a passo para detectar e segmentar objetos com precisão. Ele começa extraindo os principais recursos usando uma rede neural profunda (um modelo multicamadas que aprende com os dados), depois identifica áreas potenciais de objetos com uma rede de proposta de região (um componente que sugere regiões de objetos prováveis) e, finalmente, refina essas áreas criando máscaras de segmentação detalhadas (contornos precisos de objetos) que capturam a forma exata de cada objeto.

Em seguida, vamos percorrer cada etapa para ter uma ideia melhor de como o Mask R-CNN funciona.

Fig. 2. Uma visão geral da arquitetura da Mask R-CNN (Fonte: researchgate.net).

Começando com a extração de características

O primeiro passo na arquitetura do Mask R-CNN é decompor a imagem em suas partes principais para que o modelo possa entender o que há nela. Pense nisso como quando você olha para uma foto e naturalmente percebe detalhes como formas, cores e bordas. O modelo faz algo semelhante usando uma rede neural profunda chamada "backbone" (geralmente ResNet-50 ou ResNet-101), que age como seus olhos para escanear a imagem e captar detalhes importantes.

Como os objetos nas imagens podem ser muito pequenos ou muito grandes, o Mask R-CNN utiliza uma Feature Pyramid Network (Rede de Pirâmide de Características). Isto é como ter diferentes lupas que permitem ao modelo ver tanto os detalhes finos como a imagem maior, garantindo que os objetos de todos os tamanhos são notados.

Uma vez que essas características importantes são extraídas, o modelo passa a localizar os objetos potenciais na imagem, preparando o terreno para análises posteriores.

Sugerindo áreas potenciais na imagem com objetos

Após a imagem ser processada para obter os principais recursos, a Rede de Proposta de Regiões assume o controle. Esta parte do modelo analisa a imagem e sugere áreas que provavelmente contêm objetos.

Ele faz isso gerando múltiplas localizações de objetos possíveis chamadas de âncoras. A rede então avalia essas âncoras e seleciona as mais promissoras para análise posterior. Desta forma, o modelo foca apenas nas áreas com maior probabilidade de serem interessantes, em vez de verificar cada ponto da imagem.

Fig 3. Um exemplo de uma Rede de Proposta de Regiões.

Aprimorando os recursos extraídos 

Com as áreas-chave identificadas, a próxima etapa é refinar os detalhes extraídos dessas regiões. Os modelos anteriores usavam um método chamado ROI Pooling (Region of Interest Pooling) para capturar recursos de cada área, mas essa técnica às vezes levava a pequenos desalinhamentos ao redimensionar as regiões, tornando-a menos eficaz - especialmente para objetos menores ou sobrepostos.

O Mask R-CNN melhora isso usando uma técnica conhecida como ROI Align (Alinhamento de Região de Interesse). Em vez de arredondar as coordenadas como o ROI Pooling faz, o ROI Align usa a interpolação bilinear para estimar os valores dos pixels com mais precisão. A interpolação bilinear é um método que calcula um novo valor de pixel, fazendo a média dos valores de seus quatro vizinhos mais próximos, o que cria transições mais suaves. Isso mantém os recursos devidamente alinhados com a imagem original, resultando em detecção e segmentação de objetos mais precisas.

Por exemplo, em uma partida de futebol, dois jogadores próximos um do outro podem ser confundidos, pois suas bounding boxes se sobrepõem. O ROI Align ajuda a separá-los, mantendo suas formas distintas. 

Fig 4. Mask R-CNN usa ROI Align.

Classificando objetos e prevendo suas máscaras

Depois que o ROI Align processa a imagem, o próximo passo é classificar os objetos e ajustar suas localizações. O modelo analisa cada região extraída e decide qual objeto ela contém. Ele atribui uma pontuação de probabilidade a diferentes categorias e escolhe a melhor correspondência.

Ao mesmo tempo, ele ajusta as caixas delimitadoras para melhor ajustar os objetos. As caixas iniciais podem não estar idealmente posicionadas, então isso ajuda a melhorar a precisão, garantindo que cada caixa envolva firmemente o objeto detectado.

Finalmente, o Mask R-CNN dá um passo extra: ele gera uma máscara de segmentação detalhada para cada objeto em paralelo.

Mask R-CNN e suas aplicações em tempo real

Quando este modelo foi lançado, foi recebido com muito entusiasmo pela comunidade de IA e foi rapidamente usado em várias aplicações. A sua capacidade de detectar e segmentar objetos em tempo real tornou-o um divisor de águas em diferentes indústrias.

Por exemplo, rastrear animais ameaçados de extinção na natureza é uma tarefa desafiadora. Muitas espécies se movem por florestas densas, dificultando o rastreamento por parte dos conservacionistas. Os métodos tradicionais usam armadilhas fotográficas, drones e imagens de satélite, mas classificar todos esses dados manualmente é demorado. Identificações incorretas e avistamentos perdidos podem retardar os esforços de conservação.

Ao reconhecer características únicas, como listras de tigre, manchas de girafa ou o formato das orelhas de um elefante, o Mask R-CNN pode detectar e segmentar animais em imagens e vídeos com maior precisão. Mesmo quando os animais estão parcialmente escondidos por árvores ou em pé próximos uns dos outros, o modelo pode separá-los e identificar cada um individualmente, tornando o monitoramento da vida selvagem mais rápido e confiável.

Fig 5. Detecção e segmentação de animais usando Mask R-CNN.

Limitações do Mask R-CNN

Apesar de sua importância histórica na detecção e segmentação de objetos, o Mask R-CNN também apresenta algumas desvantagens importantes. Aqui estão alguns desafios relacionados ao Mask R-CNN:

  • Alta demanda computacional: Depende de GPUs poderosas, o que pode torná-lo caro para executar e lento ao processar grandes quantidades de dados.

  • Velocidade de processamento mais lenta: Seu processo de vários estágios o torna mais lento em comparação com modelos de tempo real mais rápidos, como o YOLO, o que pode não ser ideal para tarefas sensíveis ao tempo.

  • Dependência de dados de alta qualidade: O modelo tem melhor desempenho com imagens nítidas e bem rotuladas. Imagens borradas ou mal iluminadas podem reduzir significativamente sua precisão.
  • Implementação complexa: A arquitetura multiestágio pode ser desafiadora de configurar e otimizar, especialmente ao lidar com grandes conjuntos de dados ou recursos limitados.

Do Mask R-CNN ao Ultralytics YOLO11

O Mask R-CNN foi ótimo para tarefas de segmentação, mas muitas indústrias estavam procurando adotar a visão computacional, priorizando a velocidade e o desempenho em tempo real. Esse requisito levou os pesquisadores a desenvolver modelos de estágio único que detectam objetos em uma única passagem, melhorando muito a eficiência.

Ao contrário do processo de várias etapas do Mask R-CNN, os modelos de visão computacional de um estágio, como o YOLO (You Only Look Once), se concentram em tarefas de visão computacional em tempo real. Em vez de lidar com detecção e segmentação separadamente, os modelos YOLO podem analisar uma imagem de uma só vez. Isso o torna ideal para aplicações como direção autônoma, saúde, manufatura e robótica, onde a tomada de decisões rápida é crucial.

Em particular, o YOLO11 leva isso um passo adiante, sendo rápido e preciso. Ele usa 22% menos parâmetros do que o YOLOv8m, mas ainda atinge uma precisão média (mAP) mais alta no conjunto de dados COCO, o que significa que ele detecta objetos com mais precisão. Sua velocidade de processamento aprimorada o torna uma boa escolha para aplicações em tempo real, onde cada milissegundo importa.

Fig 6. Desempenho do YOLO11 em comparação com outros modelos.

Principais conclusões

Olhando para trás na história da visão computacional, o Mask R-CNN é reconhecido como um grande avanço na detecção e segmentação de objetos. Ele oferece resultados muito precisos, mesmo em ambientes complexos, graças ao seu processo detalhado de várias etapas. 

No entanto, esse mesmo processo o torna mais lento em comparação com modelos em tempo real como o YOLO. À medida que a necessidade de velocidade e eficiência aumenta, muitas aplicações agora usam modelos de um estágio, como o Ultralytics YOLO11, que oferecem detecção de objetos rápida e precisa. Embora o Mask R-CNN seja importante no que diz respeito à compreensão da evolução da visão computacional, a tendência em direção a soluções em tempo real destaca a crescente demanda por soluções de visão computacional mais rápidas e eficientes.

Junte-se à nossa crescente comunidade! Explore nosso repositório GitHub para saber mais sobre IA. Pronto para iniciar seus próprios projetos de visão computacional? Confira nossas opções de licenciamento. Descubra a IA na agricultura e a Vision AI na área da saúde visitando nossas páginas de soluções! 

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência