Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
IA de visão

O que é Mask R-CNN e como ele funciona?

Aprenda como o Mask R-CNN pode ser usado para segmentar objetos com precisão em imagens e vídeos para várias aplicações em diferentes setores.

ABAbirami Vina
4 min read
Segmentação de instâncias com Mask R-CNN

Inovações como robôs em armazéns, carros autônomos circulando com segurança por ruas movimentadas, drones monitorando plantações e sistemas de IA inspecionando produtos em fábricas estão se tornando mais comuns à medida que a adoção da IA aumenta. Uma tecnologia fundamental que impulsiona essas inovações é a visão computacional, um ramo da IA que permite que as máquinas compreendam e interpretem dados visuais.

Por exemplo, a detecção de objetos é uma tarefa de visão computacional que ajuda a identificar e localizar objetos em imagens usando caixas delimitadoras (bounding boxes). Embora as caixas delimitadoras ofereçam informações úteis, elas fornecem apenas uma estimativa aproximada da posição de um objeto e não conseguem capturar sua forma ou contornos exatos. Isso as torna menos eficazes em aplicações que exigem identificação precisa.

Para resolver esse problema, pesquisadores desenvolveram modelos de segmentação que capturam os contornos exatos dos objetos, fornecendo detalhes em nível de pixel para uma detecção e análise mais precisas.

O Mask R-CNN é um desses modelos. Introduzido em 2017 pelo Facebook AI Research (FAIR), ele se baseia em modelos anteriores como R-CNN, Fast R-CNN e Faster R-CNN. Como um marco importante na história da visão computacional, o Mask R-CNN abriu caminho para modelos mais avançados, como o Ultralytics YOLO11.

Neste artigo, vamos explorar o que é o Mask R-CNN, como ele funciona, suas aplicações e quais melhorias surgiram após ele, levando ao YOLO11.

Link to this sectionUma visão geral do Mask R-CNN#

O Mask R-CNN, que significa Mask Region-based Convolutional Neural Network (Rede Neural Convolucional baseada em Região com Máscara), é um modelo de aprendizado profundo projetado para tarefas de visão computacional como detecção de objetos e segmentação de instâncias.

A segmentação de instâncias vai além da detecção de objetos tradicional, não apenas identificando objetos em uma imagem, mas também delineando cada um deles com precisão. Ele atribui um rótulo único a cada objeto detectado e captura sua forma exata em nível de pixel. Essa abordagem detalhada torna possível distinguir claramente entre objetos sobrepostos e lidar com precisão com formas complexas.

O Mask R-CNN se baseia no Faster R-CNN, que detecta e rotula objetos, mas não define suas formas exatas. O Mask R-CNN aprimora isso ao identificar os pixels exatos que compõem cada objeto, permitindo uma análise de imagem muito mais detalhada e precisa.

Comparação entre deteção de objetos e segmentação de instâncias

Fig 1. Comparando a detecção de objetos e a segmentação de instâncias.

Link to this sectionUm olhar sobre a arquitetura do Mask R-CNN e como ele funciona#

O Mask R-CNN adota uma abordagem passo a passo para detectar e segmentar objetos com precisão. Ele começa extraindo características-chave usando uma rede neural profunda (um modelo multicamadas que aprende com dados), em seguida, identifica áreas potenciais de objetos com uma rede de proposta de região (um componente que sugere regiões prováveis de objetos) e, finalmente, refina essas áreas criando máscaras de segmentação detalhadas (contornos precisos de objetos) que capturam a forma exata de cada objeto.

A seguir, percorreremos cada etapa para ter uma ideia melhor de como o Mask R-CNN funciona.

Visão geral da arquitetura do Mask R-CNN

Fig 2. Uma visão geral da arquitetura do Mask R-CNN (Fonte: researchgate.net).

Link to this sectionComeçando pela extração de características#

O primeiro passo na arquitetura do Mask R-CNN é decompor a imagem em suas partes principais para que o modelo possa entender o que há nela. Pense nisso como quando você olha para uma foto e percebe naturalmente detalhes como formas, cores e bordas. O modelo faz algo semelhante usando uma rede neural profunda chamada "backbone" (frequentemente ResNet-50 ou ResNet-101), que atua como seus olhos para escanear a imagem e identificar detalhes importantes.

Como objetos em imagens podem ser muito pequenos ou muito grandes, o Mask R-CNN usa uma Feature Pyramid Network (Rede de Pirâmide de Características). Isso é como ter diferentes lupas que permitem ao modelo ver tanto detalhes finos quanto o panorama geral, garantindo que objetos de todos os tamanhos sejam notados.

Uma vez que essas características importantes são extraídas, o modelo passa a localizar os objetos potenciais na imagem, preparando o terreno para uma análise mais aprofundada.

Link to this sectionSugerindo áreas potenciais na imagem com objetos#

Após a imagem ter sido processada em busca de características principais, a Region Proposal Network (Rede de Proposta de Região) assume o controle. Essa parte do modelo analisa a imagem e sugere áreas que provavelmente contêm objetos.

Ele faz isso gerando várias localizações possíveis de objetos chamadas de âncoras. A rede então avalia essas âncoras e seleciona as mais promissoras para uma análise mais detalhada. Dessa forma, o modelo foca apenas nas áreas com maior probabilidade de serem interessantes, em vez de verificar cada ponto da imagem.

Diagrama de uma rede de proposta de região (Region Proposal Network)

Fig 3. Um exemplo de uma Region Proposal Network.

Link to this sectionAprimorando as características extraídas#

Com as áreas principais identificadas, o próximo passo é refinar os detalhes extraídos dessas regiões. Modelos anteriores usavam um método chamado ROI Pooling (Region of Interest Pooling) para capturar características de cada área, mas essa técnica às vezes levava a leves desalinhamentos ao redimensionar regiões, tornando-a menos eficaz - especialmente para objetos menores ou sobrepostos.

O Mask R-CNN aprimora isso usando uma técnica chamada ROI Align (Region of Interest Align). Em vez de arredondar coordenadas como o ROI Pooling faz, o ROI Align usa interpolação bilinear para estimar valores de pixel com mais precisão. A interpolação bilinear é um método que calcula um novo valor de pixel tirando a média dos valores de seus quatro vizinhos mais próximos, o que cria transições mais suaves. Isso mantém as características alinhadas corretamente com a imagem original, resultando em uma detecção e segmentação de objetos mais precisas.

Por exemplo, em uma partida de futebol, dois jogadores próximos um do outro podem ser confundidos porque suas caixas delimitadoras se sobrepõem. O ROI Align ajuda a separá-los mantendo suas formas distintas.

Diagrama de como o Mask R-CNN utiliza o ROI Align

Fig 4. O Mask R-CNN usa ROI Align.

Link to this sectionClassificando objetos e prevendo suas máscaras#

Uma vez que o ROI Align processa a imagem, o próximo passo é classificar os objetos e ajustar suas localizações. O modelo analisa cada região extraída e decide qual objeto ela contém. Ele atribui uma pontuação de probabilidade a diferentes categorias e escolhe a melhor correspondência.

Ao mesmo tempo, ele ajusta as caixas delimitadoras para melhor se ajustarem aos objetos. As caixas iniciais podem não estar posicionadas idealmente, então isso ajuda a melhorar a precisão garantindo que cada caixa envolva firmemente o objeto detectado.

Finalmente, o Mask R-CNN dá um passo extra: ele gera uma máscara de segmentação detalhada para cada objeto em paralelo.

Link to this sectionO Mask R-CNN e suas aplicações em tempo real#

Quando esse modelo foi lançado, foi recebido com muito entusiasmo pela comunidade de IA e logo começou a ser usado em diversas aplicações. Sua capacidade de detectar e segmentar objetos em tempo real tornou-se um divisor de águas em diferentes setores.

Por exemplo, rastrear animais em extinção na natureza é uma tarefa desafiadora. Muitas espécies se movem por florestas densas, tornando difícil para os conservacionistas acompanhá-las. Métodos tradicionais usam armadilhas fotográficas, drones e imagens de satélite, mas classificar todos esses dados manualmente é demorado. Identificações incorretas e avistamentos perdidos podem atrasar os esforços de conservação.

Ao reconhecer características únicas como listras de tigre, manchas de girafa ou o formato das orelhas de um elefante, o Mask R-CNN pode detectar e segmentar animais em imagens e vídeos com maior precisão. Mesmo quando os animais estão parcialmente escondidos por árvores ou muito próximos uns dos outros, o modelo consegue separá-los e identificar cada um individualmente, tornando o monitoramento da vida selvagem mais rápido e confiável.

Deteção e segmentação de animais usando o Mask R-CNN

Fig 5. Detectando e segmentando animais usando Mask R-CNN.

Link to this sectionLimitações do Mask R-CNN#

Apesar de sua importância histórica na detecção e segmentação de objetos, o Mask R-CNN também apresenta algumas desvantagens importantes. Aqui estão alguns desafios relacionados ao Mask R-CNN:

  • Alta demanda computacional: Ele depende de GPUs potentes, o que pode tornar a execução cara e lenta ao processar grandes quantidades de dados.
  • Velocidade de processamento mais lenta: Seu processo de múltiplos estágios o torna mais lento em comparação com modelos mais rápidos em tempo real, como o YOLO, o que pode não ser ideal para tarefas sensíveis ao tempo.
  • Dependência de dados de alta qualidade: O modelo tem melhor desempenho com imagens claras e bem rotuladas. Imagens borradas ou com pouca iluminação podem reduzir significativamente sua precisão.
  • Implementação complexa: A arquitetura de múltiplos estágios pode ser desafiadora de configurar e otimizar, especialmente ao lidar com grandes conjuntos de dados ou recursos limitados.

Link to this sectionDo Mask R-CNN ao Ultralytics YOLO11#

O Mask R-CNN era ótimo para tarefas de segmentação, mas muitos setores buscavam adotar a visão computacional priorizando velocidade e desempenho em tempo real. Essa necessidade levou os pesquisadores a desenvolver modelos de estágio único que detectam objetos em uma única passagem, melhorando muito a eficiência.

Diferente do processo de múltiplas etapas do Mask R-CNN, modelos de visão computacional de estágio único como o YOLO (You Only Look Once) focam em tarefas de visão computacional em tempo real. Em vez de lidar com a detecção e a segmentação separadamente, os modelos YOLO podem analisar uma imagem de uma só vez. Isso os torna ideais para aplicações como condução autônoma, saúde, manufatura e robótica, onde a tomada de decisão rápida é crucial.

Em particular, o YOLO11 vai um passo além ao ser rápido e preciso ao mesmo tempo. Ele usa 22% menos parâmetros que o YOLOv8m, mas ainda alcança uma precisão média (mAP) maior no conjunto de dados COCO, o que significa que ele detecta objetos com mais precisão. Sua velocidade de processamento aprimorada o torna uma boa escolha para aplicações em tempo real onde cada milissegundo conta.

Desempenho do YOLO11 comparado com outros modelos

Fig 6. Desempenho do YOLO11 em comparação com outros modelos.

Link to this sectionPrincipais pontos#

Olhando para a história da visão computacional, o Mask R-CNN é reconhecido como um grande avanço na detecção e segmentação de objetos. Ele oferece resultados muito precisos, mesmo em cenários complexos, graças ao seu processo detalhado de múltiplos estágios.

No entanto, esse mesmo processo o torna mais lento em comparação com modelos em tempo real como o YOLO. À medida que a necessidade de velocidade e eficiência cresce, muitas aplicações agora usam modelos de estágio único como o Ultralytics YOLO11, que oferecem detecção de objetos rápida e precisa. Embora o Mask R-CNN seja importante para entender a evolução da visão computacional, a tendência rumo a soluções em tempo real destaca a crescente demanda por soluções de visão computacional mais rápidas e eficientes.

Junte-se à nossa comunidade em crescimento! Explore nosso repositório GitHub para aprender mais sobre IA. Pronto para começar seus próprios projetos de visão computacional? Confira nossas opções de licenciamento. Descubra IA na agricultura e IA de visão na saúde visitando nossas páginas de soluções!

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática