Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Guias

O que é ResNet-50 e qual é sua relevância na visão computacional?

Descubra como a arquitetura da ResNet-50 permite a classificação de imagens em aplicações do mundo real nos setores de saúde, manufatura e sistemas autônomos.

ABAbirami Vina
5 min read
Arquitetura ResNet-50 para classificação de imagens

A análise automatizada de imagens está se tornando cada vez mais comum em aplicações como a detecção de veículos em excesso de velocidade ou a análise de imagens médicas. A tecnologia por trás dessas inovações é a visão computacional ou IA de visão. É um ramo da inteligência artificial (IA) que permite que máquinas interpretem e compreendam imagens e vídeos, de forma muito semelhante aos humanos.

Para construir tais soluções de visão computacional, os desenvolvedores confiam em modelos de IA de visão que podem aprender a partir de grandes quantidades de dados visuais. Ao longo dos anos, pesquisadores desenvolveram modelos mais novos e avançados com desempenho impressionante em tarefas de IA de visão, como classificação de imagens (atribuição de rótulos a imagens), detecção de objetos (localização e identificação de objetos dentro de imagens) e segmentação de instâncias (detecção de objetos e delimitação de suas formas exatas).

No entanto, olhar para trás e entender modelos anteriores pode ajudar a compreender como funcionam os sistemas de visão computacional de hoje. Por exemplo, um caso importante é o ResNet-50, um modelo influente que introduziu a ideia de conexões de atalho - caminhos simples que ajudam o modelo a aprender de forma mais rápida e precisa.

Essa inovação tornou possível treinar redes neurais muito mais profundas de forma eficaz, levando a melhorias significativas na classificação de imagens e moldando o design de muitos modelos que se seguiram. Neste artigo, exploraremos o ResNet-50, como ele funciona e sua relevância na evolução da visão computacional. Vamos começar!

Link to this sectionO que é ResNet-50?#

ResNet-50 é um modelo de visão computacional baseado em um tipo de rede neural chamado Rede Neural Convolucional (CNN). As CNNs são projetadas para ajudar computadores a entender informações visuais aprendendo padrões em imagens, como bordas, cores ou formas, e usando esses padrões para reconhecer e classificar objetos.

Introduzido em 2015 por pesquisadores da Microsoft Research, o ResNet-50 tornou-se rapidamente um dos modelos mais impactantes na área devido à sua precisão e eficiência em tarefas de reconhecimento de imagem em grande escala.

Um recurso chave do ResNet-50 é o seu uso de conexões residuais, também conhecidas como conexões de atalho. Estes são caminhos simples que permitem ao modelo pular algumas etapas no processo de aprendizagem. Em outras palavras, em vez de forçar o modelo a passar informações através de cada camada, esses atalhos permitem que ele leve detalhes importantes adiante de forma mais direta. Isso torna o aprendizado mais rápido e confiável.

Diagrama das conexões residuais na arquitetura ResNet

Fig 1. Uma visão das conexões residuais na arquitetura ResNet.

Este design ajuda a resolver um problema comum no aprendizado profundo chamado problema do gradiente desaparecente. Em modelos muito profundos, informações importantes podem se perder à medida que se movem através de muitas camadas, tornando difícil para o modelo aprender.

As conexões residuais ajudam a evitar isso, mantendo a informação fluindo claramente do início ao fim. É por isso que o modelo se chama ResNet-50: ResNet significa Rede Residual, e o “50” refere-se ao número de camadas que ele usa para processar uma imagem.

Link to this sectionUma visão geral de como o ResNet-50 funciona#

O ResNet-50 possui uma estrutura bem organizada que possibilita ao modelo ir fundo sem perder informações importantes. Ele segue um padrão simples e repetível que mantém a eficiência enquanto permite um alto desempenho.

Aqui está uma visão mais detalhada de como a arquitetura ResNet-50 funciona:

  • Extração de características básica: O modelo começa aplicando uma operação matemática chamada convolução. Isso envolve deslizar pequenos filtros (chamados kernels) sobre a imagem para produzir mapas de características - novas versões da imagem que destacam padrões básicos como bordas ou texturas. É assim que o modelo começa a captar informações visuais úteis.
  • Aprendendo características complexas: À medida que os dados se movem pela rede, o tamanho dos mapas de características diminui. Isso é feito por meio de técnicas como pooling ou usando filtros com passos maiores (chamados strides). Ao mesmo tempo, a rede cria mais mapas de características, ajudando-a a capturar padrões cada vez mais complexos, como formas, partes de objetos ou texturas.
  • Comprimindo e expandindo dados: Cada estágio comprime os dados, processa-os e depois os expande novamente. Isso ajuda o modelo a aprender enquanto economiza memória.
  • Conexões de atalho: Estes são caminhos simples que permitem que a informação avance em vez de passar por todas as camadas. Eles tornam o aprendizado mais estável e eficiente.
  • Fazendo uma predição: No final da rede, todas as informações aprendidas são combinadas e passadas através de uma função softmax. Isso produz uma distribuição de probabilidade sobre as classes possíveis, indicando a confiança do modelo em cada predição - por exemplo, 90% gato, 9% cachorro, 1% carro.

Diagrama da arquitetura ResNet-50

Fig 2. A arquitetura ResNet-50.

Link to this sectionPrincipais recursos do ResNet-50#

Embora o ResNet-50 tenha sido originalmente projetado para classificação de imagens, seu design flexível tornou-o útil em muitas áreas da visão computacional. Vamos dar uma olhada em alguns dos recursos que fazem o ResNet-50 se destacar.

Link to this sectionUsando o ResNet-50 para classificação de imagens#

O ResNet-50 é usado principalmente para classificação de imagens, onde o objetivo é atribuir um rótulo a uma imagem. Por exemplo, dada uma foto, o modelo pode rotulá-la como cachorro, gato ou avião com base no objeto principal que vê.

Seu design confiável e disponibilidade em bibliotecas de aprendizado profundo amplamente utilizadas, como PyTorch e TensorFlow, tornaram o ResNet-50 uma escolha inicial popular para treinamento em grandes conjuntos de dados de imagens. Um dos exemplos mais conhecidos é o ImageNet, uma enorme coleção de imagens rotuladas usadas para avaliar e comparar modelos de visão computacional.

Embora modelos mais recentes, como o Ultralytics YOLO11, superem seu desempenho, o ResNet-50 ainda é comumente usado como referência graças ao seu sólido equilíbrio entre precisão, velocidade e simplicidade.

Usando a ResNet-50 para classificar a imagem de um cachorro

Fig 3. Um exemplo de uso do ResNet-50 para classificar um cachorro.

Link to this sectionDetecção de objetos habilitada por backbones ResNet-50#

Enquanto a classificação de imagens trata de identificar o objeto principal em uma imagem, a detecção de objetos dá um passo além ao encontrar e rotular múltiplos objetos na mesma imagem. Por exemplo, em uma imagem de uma rua movimentada, um modelo pode precisar detectar carros, ônibus e pessoas - e descobrir onde cada um está.

O ResNet-50 é usado como backbone em alguns desses modelos. Isso significa que ele cuida da primeira parte do trabalho: analisar a imagem e extrair detalhes importantes que descrevem o que há nela e onde. Esses detalhes são então passados para a próxima parte do modelo, chamada de cabeça de detecção, que toma as decisões finais sobre quais objetos estão na imagem e onde eles estão.

Modelos de detecção populares como Faster R-CNN e DETR usam o ResNet-50 para esta etapa de extração de características. Como ele faz um bom trabalho ao capturar tanto detalhes finos quanto o layout geral de uma imagem, ele ajuda esses modelos a fazer predições precisas - mesmo em cenas complexas.

Link to this sectionTransfer learning com ResNet-50#

Outro aspecto interessante do modelo ResNet-50 é sua capacidade de suportar transfer learning. Isso significa que o modelo, treinado originalmente em um grande conjunto de dados como o ImageNet para classificação de imagens, pode ser adaptado para novas tarefas com muito menos dados.

Em vez de começar do zero, a maioria das camadas do modelo é reutilizada, e apenas a camada final de classificação é substituída e retreinada para a nova tarefa. Isso economiza tempo e é especialmente útil quando os dados rotulados são limitados.

Link to this sectionAplicações de visão computacional do ResNet-50#

A arquitetura do ResNet-50 tornou-o útil para uma ampla gama de aplicações de visão computacional. Foi especialmente importante nos primeiros dias do aprendizado profundo, ajudando a levar a tecnologia de IA de visão da pesquisa para o uso no mundo real. Ao resolver desafios fundamentais, ele ajudou a pavimentar o caminho para os modelos mais avançados que vemos nas aplicações atuais.

Link to this sectionImagens médicas impulsionadas pelo ResNet-50#

O ResNet-50 foi um dos primeiros modelos usados em imagens médicas baseadas em aprendizado profundo. Pesquisadores o aproveitaram para identificar padrões de doenças em raios-X, ressonâncias magnéticas e outros exames de diagnóstico. Por exemplo, ele ajudou a detectar tumores e classificar imagens da retina diabética para auxiliar o diagnóstico em oftalmologia.

Embora modelos mais avançados sejam usados agora em ferramentas clínicas, o ResNet-50 desempenhou um papel fundamental na pesquisa inicial de IA médica. Sua facilidade de uso e design modular o tornaram uma escolha adequada para criar protótipos de sistemas de diagnóstico.

Detecção de tumor cerebral em exames médicos baseada na ResNet-50

Fig 4. Detecção de tumor cerebral baseada em ResNet-50.

Link to this sectionAutomação industrial impulsionada pelo ResNet-50#

Da mesma forma, o ResNet-50 também foi aplicado em ambientes industriais. Por exemplo, na fabricação, ele tem sido usado em pesquisas e sistemas piloto para detectar defeitos superficiais em materiais, como aço, concreto e peças pintadas.

Também foi testado em configurações para identificar buracos de insetos, rachaduras ou depósitos que se formam durante a fundição ou montagem. O ResNet-50 é bem adequado para essas tarefas porque pode identificar diferenças sutis na textura da superfície, uma habilidade importante para inspeção de qualidade.

Embora modelos mais avançados, como o YOLO11, sejam agora comumente usados em sistemas de produção, o ResNet-50 ainda desempenha um papel importante na pesquisa acadêmica e em benchmarks, particularmente para tarefas de classificação de imagens.

Inspeção de defeitos de superfície usando a ResNet-50

Fig 5. Inspeção de superfície usando ResNet-50.

Link to this sectionBenefícios e limitações do ResNet-50#

Aqui está uma olhada em algumas das vantagens do ResNet-50:

  • Forte desempenho base: O ResNet-50 oferece precisão sólida em uma ampla gama de tarefas, tornando-o uma referência confiável tanto em pesquisas quanto em projetos aplicados.
  • Bem documentado e amplamente estudado: Sua arquitetura é bem compreendida e minuciosamente documentada, o que torna a solução de problemas e o aprendizado mais fáceis para desenvolvedores e pesquisadores.
  • Versátil entre domínios: De imagens médicas a manufatura, o ResNet-50 foi aplicado com sucesso a uma variedade de problemas do mundo real, provando sua flexibilidade.

Enquanto isso, aqui está um vislumbre das limitações do ResNet-50:

  • Alto uso de recursos: O ResNet-50 requer mais memória e poder de computação do que modelos leves, o que pode torná-lo menos adequado para dispositivos móveis ou aplicações em tempo real.
  • Sobreajuste (overfitting) em pequenos conjuntos de dados: Devido à sua profundidade e complexidade, o ResNet-50 pode apresentar sobreajuste quando treinado com dados limitados sem as técnicas de regularização adequadas.
  • Tamanho de entrada fixo: O ResNet-50 geralmente espera que as imagens tenham um tamanho específico, como 224x224 pixels, portanto, as imagens muitas vezes precisam ser redimensionadas ou cortadas, o que às vezes pode remover detalhes importantes.

Link to this sectionPrincipais pontos#

O ResNet-50 provou que redes muito profundas poderiam ser treinadas de forma eficaz enquanto ainda entregavam um forte desempenho em tarefas visuais. Sua arquitetura ofereceu um framework claro e prático para construir modelos mais profundos que funcionavam de forma confiável.

Após seu lançamento, os pesquisadores expandiram o design, criando versões mais profundas como o ResNet-101 e o ResNet-152. No geral, o ResNet-50 é um modelo fundamental que ajudou a moldar a forma como o aprendizado profundo é usado na visão computacional hoje.

Junte-se à nossa comunidade em crescimento! Explore nosso repositório GitHub para aprender mais sobre IA. Pronto para começar seus próprios projetos de visão computacional? Confira nossas opções de licenciamento. Descubra IA na agricultura e IA de visão na saúde visitando nossas páginas de soluções!

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática