Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

O que é ResNet-50 e qual é a sua relevância em visão computacional?

Abirami Vina

Leitura de 5 minutos

27 de maio de 2025

Descubra como a arquitetura do ResNet-50 permite a classificação de imagens em aplicações do mundo real em saúde, manufatura e sistemas autônomos.

A análise automatizada de imagens está se tornando cada vez mais comum em aplicações como detecção de carros em alta velocidade ou análise de imagens médicas. A tecnologia que impulsiona essas inovações é a visão computacional ou Visão AI. É um ramo da inteligência artificial (IA) que permite que as máquinas interpretem e compreendam imagens e vídeos, assim como os humanos. 

Para construir tais soluções de visão computacional, os desenvolvedores confiam em modelos de Visão de IA que podem aprender com grandes quantidades de dados visuais. Ao longo dos anos, os pesquisadores desenvolveram modelos mais novos e avançados com desempenho impressionante em tarefas de Visão de IA, como classificação de imagens (atribuir rótulos a imagens), detecção de objetos (localizar e identificar objetos dentro de imagens) e segmentação de instâncias (detectar objetos e delinear suas formas exatas).

No entanto, olhar para trás e entender os modelos anteriores pode ajudar a entender como os sistemas de visão computacional de hoje funcionam. Por exemplo, um exemplo fundamental é o ResNet-50, um modelo influente que introduziu a ideia de conexões de atalho - caminhos simples que ajudam o modelo a aprender mais rápido e com mais precisão.

Essa inovação tornou possível treinar redes neurais muito mais profundas de forma eficaz, levando a melhorias significativas na classificação de imagens e moldando o design de muitos modelos que se seguiram. Neste artigo, exploraremos o ResNet-50, como ele funciona e sua relevância na evolução da visão computacional. Vamos começar!

O que é ResNet-50? 

ResNet-50 é um modelo de visão computacional baseado em um tipo de rede neural chamada Rede Neural Convolucional (CNN). As CNNs são projetadas para ajudar os computadores a entender informações visuais, aprendendo padrões em imagens, como bordas, cores ou formas, e usando esses padrões para reconhecer e classificar objetos. 

Introduzido em 2015 por investigadores da Microsoft Research, o ResNet-50 tornou-se rapidamente um dos modelos mais impactantes no campo devido à sua precisão e eficiência em tarefas de reconhecimento de imagem em larga escala.

Uma característica fundamental da ResNet-50 é o uso de conexões residuais, também conhecidas como conexões de atalho. Estas são vias simples que permitem que o modelo ignore algumas etapas no processo de aprendizagem. Por outras palavras, em vez de forçar o modelo a passar informações por todas as camadas, estes atalhos permitem que ele transmita detalhes importantes de forma mais direta. Isto torna a aprendizagem mais rápida e fiável.

__wf_reserved_inherit
Fig 1. Uma olhada nas conexões residuais na arquitetura ResNet.

Este design ajuda a resolver um problema comum no aprendizado profundo, chamado problema do desaparecimento do gradiente. Em modelos muito profundos, informações importantes podem se perder à medida que se movem por muitas camadas, dificultando o aprendizado do modelo. 

As conexões residuais ajudam a evitar isso, mantendo o fluxo de informações claro do início ao fim. É por isso que o modelo é chamado de ResNet-50: ResNet significa Rede Residual, e o "50" se refere ao número de camadas que ele usa para processar uma imagem. 

Uma visão geral de como o ResNet-50 funciona

O ResNet-50 tem uma estrutura bem organizada que possibilita que o modelo se aprofunde sem perder informações importantes. Ele segue um padrão simples e repetível que mantém as coisas eficientes, ao mesmo tempo em que permite um forte desempenho. 

Aqui está uma análise mais detalhada de como a arquitetura ResNet-50 funciona:

  • Extração básica de características: O modelo começa aplicando uma operação matemática chamada convolução. Isso envolve deslizar pequenos filtros (chamados kernels) sobre a imagem para produzir mapas de características - novas versões da imagem que destacam padrões básicos como bordas ou texturas. É assim que o modelo começa a captar informações visuais úteis.
  • Aprendendo características complexas: À medida que os dados se movem pela rede, o tamanho dos mapas de características diminui. Isso é feito por meio de técnicas como pooling ou usando filtros com passos maiores (chamados strides). Ao mesmo tempo, a rede cria mais mapas de características, ajudando-a a capturar padrões cada vez mais complexos, como formas, partes de objetos ou texturas.
  • Comprimindo e expandindo dados: Cada etapa comprime os dados, processa-os e depois expande-os novamente. Isso ajuda o modelo a aprender enquanto economiza memória.
  • Conexões de atalho: São caminhos simples que permitem que as informações avancem em vez de passar por todas as camadas. Eles tornam o aprendizado mais estável e eficiente.
  • Fazer uma previsão: No final da rede, todas as informações aprendidas são combinadas e passadas por uma função softmax. Isso produz uma distribuição de probabilidade sobre as classes possíveis, indicando a confiança do modelo em cada previsão — por exemplo, 90% gato, 9% cachorro, 1% carro.
__wf_reserved_inherit
Fig. 2. A arquitetura ResNet-50.

Principais características do ResNet-50

Embora a ResNet-50 tenha sido originalmente projetada para classificação de imagens, seu design flexível a tornou útil em muitas áreas da visão computacional. Vamos dar uma olhada em algumas das características que fazem a ResNet-50 se destacar.

Utilização do ResNet-50 para classificação de imagens

O ResNet-50 é usado principalmente para classificação de imagens, onde o objetivo é atribuir um rótulo a uma imagem. Por exemplo, dada uma foto, o modelo pode rotulá-la como um cão, gato ou avião com base no objeto principal que vê. 

O seu design fiável e a disponibilidade em bibliotecas de aprendizagem profunda amplamente utilizadas, como o PyTorch e o TensorFlow, tornaram o ResNet-50 uma escolha inicial popular para o treino em grandes conjuntos de dados de imagens. Um dos exemplos mais conhecidos é o ImageNet, uma enorme coleção de imagens rotuladas utilizada para avaliar e comparar modelos de visão computacional.

Embora modelos mais recentes, como o Ultralytics YOLO11, o superem, o ResNet-50 ainda é comumente usado como um benchmark graças ao seu sólido equilíbrio entre precisão, velocidade e simplicidade.

__wf_reserved_inherit
Fig 3. Um exemplo de uso do ResNet-50 para classificar um cachorro.

Deteção de objetos habilitada por backbones ResNet-50

Enquanto a classificação de imagens se concentra em identificar o objeto principal em uma imagem, a detecção de objetos vai um passo além, encontrando e rotulando vários objetos na mesma imagem. Por exemplo, em uma imagem de uma rua movimentada, um modelo pode precisar detectar carros, ônibus e pessoas - e descobrir onde cada um está.

O ResNet-50 é usado como a base (backbone) em alguns desses modelos. Isso significa que ele lida com a primeira parte do trabalho: analisar a imagem e extrair detalhes importantes que descrevem o que está nela e onde. Esses detalhes são então passados para a próxima parte do modelo, chamada de "detection head" (cabeça de detecção), que toma as decisões finais sobre quais objetos estão na imagem e onde eles estão.

Modelos de detecção populares como Faster R-CNN e DETR usam ResNet-50 para esta etapa de extração de características. Como ele faz um bom trabalho ao capturar detalhes finos e o layout geral de uma imagem, ajuda esses modelos a fazer previsões precisas - mesmo em cenas complexas.

Transferência de aprendizado com ResNet-50

Outro aspecto interessante do modelo ResNet-50 é sua capacidade de suportar o aprendizado por transferência. Isso significa que o modelo, originalmente treinado em um grande conjunto de dados como o ImageNet para classificação de imagens, pode ser adaptado a novas tarefas com muito menos dados.

Em vez de começar do zero, a maioria das camadas do modelo são reutilizadas, e apenas a camada de classificação final é substituída e retreinada para a nova tarefa. Isso economiza tempo e é especialmente útil quando os dados rotulados são limitados.

Aplicações de visão computacional do ResNet-50

A arquitetura do ResNet-50 tornou-o útil para uma vasta gama de aplicações de visão computacional. Foi especialmente importante nos primeiros tempos do deep learning, ajudando a mover a tecnologia de Visão de IA da investigação para o uso no mundo real. Ao resolver desafios importantes, ajudou a abrir caminho para os modelos mais avançados que vemos nas aplicações de hoje.

Imagem médica impulsionada por ResNet-50

O ResNet-50 foi um dos primeiros modelos usados em imagens médicas baseadas em deep learning. Os investigadores usaram-no para identificar padrões de doenças em raios-X, ressonâncias magnéticas e outras digitalizações de diagnóstico. Por exemplo, ajudou a detetar tumores e a classificar imagens retinianas diabéticas para apoiar o diagnóstico em oftalmologia.

Embora modelos mais avançados sejam agora usados em ferramentas clínicas, o ResNet-50 desempenhou um papel fundamental na pesquisa inicial de IA médica. Sua facilidade de uso e design modular o tornaram uma escolha adequada para a criação de protótipos de sistemas de diagnóstico.

__wf_reserved_inherit
Fig 4. Detecção de tumor cerebral baseada em ResNet-50.

Automação industrial alimentada por ResNet-50

Da mesma forma, a ResNet-50 também foi aplicada em ambientes industriais. Por exemplo, na fabricação, ela tem sido usada em pesquisas e sistemas piloto para detectar defeitos de superfície em materiais como aço, concreto e peças pintadas.

Também foi testado em configurações para identificar orifícios de bolhas, rachaduras ou depósitos que se formam durante a fundição ou montagem. O ResNet-50 é adequado para essas tarefas porque consegue detetar diferenças subtis na textura da superfície, uma capacidade importante para a inspeção de qualidade.

Embora modelos mais avançados como o YOLO11 sejam agora comumente usados em sistemas de produção, o ResNet-50 ainda desempenha um papel importante na pesquisa acadêmica e no benchmarking, particularmente para tarefas de classificação de imagens.

__wf_reserved_inherit
Fig 6. Inspeção de superfície usando Resnet-50.

Benefícios e limitações da ResNet-50

Aqui está uma olhada em algumas das vantagens do ResNet-50:

  • Forte desempenho de base: A ResNet-50 oferece uma precisão sólida numa vasta gama de tarefas, tornando-a uma referência fiável tanto em projetos de investigação como em projetos aplicados.
  • Bem documentado e amplamente estudado: Sua arquitetura é bem compreendida e completamente documentada, o que facilita a resolução de problemas e o aprendizado para desenvolvedores e pesquisadores.
  • Versátil em vários domínios: Desde imagens médicas até à indústria transformadora, a ResNet-50 tem sido aplicada com sucesso a uma variedade de problemas do mundo real, provando a sua flexibilidade.

Enquanto isso, aqui está um vislumbre das limitações do ResNet-50:

  • Alto uso de recursos: O ResNet-50 requer mais memória e poder de computação do que os modelos leves, o que pode torná-lo menos adequado para dispositivos móveis ou aplicações em tempo real.

  • Overfitting em pequenos conjuntos de dados: Devido à sua profundidade e complexidade, o ResNet-50 pode sofrer overfitting quando treinado em dados limitados sem técnicas de regularização adequadas.
  • Tamanho de entrada fixo: O ResNet-50 geralmente espera que as imagens tenham um tamanho específico, como 224×224 pixels, então as imagens geralmente precisam ser redimensionadas ou cortadas, o que às vezes pode remover detalhes importantes.

Principais conclusões

O ResNet-50 provou que redes muito profundas podiam ser treinadas eficazmente, ao mesmo tempo que ofereciam um forte desempenho em tarefas visuais. A sua arquitetura ofereceu uma estrutura clara e prática para construir modelos mais profundos que funcionassem de forma fiável. 

Após o seu lançamento, os pesquisadores expandiram o design, criando versões mais profundas como ResNet-101 e ResNet-152. No geral, o ResNet-50 é um modelo chave que ajudou a moldar a forma como o aprendizado profundo é usado na visão computacional atualmente.

Junte-se à nossa crescente comunidade! Explore nosso repositório GitHub para saber mais sobre IA. Pronto para iniciar seus próprios projetos de visão computacional? Confira nossas opções de licenciamento. Descubra a IA na agricultura e a Vision AI na área da saúde visitando nossas páginas de soluções! 

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência