O que é a ResNet-50 e qual a sua importância na visão computacional?

Abirami Vina

5 min. de leitura

27 de maio de 2025

Descubra como a arquitetura do ResNet-50 permite a classificação de imagens em aplicações do mundo real em cuidados de saúde, fabrico e sistemas autónomos.

A análise automatizada de imagens está a tornar-se cada vez mais comum em aplicações como a deteção de carros em excesso de velocidade ou a análise de imagens médicas. A tecnologia que está a impulsionar estas inovações é a visão por computador ou IA de visão. Trata-se de um ramo da inteligência artificial (IA) que permite às máquinas interpretar e compreender imagens e vídeos, tal como os humanos. 

Para criar essas soluções de visão computacional, os programadores baseiam-se em modelos de IA de visão que podem aprender com grandes quantidades de dados visuais. Ao longo dos anos, os investigadores desenvolveram modelos mais recentes e avançados com um desempenho impressionante em tarefas de IA de visão, como a classificação de imagens (atribuição de etiquetas às imagens), a deteção de objectos (localização e identificação de objectos nas imagens) e a segmentação de instâncias (deteção de objectos e definição das suas formas exactas).

No entanto, olhar para trás e compreender os modelos anteriores pode ajudar a compreender o funcionamento dos actuais sistemas de visão por computador. Por exemplo, um exemplo fundamental é o ResNet-50, um modelo influente que introduziu a ideia de ligações de atalho - caminhos simples que ajudam o modelo a aprender mais rapidamente e com maior precisão.

Esta inovação tornou possível treinar eficazmente redes neuronais muito mais profundas, conduzindo a melhorias significativas na classificação de imagens e moldando a conceção de muitos modelos que se seguiram. Neste artigo, vamos explorar o ResNet-50, como ele funciona e sua relevância na evolução da visão computacional. Vamos começar!

O que é o ResNet-50? 

O ResNet-50 é um modelo de visão computacional baseado em um tipo de rede neural chamada Rede Neural Convolucional (CNN). As CNN foram concebidas para ajudar os computadores a compreender a informação visual, aprendendo padrões em imagens, como arestas, cores ou formas, e utilizando esses padrões para reconhecer e classificar objectos. 

Introduzido em 2015 por investigadores da Microsoft Research, o ResNet-50 tornou-se rapidamente num dos modelos mais impactantes no terreno devido à sua precisão e eficiência em tarefas de reconhecimento de imagens em grande escala.

Uma caraterística fundamental da ResNet-50 é a utilização de conexões residuais, também conhecidas como conexões de atalho. Trata-se de caminhos simples que permitem ao modelo saltar algumas etapas do processo de aprendizagem. Por outras palavras, em vez de forçar o modelo a passar informação através de cada uma das camadas, estes atalhos permitem-lhe transmitir detalhes importantes mais diretamente. Isto torna a aprendizagem mais rápida e mais fiável.

__wf_reserved_inherit
Fig. 1. Uma visão das ligações residuais na arquitetura ResNet.

Este design ajuda a resolver um problema comum na aprendizagem profunda chamado problema do gradiente de desaparecimento. Em modelos muito profundos, as informações importantes podem perder-se à medida que se deslocam através de muitas camadas, dificultando a aprendizagem do modelo. 

As ligações residuais ajudam a evitar esta situação, mantendo a informação a fluir claramente do início ao fim. É por isso que o modelo se chama ResNet-50: ResNet significa Residual Network (Rede Residual) e o "50" refere-se ao número de camadas que utiliza para processar uma imagem. 

Uma visão geral do funcionamento do ResNet-50

O ResNet-50 tem uma estrutura bem organizada que possibilita que o modelo se aprofunde sem perder informações importantes. Ele segue um padrão simples e repetível que mantém as coisas eficientes e, ao mesmo tempo, permite um bom desempenho. 

Eis um olhar mais atento sobre o funcionamento da arquitetura ResNet-50:

  • Básico extração de caraterísticas: O modelo começa por aplicar uma operação matemática denominada convolução. Esta operação envolve o deslizamento de pequenos filtros (chamados kernels) sobre a imagem para produzir mapas de caraterísticas - novas versões da imagem que realçam padrões básicos como arestas ou texturas. É assim que o modelo começa a captar informação visual útil.
  • Aprendizagem de caraterísticas complexas: À medida que os dados se movem através da rede, o tamanho dos mapas de caraterísticas torna-se mais pequeno. Isso é feito por meio de técnicas como pooling ou uso de filtros com passos maiores (chamados strides). Ao mesmo tempo, a rede cria mais mapas de caraterísticas, ajudando-a a captar padrões cada vez mais complexos, como formas, partes de objectos ou texturas.
  • Compressão e expansão de dados: Cada fase comprime os dados, processa-os e depois volta a expandi-los. Isto ajuda o modelo a aprender enquanto poupa memória.
  • Ligações de atalho: Estes são caminhos simples que permitem que a informação passe à frente em vez de passar por todas as camadas. Tornam a aprendizagem mais estável e eficiente.
  • Fazer uma previsão: No final da rede, toda a informação aprendida é combinada e passada por uma função softmax. Esta produz uma distribuição de probabilidade sobre as classes possíveis, indicando a confiança do modelo em cada previsão - por exemplo, 90% gato, 9% cão, 1% carro.
__wf_reserved_inherit
Fig. 2. A arquitetura da ResNet-50.

Principais caraterísticas do ResNet-50

Embora o ResNet-50 tenha sido originalmente concebido para a classificação de imagens, o seu design flexível tornou-o útil em muitas áreas da visão computacional. Vamos dar uma olhada em alguns dos recursos que fazem o ResNet-50 se destacar.

Utilização do ResNet-50 para classificação de imagens

O ResNet-50 é utilizado principalmente para a classificação de imagens, em que o objetivo é atribuir uma etiqueta a uma imagem. Por exemplo, dada uma fotografia, o modelo pode rotulá-la como um cão, um gato ou um avião com base no objeto principal que vê. 

O seu design fiável e a sua disponibilidade em bibliotecas de aprendizagem profunda amplamente utilizadas, como o PyTorch e o TensorFlow, fizeram do ResNet-50 uma escolha inicial popular para a formação em grandes conjuntos de dados de imagens. Um dos exemplos mais conhecidos é o ImageNet, uma coleção maciça de imagens rotuladas utilizadas para avaliar e comparar modelos de visão computacional.

Embora os modelos mais recentes, como o Ultralytics YOLO11, o superem, o ResNet-50 continua a ser utilizado como referência graças ao seu sólido equilíbrio entre precisão, velocidade e simplicidade.

__wf_reserved_inherit
Fig. 3. Um exemplo de utilização da ResNet-50 para classificar um cão.

Deteção de objectos possibilitada pelos backbones ResNet-50

Enquanto a classificação de imagens consiste em identificar o objeto principal numa imagem, a deteção de objectos vai mais longe, encontrando e identificando vários objectos na mesma imagem. Por exemplo, numa imagem de uma rua movimentada, um modelo pode ter de detetar carros, autocarros e pessoas - e descobrir onde cada um se encontra.

A ResNet-50 é utilizada como espinha dorsal em alguns destes modelos. Isto significa que trata da primeira parte do trabalho: analisar a imagem e extrair detalhes importantes que descrevem o que está na imagem e onde. Estes detalhes são depois passados para a parte seguinte do modelo, chamada cabeça de deteção, que toma as decisões finais sobre que objectos estão na imagem e onde estão.

Modelos de deteção populares como o Faster R-CNN e o DETR utilizam o ResNet-50 para este passo de extração de caraterísticas. Uma vez que faz um bom trabalho ao captar detalhes finos e a disposição geral de uma imagem, ajuda estes modelos a fazer previsões exactas - mesmo em cenas complexas.

Aprendizagem por transferência com ResNet-50

Outro aspeto interessante do modelo ResNet-50 é a sua capacidade de suportar a aprendizagem por transferência. Isto significa que o modelo, originalmente treinado num grande conjunto de dados como o ImageNet para classificação de imagens, pode ser adaptado a novas tarefas com muito menos dados.

Em vez de começar do zero, a maioria das camadas do modelo é reutilizada e apenas a camada de classificação final é substituída e treinada novamente para a nova tarefa. Isso economiza tempo e é especialmente útil quando os dados rotulados são limitados.

Aplicações de visão por computador da ResNet-50

A arquitetura da ResNet-50 tornou-a útil para uma vasta gama de aplicações de visão computacional. Foi especialmente importante nos primórdios da aprendizagem profunda, ajudando a passar a tecnologia Vision AI da investigação para a utilização no mundo real. Ao resolver os principais desafios, ajudou a preparar o caminho para os modelos mais avançados que vemos nas aplicações actuais.

Imagiologia médica impulsionada pela ResNet-50

O ResNet-50 foi um dos primeiros modelos utilizados na imagiologia médica baseada na aprendizagem profunda. Os investigadores utilizaram-no para identificar padrões de doença em raios X, ressonâncias magnéticas e outros exames de diagnóstico. Por exemplo, ajudou a detetar tumores e a classificar imagens de retina diabética para apoiar o diagnóstico em oftalmologia.

Embora atualmente sejam utilizados modelos mais avançados em ferramentas clínicas, o ResNet-50 desempenhou um papel fundamental na investigação inicial sobre IA médica. A sua facilidade de utilização e a sua conceção modular tornaram-no uma escolha adequada para a criação de protótipos de sistemas de diagnóstico.

__wf_reserved_inherit
Fig. 4. Deteção de tumores cerebrais com base na ResNet-50.

Automação industrial com tecnologia ResNet-50

Do mesmo modo, a ResNet-50 também tem sido aplicada em ambientes industriais. Por exemplo, na indústria transformadora, tem sido utilizado em sistemas de investigação e piloto para detetar defeitos de superfície em materiais como o aço, o betão e peças pintadas.

Também foi testado em configurações para identificar buracos de insectos, fissuras ou depósitos que se formam durante a fundição ou montagem. O ResNet-50 é adequado para estas tarefas porque consegue detetar diferenças subtis na textura da superfície, uma capacidade importante para a inspeção de qualidade.

Embora os modelos mais avançados, como o YOLO11, sejam agora habitualmente utilizados em sistemas de produção, o ResNet-50 continua a desempenhar um papel importante na investigação académica e na avaliação comparativa, em especial para tarefas de classificação de imagens.

__wf_reserved_inherit
Fig. 6. Inspeção da superfície utilizando o Resnet-50.

Vantagens e limitações do ResNet-50

Eis algumas das vantagens do ResNet-50:

  • Forte desempenho de base: O ResNet-50 oferece uma precisão sólida numa vasta gama de tarefas, o que o torna uma referência de confiança tanto em projectos de investigação como em projectos aplicados.
  • Bem documentado e amplamente estudado: A sua arquitetura é bem compreendida e está exaustivamente documentada, o que torna a resolução de problemas e a aprendizagem mais fáceis para os programadores e investigadores.
  • Versátil em todos os domínios: Desde a imagiologia médica ao fabrico, o ResNet-50 tem sido aplicado com sucesso a uma variedade de problemas do mundo real, provando a sua flexibilidade.

Entretanto, aqui está um vislumbre das limitações da ResNet-50:

  • Elevada utilização de recursos: O ResNet-50 requer mais memória e potência de computação do que os modelos leves, o que pode torná-lo menos adequado para dispositivos móveis ou aplicações em tempo real.

  • Sobreajuste em pequenos conjuntos de dados: Devido à sua profundidade e complexidade, o ResNet-50 pode sobreajustar-se quando treinado em dados limitados sem técnicas de regularização adequadas.
  • Tamanho de entrada fixo: O ResNet-50 espera normalmente que as imagens tenham um tamanho específico, como 224×224 pixéis, pelo que as imagens têm frequentemente de ser redimensionadas ou cortadas, o que pode por vezes remover detalhes importantes.

Principais conclusões

O ResNet-50 provou que as redes muito profundas podem ser treinadas de forma eficaz e, ao mesmo tempo, apresentar um bom desempenho em tarefas visuais. A sua arquitetura oferecia uma estrutura clara e prática para a construção de modelos mais profundos que funcionavam de forma fiável. 

Após o seu lançamento, os investigadores expandiram o design, criando versões mais profundas como a ResNet-101 e a ResNet-152. No geral, o ResNet-50 é um modelo fundamental que ajudou a moldar a forma como a aprendizagem profunda é utilizada atualmente na visão computacional.

Junte-se à nossa comunidade em crescimento! Explore o nosso repositório GitHub para saber mais sobre IA. Pronto para iniciar os seus próprios projectos de visão computacional? Veja as nossas opções de licenciamento. Descubra a IA na agricultura e a IA de visão nos cuidados de saúde visitando as nossas páginas de soluções! 

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência