O que é a ResNet-50 e qual a sua importância na visão computacional?

27 de maio de 2025
Descubra como a arquitetura do ResNet-50 permite a classificação de imagens em aplicações do mundo real em cuidados de saúde, fabrico e sistemas autónomos.

27 de maio de 2025
Descubra como a arquitetura do ResNet-50 permite a classificação de imagens em aplicações do mundo real em cuidados de saúde, fabrico e sistemas autónomos.
A análise automatizada de imagens está a tornar-se cada vez mais comum em aplicações como a deteção de carros em excesso de velocidade ou a análise de imagens médicas. A tecnologia que está a impulsionar estas inovações é a visão por computador ou IA de visão. Trata-se de um ramo da inteligência artificial (IA) que permite às máquinas interpretar e compreender imagens e vídeos, tal como os humanos.
Para criar essas soluções de visão computacional, os programadores baseiam-se em modelos de IA de visão que podem aprender com grandes quantidades de dados visuais. Ao longo dos anos, os investigadores desenvolveram modelos mais recentes e avançados com um desempenho impressionante em tarefas de IA de visão, como a classificação de imagens (atribuição de etiquetas às imagens), a deteção de objectos (localização e identificação de objectos nas imagens) e a segmentação de instâncias (deteção de objectos e definição das suas formas exactas).
No entanto, olhar para trás e compreender os modelos anteriores pode ajudar a compreender o funcionamento dos actuais sistemas de visão por computador. Por exemplo, um exemplo fundamental é o ResNet-50, um modelo influente que introduziu a ideia de ligações de atalho - caminhos simples que ajudam o modelo a aprender mais rapidamente e com maior precisão.
Esta inovação tornou possível treinar eficazmente redes neuronais muito mais profundas, conduzindo a melhorias significativas na classificação de imagens e moldando a conceção de muitos modelos que se seguiram. Neste artigo, vamos explorar o ResNet-50, como ele funciona e sua relevância na evolução da visão computacional. Vamos começar!
O ResNet-50 é um modelo de visão computacional baseado em um tipo de rede neural chamada Rede Neural Convolucional (CNN). As CNN foram concebidas para ajudar os computadores a compreender a informação visual, aprendendo padrões em imagens, como arestas, cores ou formas, e utilizando esses padrões para reconhecer e classificar objectos.
Introduzido em 2015 por investigadores da Microsoft Research, o ResNet-50 tornou-se rapidamente num dos modelos mais impactantes no terreno devido à sua precisão e eficiência em tarefas de reconhecimento de imagens em grande escala.
Uma caraterística fundamental da ResNet-50 é a utilização de conexões residuais, também conhecidas como conexões de atalho. Trata-se de caminhos simples que permitem ao modelo saltar algumas etapas do processo de aprendizagem. Por outras palavras, em vez de forçar o modelo a passar informação através de cada uma das camadas, estes atalhos permitem-lhe transmitir detalhes importantes mais diretamente. Isto torna a aprendizagem mais rápida e mais fiável.
Este design ajuda a resolver um problema comum na aprendizagem profunda chamado problema do gradiente de desaparecimento. Em modelos muito profundos, as informações importantes podem perder-se à medida que se deslocam através de muitas camadas, dificultando a aprendizagem do modelo.
As ligações residuais ajudam a evitar esta situação, mantendo a informação a fluir claramente do início ao fim. É por isso que o modelo se chama ResNet-50: ResNet significa Residual Network (Rede Residual) e o "50" refere-se ao número de camadas que utiliza para processar uma imagem.
O ResNet-50 tem uma estrutura bem organizada que possibilita que o modelo se aprofunde sem perder informações importantes. Ele segue um padrão simples e repetível que mantém as coisas eficientes e, ao mesmo tempo, permite um bom desempenho.
Eis um olhar mais atento sobre o funcionamento da arquitetura ResNet-50:
Embora o ResNet-50 tenha sido originalmente concebido para a classificação de imagens, o seu design flexível tornou-o útil em muitas áreas da visão computacional. Vamos dar uma olhada em alguns dos recursos que fazem o ResNet-50 se destacar.
O ResNet-50 é utilizado principalmente para a classificação de imagens, em que o objetivo é atribuir uma etiqueta a uma imagem. Por exemplo, dada uma fotografia, o modelo pode rotulá-la como um cão, um gato ou um avião com base no objeto principal que vê.
O seu design fiável e a sua disponibilidade em bibliotecas de aprendizagem profunda amplamente utilizadas, como o PyTorch e o TensorFlow, fizeram do ResNet-50 uma escolha inicial popular para a formação em grandes conjuntos de dados de imagens. Um dos exemplos mais conhecidos é o ImageNet, uma coleção maciça de imagens rotuladas utilizadas para avaliar e comparar modelos de visão computacional.
Embora os modelos mais recentes, como o Ultralytics YOLO11, o superem, o ResNet-50 continua a ser utilizado como referência graças ao seu sólido equilíbrio entre precisão, velocidade e simplicidade.
Enquanto a classificação de imagens consiste em identificar o objeto principal numa imagem, a deteção de objectos vai mais longe, encontrando e identificando vários objectos na mesma imagem. Por exemplo, numa imagem de uma rua movimentada, um modelo pode ter de detetar carros, autocarros e pessoas - e descobrir onde cada um se encontra.
A ResNet-50 é utilizada como espinha dorsal em alguns destes modelos. Isto significa que trata da primeira parte do trabalho: analisar a imagem e extrair detalhes importantes que descrevem o que está na imagem e onde. Estes detalhes são depois passados para a parte seguinte do modelo, chamada cabeça de deteção, que toma as decisões finais sobre que objectos estão na imagem e onde estão.
Modelos de deteção populares como o Faster R-CNN e o DETR utilizam o ResNet-50 para este passo de extração de caraterísticas. Uma vez que faz um bom trabalho ao captar detalhes finos e a disposição geral de uma imagem, ajuda estes modelos a fazer previsões exactas - mesmo em cenas complexas.
Outro aspeto interessante do modelo ResNet-50 é a sua capacidade de suportar a aprendizagem por transferência. Isto significa que o modelo, originalmente treinado num grande conjunto de dados como o ImageNet para classificação de imagens, pode ser adaptado a novas tarefas com muito menos dados.
Em vez de começar do zero, a maioria das camadas do modelo é reutilizada e apenas a camada de classificação final é substituída e treinada novamente para a nova tarefa. Isso economiza tempo e é especialmente útil quando os dados rotulados são limitados.
A arquitetura da ResNet-50 tornou-a útil para uma vasta gama de aplicações de visão computacional. Foi especialmente importante nos primórdios da aprendizagem profunda, ajudando a passar a tecnologia Vision AI da investigação para a utilização no mundo real. Ao resolver os principais desafios, ajudou a preparar o caminho para os modelos mais avançados que vemos nas aplicações actuais.
O ResNet-50 foi um dos primeiros modelos utilizados na imagiologia médica baseada na aprendizagem profunda. Os investigadores utilizaram-no para identificar padrões de doença em raios X, ressonâncias magnéticas e outros exames de diagnóstico. Por exemplo, ajudou a detetar tumores e a classificar imagens de retina diabética para apoiar o diagnóstico em oftalmologia.
Embora atualmente sejam utilizados modelos mais avançados em ferramentas clínicas, o ResNet-50 desempenhou um papel fundamental na investigação inicial sobre IA médica. A sua facilidade de utilização e a sua conceção modular tornaram-no uma escolha adequada para a criação de protótipos de sistemas de diagnóstico.
Do mesmo modo, a ResNet-50 também tem sido aplicada em ambientes industriais. Por exemplo, na indústria transformadora, tem sido utilizado em sistemas de investigação e piloto para detetar defeitos de superfície em materiais como o aço, o betão e peças pintadas.
Também foi testado em configurações para identificar buracos de insectos, fissuras ou depósitos que se formam durante a fundição ou montagem. O ResNet-50 é adequado para estas tarefas porque consegue detetar diferenças subtis na textura da superfície, uma capacidade importante para a inspeção de qualidade.
Embora os modelos mais avançados, como o YOLO11, sejam agora habitualmente utilizados em sistemas de produção, o ResNet-50 continua a desempenhar um papel importante na investigação académica e na avaliação comparativa, em especial para tarefas de classificação de imagens.
Eis algumas das vantagens do ResNet-50:
Entretanto, aqui está um vislumbre das limitações da ResNet-50:
O ResNet-50 provou que as redes muito profundas podem ser treinadas de forma eficaz e, ao mesmo tempo, apresentar um bom desempenho em tarefas visuais. A sua arquitetura oferecia uma estrutura clara e prática para a construção de modelos mais profundos que funcionavam de forma fiável.
Após o seu lançamento, os investigadores expandiram o design, criando versões mais profundas como a ResNet-101 e a ResNet-152. No geral, o ResNet-50 é um modelo fundamental que ajudou a moldar a forma como a aprendizagem profunda é utilizada atualmente na visão computacional.
Junte-se à nossa comunidade em crescimento! Explore o nosso repositório GitHub para saber mais sobre IA. Pronto para iniciar os seus próprios projectos de visão computacional? Veja as nossas opções de licenciamento. Descubra a IA na agricultura e a IA de visão nos cuidados de saúde visitando as nossas páginas de soluções!