ResNet-50 e o seu papel na visão computacional

A análise automatizada de imagens está se tornando cada vez mais comum em aplicações como detecção de carros em alta velocidade ou análise de imagens médicas. A tecnologia que impulsiona essas inovações é a visão computacional ou Visão AI. É um ramo da inteligência artificial (IA) que permite que as máquinas interpretem e compreendam imagens e vídeos, assim como os humanos.

Para construir tais soluções de visão computacional, os desenvolvedores confiam em modelos de Visão de IA que podem aprender com grandes quantidades de dados visuais. Ao longo dos anos, os pesquisadores desenvolveram modelos mais novos e avançados com desempenho impressionante em tarefas de Visão de IA, como classificação de imagens (atribuir rótulos a imagens), detecção de objetos (localizar e identificar objetos dentro de imagens) e segmentação de instâncias (detectar objetos e delinear suas formas exatas).

No entanto, olhar para trás e entender os modelos anteriores pode ajudar a entender como os sistemas de visão computacional de hoje funcionam. Por exemplo, um exemplo fundamental é o ResNet-50, um modelo influente que introduziu a ideia de conexões de atalho - caminhos simples que ajudam o modelo a aprender mais rápido e com mais precisão.

Essa inovação tornou possível treinar redes neurais muito mais profundas de forma eficaz, levando a melhorias significativas na classificação de imagens e moldando o design de muitos modelos que se seguiram. Neste artigo, exploraremos o ResNet-50, como ele funciona e sua relevância na evolução da visão computacional. Vamos começar!

O que é ResNet-50?

O ResNet-50 é um modelo de visão computacional baseado em um tipo de rede neural chamada Rede Neural Convolucional (CNN). As CNN foram concebidas para ajudar os computadores a compreender a informação visual, aprendendo padrões em imagens, como arestas, cores ou formas, e utilizando esses padrões para reconhecer e classify objectos.

Introduzido em 2015 por investigadores da Microsoft Research, o ResNet-50 tornou-se rapidamente num dos modelos mais impactantes no terreno devido à sua precisão e eficiência em tarefas de reconhecimento de imagem em grande escala.

Uma característica fundamental da ResNet-50 é o uso de conexões residuais, também conhecidas como conexões de atalho. Estas são vias simples que permitem que o modelo ignore algumas etapas no processo de aprendizagem. Por outras palavras, em vez de forçar o modelo a passar informações por todas as camadas, estes atalhos permitem que ele transmita detalhes importantes de forma mais direta. Isto torna a aprendizagem mais rápida e fiável.

__wf_reserved_inherit — Fig 1. Uma olhada nas conexões residuais na arquitetura ResNet.

‍

Este design ajuda a resolver um problema comum no aprendizado profundo, chamado problema do desaparecimento do gradiente. Em modelos muito profundos, informações importantes podem se perder à medida que se movem por muitas camadas, dificultando o aprendizado do modelo.

As conexões residuais ajudam a evitar isso, mantendo o fluxo de informações claro do início ao fim. É por isso que o modelo é chamado de ResNet-50: ResNet significa Rede Residual, e o "50" se refere ao número de camadas que ele usa para processar uma imagem.

Uma visão geral de como o ResNet-50 funciona

O ResNet-50 tem uma estrutura bem organizada que possibilita que o modelo se aprofunde sem perder informações importantes. Ele segue um padrão simples e repetível que mantém as coisas eficientes, ao mesmo tempo em que permite um forte desempenho.

Aqui está uma análise mais detalhada de como a arquitetura ResNet-50 funciona:

Extração básica de características: O modelo começa aplicando uma operação matemática chamada convolução. Isso envolve deslizar pequenos filtros (chamados kernels) sobre a imagem para produzir mapas de características - novas versões da imagem que destacam padrões básicos como bordas ou texturas. É assim que o modelo começa a captar informações visuais úteis.
‍
Aprendendo características complexas: À medida que os dados se movem pela rede, o tamanho dos mapas de características diminui. Isso é feito por meio de técnicas como pooling ou usando filtros com passos maiores (chamados strides). Ao mesmo tempo, a rede cria mais mapas de características, ajudando-a a capturar padrões cada vez mais complexos, como formas, partes de objetos ou texturas.
‍
Comprimindo e expandindo dados: Cada etapa comprime os dados, processa-os e depois expande-os novamente. Isso ajuda o modelo a aprender enquanto economiza memória.
‍
Conexões de atalho: São caminhos simples que permitem que as informações avancem em vez de passar por todas as camadas. Eles tornam o aprendizado mais estável e eficiente.
‍
Fazer uma previsão: No final da rede, todas as informações aprendidas são combinadas e passadas por uma função softmax. Isso produz uma distribuição de probabilidade sobre as classes possíveis, indicando a confiança do modelo em cada previsão — por exemplo, 90% gato, 9% cachorro, 1% carro.

‍

Principais características do ResNet-50

Embora a ResNet-50 tenha sido originalmente projetada para classificação de imagens, seu design flexível a tornou útil em muitas áreas da visão computacional. Vamos dar uma olhada em algumas das características que fazem a ResNet-50 se destacar.

Utilização do ResNet-50 para classificação de imagens

O ResNet-50 é usado principalmente para classificação de imagens, onde o objetivo é atribuir um rótulo a uma imagem. Por exemplo, dada uma foto, o modelo pode rotulá-la como um cão, gato ou avião com base no objeto principal que vê.

O seu design fiável e a sua disponibilidade em bibliotecas de aprendizagem profunda amplamente utilizadas, como PyTorch e TensorFlow , fizeram do ResNet-50 uma escolha inicial popular para a formação em grandes conjuntos de dados de imagens. Um dos exemplos mais conhecidos é o ImageNetuma coleção maciça de imagens rotuladas utilizadas para avaliar e comparar modelos de visão computacional.

Enquanto os modelos mais recentes, como o Ultralytics YOLO11o ResNet-50 continua a ser normalmente utilizado como referência graças ao seu sólido equilíbrio entre precisão, velocidade e simplicidade.

‍

Deteção de objetos habilitada por backbones ResNet-50

Enquanto a classificação de imagens consiste em identificar o objeto principal numa imagem, a deteção de objectos vai mais longe, encontrando e identificando vários objectos na mesma imagem. Por exemplo, numa imagem de uma rua movimentada, um modelo pode ter de detect carros, autocarros e pessoas - e descobrir onde cada um se encontra.

O ResNet-50 é usado como a base (backbone) em alguns desses modelos. Isso significa que ele lida com a primeira parte do trabalho: analisar a imagem e extrair detalhes importantes que descrevem o que está nela e onde. Esses detalhes são então passados para a próxima parte do modelo, chamada de "detection head" (cabeça de detecção), que toma as decisões finais sobre quais objetos estão na imagem e onde eles estão.

Modelos de detecção populares como Faster R-CNN e DETR usam ResNet-50 para esta etapa de extração de características. Como ele faz um bom trabalho ao capturar detalhes finos e o layout geral de uma imagem, ajuda esses modelos a fazer previsões precisas - mesmo em cenas complexas.

Transferência de aprendizado com ResNet-50

Outro aspeto interessante do modelo ResNet-50 é a sua capacidade de suportar a aprendizagem por transferência. Isto significa que o modelo, originalmente treinado num grande conjunto de dados como o ImageNet para classificação de imagens, pode ser adaptado a novas tarefas com muito menos dados.

Em vez de começar do zero, a maioria das camadas do modelo são reutilizadas, e apenas a camada de classificação final é substituída e retreinada para a nova tarefa. Isso economiza tempo e é especialmente útil quando os dados rotulados são limitados.

Aplicações de visão computacional do ResNet-50

A arquitetura do ResNet-50 tornou-o útil para uma vasta gama de aplicações de visão computacional. Foi especialmente importante nos primeiros tempos do deep learning, ajudando a mover a tecnologia de Visão de IA da investigação para o uso no mundo real. Ao resolver desafios importantes, ajudou a abrir caminho para os modelos mais avançados que vemos nas aplicações de hoje.

Imagem médica impulsionada por ResNet-50

O ResNet-50 foi um dos primeiros modelos utilizados na imagiologia médica baseada na aprendizagem profunda. Os investigadores utilizaram-no para identificar padrões de doença em raios X, ressonâncias magnéticas e outros exames de diagnóstico. Por exemplo, ajudou a detect tumores e classify imagens de retina diabética para apoiar o diagnóstico em oftalmologia.

Embora modelos mais avançados sejam agora usados em ferramentas clínicas, o ResNet-50 desempenhou um papel fundamental na pesquisa inicial de IA médica. Sua facilidade de uso e design modular o tornaram uma escolha adequada para a criação de protótipos de sistemas de diagnóstico.

‍

Automação industrial alimentada por ResNet-50

Do mesmo modo, a ResNet-50 também tem sido aplicada em ambientes industriais. Por exemplo, na indústria transformadora, tem sido utilizado em sistemas de investigação e piloto para detect defeitos de superfície em materiais como o aço, o betão e peças pintadas.

Também foi testado em configurações para identificar orifícios de bolhas, rachaduras ou depósitos que se formam durante a fundição ou montagem. O ResNet-50 é adequado para essas tarefas porque consegue detetar diferenças subtis na textura da superfície, uma capacidade importante para a inspeção de qualidade.

Embora os modelos mais avançados, como o YOLO11 , sejam agora habitualmente utilizados em sistemas de produção, o ResNet-50 continua a desempenhar um papel importante na investigação académica e na avaliação comparativa, em especial para tarefas de classificação de imagens.

‍

Benefícios e limitações da ResNet-50

Aqui está uma olhada em algumas das vantagens do ResNet-50:

Forte desempenho de base: A ResNet-50 oferece uma precisão sólida numa vasta gama de tarefas, tornando-a uma referência fiável tanto em projetos de investigação como em projetos aplicados.
‍
Bem documentado e amplamente estudado: Sua arquitetura é bem compreendida e completamente documentada, o que facilita a resolução de problemas e o aprendizado para desenvolvedores e pesquisadores.
‍
Versátil em vários domínios: Desde imagens médicas até à indústria transformadora, a ResNet-50 tem sido aplicada com sucesso a uma variedade de problemas do mundo real, provando a sua flexibilidade.

Enquanto isso, aqui está um vislumbre das limitações do ResNet-50:

Alto uso de recursos: O ResNet-50 requer mais memória e poder de computação do que os modelos leves, o que pode torná-lo menos adequado para dispositivos móveis ou aplicações em tempo real.
Overfitting em pequenos conjuntos de dados: Devido à sua profundidade e complexidade, o ResNet-50 pode sofrer overfitting quando treinado em dados limitados sem técnicas de regularização adequadas.
‍
Tamanho de entrada fixo: O ResNet-50 geralmente espera que as imagens tenham um tamanho específico, como 224×224 pixels, então as imagens geralmente precisam ser redimensionadas ou cortadas, o que às vezes pode remover detalhes importantes.

Principais conclusões

O ResNet-50 provou que redes muito profundas podiam ser treinadas eficazmente, ao mesmo tempo que ofereciam um forte desempenho em tarefas visuais. A sua arquitetura ofereceu uma estrutura clara e prática para construir modelos mais profundos que funcionassem de forma fiável.

Após o seu lançamento, os pesquisadores expandiram o design, criando versões mais profundas como ResNet-101 e ResNet-152. No geral, o ResNet-50 é um modelo chave que ajudou a moldar a forma como o aprendizado profundo é usado na visão computacional atualmente.

Junte-se à nossa crescente comunidade! Explore nosso repositório GitHub para saber mais sobre IA. Pronto para iniciar seus próprios projetos de visão computacional? Confira nossas opções de licenciamento. Descubra a IA na agricultura e a Vision AI na área da saúde visitando nossas páginas de soluções!

O que é ResNet-50 e qual é a sua relevância em visão computacional?

O que é ResNet-50?

Uma visão geral de como o ResNet-50 funciona

Principais características do ResNet-50

Utilização do ResNet-50 para classificação de imagens

Deteção de objetos habilitada por backbones ResNet-50

Transferência de aprendizado com ResNet-50

Aplicações de visão computacional do ResNet-50

Imagem médica impulsionada por ResNet-50

Automação industrial alimentada por ResNet-50

Benefícios e limitações da ResNet-50

Principais conclusões

Leia mais nesta categoria

Aprendizagem auto-supervisionada para redução de ruído: uma análise passo a passo

O que é a correspondência de imagens na IA de visão? Uma breve introdução

Uma introdução ao domínio emergente da IA neuro-simbólica

Vamos construir o futuro
da IA juntos!

O que é ResNet-50 e qual é a sua relevância em visão computacional?

O que é ResNet-50?

Uma visão geral de como o ResNet-50 funciona

Principais características do ResNet-50

Utilização do ResNet-50 para classificação de imagens

Deteção de objetos habilitada por backbones ResNet-50

Transferência de aprendizado com ResNet-50

Aplicações de visão computacional do ResNet-50

Imagem médica impulsionada por ResNet-50

Automação industrial alimentada por ResNet-50

Benefícios e limitações da ResNet-50

Principais conclusões

Leia mais nesta categoria

Aprendizagem auto-supervisionada para redução de ruído: uma análise passo a passo

O que é a correspondência de imagens na IA de visão? Uma breve introdução

Uma introdução ao domínio emergente da IA neuro-simbólica

Vamos construir o futuro da IA juntos!

Vamos construir o futuro
da IA juntos!