Glossário

Campo Recetivo

Descubra a importância dos campos receptivos nas CNNs para a visão computacional. Saiba como afectam a deteção de objectos, a segmentação e a otimização da IA.

Nas Redes Neuronais Convolucionais (CNN), o campo recetivo é a região específica da imagem de entrada que uma determinada caraterística numa determinada camada é capaz de "ver" ou ser influenciada. À medida que os dados passam pelas camadas de uma rede, o campo recetivo de cada neurónio expande-se, permitindo que a rede aprenda caraterísticas hierárquicas. Nas camadas iniciais, os neurónios têm campos receptivos pequenos e detectam padrões simples, como arestas ou cores. Nas camadas mais profundas, os campos receptivos tornam-se muito maiores, permitindo à rede reconhecer objectos complexos e cenas inteiras através da combinação dos padrões mais simples detectados anteriormente. Este conceito é fundamental para compreender como as CNNs processam a informação espacial.

Importância na visão computacional

O tamanho e a qualidade do campo recetivo são fundamentais para o desempenho dos modelos de visão por computador (CV). Um campo recetivo de tamanho adequado garante que o modelo consegue captar todo o contexto de um objeto. Se o campo recetivo for demasiado pequeno para uma tarefa de deteção de objectos, o modelo poderá identificar apenas partes de um objeto (como um pneu em vez de um carro). Por outro lado, um campo recetivo excessivamente grande pode incorporar ruído de fundo que distrai, potencialmente confundindo o modelo.

A conceção de uma arquitetura de rede eficaz implica um equilíbrio cuidadoso do tamanho do campo recetivo para corresponder à escala dos objectos no conjunto de dados. Técnicas como a utilização de convoluções dilatadas, também conhecidas como convoluções atrous, permitem aumentar o campo recetivo sem aumentar o custo computacional, o que é especialmente útil em tarefas como a segmentação semântica. Existem também ferramentas disponíveis para ajudar a visualizar os campos receptivos, o que ajuda na conceção e depuração de modelos.

Aplicações no mundo real

  • Veículos autónomos: Nos carros autónomos, os modelos de deteção de objectos têm de identificar peões, veículos e sinais de trânsito de vários tamanhos. Um modelo como o Ultralytics YOLO11 foi concebido com um campo recetivo suficientemente grande nas suas camadas mais profundas para detetar grandes camiões ou autocarros à distância, mantendo simultaneamente mapas de caraterísticas com campos receptivos mais pequenos para detetar objectos mais próximos e mais pequenos.

  • Análise de imagens médicas: Ao analisar exames médicos para deteção de tumores, o tamanho do campo recetivo deve ser ajustado à tarefa. A deteção de anomalias pequenas e subtis, como microcalcificações em mamografias, requer um modelo com extração de caraterísticas finas e campos receptivos mais pequenos. Para identificar tumores maiores numa ressonância magnética, é necessário um campo recetivo maior para captar o contexto completo da lesão e do tecido circundante.

Campo Recetivo vs. Conceitos Relacionados

Para compreender os campos receptivos é necessário distingui-los de termos relacionados:

  • Tamanho do kernel: O kernel (ou filtro) é uma pequena matriz de pesos que desliza sobre uma imagem para efetuar uma convolução. O tamanho do kernel é um hiperparâmetro direto, definido pelo utilizador (por exemplo, 3x3 ou 5x5). O campo recetivo, em contrapartida, é uma propriedade emergente que descreve a região cumulativa da entrada original que afecta a saída de um único neurónio após múltiplas camadas convolucionais e de pooling. Um tamanho de kernel maior numa camada resultará num campo recetivo maior.

  • Stride: Stride é o número de pixels que o núcleo convolucional move a cada passo. Um stride maior aumenta o tamanho do campo recetivo mais rapidamente à medida que se aprofunda a rede, uma vez que faz com que o mapa de caraterísticas de saída seja mais pequeno, resumindo efetivamente uma área maior da entrada.

  • Preenchimento: O preenchimento adiciona pixéis à volta do limite de uma imagem de entrada antes da convolução. Embora o seu objetivo principal seja controlar as dimensões espaciais do mapa de caraterísticas de saída, também influencia o campo recetivo, especialmente nas margens da imagem.

Ao treinar modelos personalizados com estruturas de aprendizagem profunda como PyTorch ou TensorFlow, os desenvolvedores devem considerar como esses elementos afetam coletivamente o campo recetivo para otimizar o desempenho de tarefas como segmentação de instância ou estimativa de pose. Plataformas como o Ultralytics HUB simplificam esse processo, fornecendo modelos e ambientes pré-configurados que são otimizados para uma ampla gama de tarefas de visão. Para obter insights técnicos mais profundos, recursos de organizações como a IEEE Computational Intelligence Society podem ser valiosos.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência