Aprenda como a convolução impulsiona a IA na visão computacional, permitindo tarefas como detecção de objetos, reconhecimento de imagem e imagem médica com precisão.
A convolução é uma operação matemática especializada que serve como bloco de construção fundamental dos sistemas modernos de sistemas modernos de visão computacional (CV). No contexto da inteligência artificial (IA), A convolução permite aos modelos processar dados em grelha, como imagens, filtrando sistematicamente as entradas para extrair padrões significativos. Ao contrário dos algoritmos tradicionais que exigem a definição manual de regras, a convolução permite que uma permite que uma rede neuronal aprenda automaticamente hierarquias espaciais de caraterísticas - desde simples arestas e texturas a formas complexas de objectos - imitando os processos biológicos processos biológicos observados no córtex visual do cérebro.
A operação funciona através do deslizamento de uma pequena matriz de números, conhecida como kernel ou filtro, através de uma imagem de entrada. Em cada posição, o núcleo efectua uma multiplicação por elementos com os valores dos pixels sobrepostos e soma os resultados para produzir um único pixel de saída. Este processo gera um mapa de caraterísticas, que destaca as áreas onde são padrões específicos são detectados.
Os principais parâmetros que definem o comportamento de uma convolução incluem:
A convolução é o principal motor das Redes Neuronais Convolucionais (CNNs). A sua importância reside em duas propriedades principais: partilha de parâmetros e e localidade espacial. Ao utilizar os mesmos pesos do modelo (kernel) em toda a imagem, a rede a rede permanece computacionalmente eficiente e capaz de invariância de translação, o que significa que pode reconhecer um objeto independentemente do local onde aparece na imagem. Esta eficiência permite arquitecturas arquitecturas sofisticadas como a YOLO11 efectuem inferência em tempo real em em tempo real em diversos tipos de hardware, desde poderosas GPUs até dispositivos de dispositivos de IA de ponta com recursos limitados.
A utilidade da convolução estende-se a praticamente todos os sectores que utilizam dados visuais:
É importante distinguir a convolução das camadas totalmente ligadas (densas). Numa camada totalmente ligada Numa camada totalmente ligada, cada neurónio de entrada liga-se a cada neurónio de saída, o que é computacionalmente dispendioso e ignora a estrutura espacial estrutura espacial das imagens. Por outro lado, a convolução preserva as relações espaciais e reduz drasticamente o número de parâmetros, evitando o sobreajuste em dados dados de elevada dimensão. Enquanto as camadas densas são frequentemente utilizadas para a classificação final, as camadas convolucionais tratam do trabalho pesado de extração de caraterísticas.
É possível visualizar a arquitetura convolucional dos detectores de objectos modernos utilizando o
ultralytics pacote. O código a seguir carrega um pacote
YOLO11 modelo e imprime a sua estrutura, revelando a
Conv2d camadas utilizadas para o processamento.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Print the model architecture to observe Conv2d layers
# These layers perform the convolution operations to extract features
print(model.model)