Descubra o papel dos backbones em deep learning, explore as principais arquiteturas como ResNet e ViT, e aprenda suas aplicações de IA no mundo real.
Um backbone é um componente central de um modelo de aprendizagem profunda, particularmente em visão computacional (CV). Funciona como a rede primária de extração de caraterísticas, concebida para pegar nos dados brutos de entrada, como uma imagem, e transformá-los num conjunto de caraterísticas de alto nível. Estes Estes mapas de caraterísticas captam padrões essenciais, como arestas, texturas texturas e formas. Esta representação rica é depois utilizada por partes subsequentes da rede para efetuar tarefas como deteção de objectos, segmentação de imagens ou classificação de imagens. A espinha dorsal é a base de uma rede neural (NN) que aprende a "ver" os elementos visuais fundamentais de uma imagem.
Normalmente, um backbone é uma Rede Neuronal Convolucional (CNN) que foi pré-treinada num conjunto de dados de classificação em grande escala, como ImageNet. Este pré-treino, uma forma de transferência de aprendizagem, permite que a rede aprenda uma uma vasta biblioteca de caraterísticas visuais gerais. Ao desenvolver um modelo para uma tarefa nova e específica, os programadores utilizam frequentemente uma pré-treinado em vez de começar do zero. Esta abordagem reduz significativamente o tempo necessário para para treinar modelos personalizados e reduz os requisitos de dados, o que requisitos de dados, conduzindo frequentemente a um melhor desempenho. As caraterísticas extraídas pelo backbone são então passadas para o "pescoço" e a "cabeça" da rede, que efectuam um refinamento adicional e geram o resultado final. A escolha da A escolha da espinha dorsal é muitas vezes um compromisso entre precisão, tamanho do modelo e latência de inferência, um fator crítico para para alcançar desempenho em tempo real.
O código a seguir demonstra como um Ultralytics YOLO11 pré-treinado, que contém um modelo eficiente, pode ser carregado e utilizado para inferência numa imagem.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model. Its architecture includes a powerful backbone.
model = YOLO("yolo11n.pt")
# Run inference. The backbone processes the image to extract features for detection.
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
A conceção dos backbones evoluiu significativamente, com cada nova arquitetura a oferecer melhorias no desempenho e na eficiência. Algumas das arquitecturas de backbone mais influentes incluem:
Nas modernas arquitecturas modernas de deteção de objectos, o é normalmente dividido em três partes principais:
A espinha dorsal é, por conseguinte, o elemento fundamental de todo o modelo. É possível explorar uma variedade de comparações de modelos comparações de modelosYOLO para ver como diferentes escolhas de arquitetura afectam o desempenho.
Os backbones são componentes essenciais em inúmeras aplicações de IA em vários sectores: