Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Backbone

Descubra o papel dos backbones em deep learning, explore as principais arquiteturas como ResNet e ViT, e aprenda suas aplicações de IA no mundo real.

Um backbone é um componente central de um modelo de aprendizagem profunda, particularmente em visão computacional (CV). Funciona como a rede primária de extração de caraterísticas, concebida para pegar nos dados brutos de entrada, como uma imagem, e transformá-los num conjunto de caraterísticas de alto nível. Estes Estes mapas de caraterísticas captam padrões essenciais, como arestas, texturas texturas e formas. Esta representação rica é depois utilizada por partes subsequentes da rede para efetuar tarefas como deteção de objectos, segmentação de imagens ou classificação de imagens. A espinha dorsal é a base de uma rede neural (NN) que aprende a "ver" os elementos visuais fundamentais de uma imagem.

Como os Backbones Funcionam

Normalmente, um backbone é uma Rede Neuronal Convolucional (CNN) que foi pré-treinada num conjunto de dados de classificação em grande escala, como ImageNet. Este pré-treino, uma forma de transferência de aprendizagem, permite que a rede aprenda uma uma vasta biblioteca de caraterísticas visuais gerais. Ao desenvolver um modelo para uma tarefa nova e específica, os programadores utilizam frequentemente uma pré-treinado em vez de começar do zero. Esta abordagem reduz significativamente o tempo necessário para para treinar modelos personalizados e reduz os requisitos de dados, o que requisitos de dados, conduzindo frequentemente a um melhor desempenho. As caraterísticas extraídas pelo backbone são então passadas para o "pescoço" e a "cabeça" da rede, que efectuam um refinamento adicional e geram o resultado final. A escolha da A escolha da espinha dorsal é muitas vezes um compromisso entre precisão, tamanho do modelo e latência de inferência, um fator crítico para para alcançar desempenho em tempo real.

O código a seguir demonstra como um Ultralytics YOLO11 pré-treinado, que contém um modelo eficiente, pode ser carregado e utilizado para inferência numa imagem.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model. Its architecture includes a powerful backbone.
model = YOLO("yolo11n.pt")

# Run inference. The backbone processes the image to extract features for detection.
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Arquiteturas Comuns de Backbone

A conceção dos backbones evoluiu significativamente, com cada nova arquitetura a oferecer melhorias no desempenho e na eficiência. Algumas das arquitecturas de backbone mais influentes incluem:

  • Redes residuais (ResNet): Introduzidos pela Microsoft Research, os modelos ResNet utilizam "ligações de salto" para permitir o treino de redes muito mais profundas, atenuando o problema do gradiente de desaparecimento desaparecimento.
  • EfficientNet: Desenvolvida pela Google AI, esta família de modelos utiliza um método de escalonamento composto que equilibra uniformemente a profundidade, a largura e a resolução da rede para criar modelos que são altamente precisos e computacionalmente eficientes.
  • Transformador de Visão (ViT): Esta arquitetura adapta o modelo modelo Transformer do processamento de linguagem natural (PNL) para tarefas de visão. Os ViTs processam as imagens como sequências de manchas e utilizam a a auto-atenção para captar o contexto global, uma contexto global, um afastamento dos campos receptivos locais das CNNs tradicionais.
  • CSPNet (Cross Stage Partial Network): Conforme detalhado no seu artigo original, esta arquitetura melhora a eficiência da aprendizagem partição de mapas de caraterísticas para reduzir os estrangulamentos computacionais. É um componente-chave em muitos modelos Ultralytics YOLO da Ultralytics.

Backbone vs. Cabeça e Pescoço

Nas modernas arquitecturas modernas de deteção de objectos, o é normalmente dividido em três partes principais:

  1. Espinha dorsal: Como base, o seu papel é extrair mapas de caraterísticas a várias escalas da imagem de entrada. imagem de entrada.
  2. Pescoço: Este componente liga a espinha dorsal à cabeça. Aperfeiçoa e agrega as caraterísticas da da espinha dorsal, combinando frequentemente informações de diferentes camadas para criar uma representação mais rica. Um exemplo comum é a Feature Pyramid Network (FPN).
  3. Cabeça de deteção: Esta é a parte final parte final da rede. Pega nas caraterísticas refinadas do pescoço e executa a tarefa principal, como a previsão das caixas delimitadoras, rótulos de classe e pontuações de confiança para cada objeto.

A espinha dorsal é, por conseguinte, o elemento fundamental de todo o modelo. É possível explorar uma variedade de comparações de modelos comparações de modelosYOLO para ver como diferentes escolhas de arquitetura afectam o desempenho.

Aplicações no Mundo Real

Os backbones são componentes essenciais em inúmeras aplicações de IA em vários sectores:

  1. Veículos autónomos: Em veículos autónomos, os backbones robustos como o ResNet ou variantes da EfficientNet processam imagens de câmaras para detect e classify outros veículos, peões e e sinais de trânsito. Essa extração de recursos é fundamental para a navegação e a tomada de decisões do veículo, como demonstrado em sistemas desenvolvidos por empresas como a Waymo.
  2. Análise de imagens médicas: Nas soluções de IA para os cuidados de saúde, os backbones são utilizados para analisar exames médicos como radiografias e ressonâncias magnéticas. Por exemplo, um backbone pode extrair caraterísticas de uma radiografia de tórax para ajudar a identificar sinais de pneumonia ou de uma tomografia computadorizada para encontrar possíveis tumores, conforme destacado na pesquisa da Radiologia: Inteligência Artificial. Isto ajuda os radiologistas a mais rápidos e precisos, e modelos como o YOLO11 podem ser aperfeiçoados para tarefas especializadas, como a deteção de tumores. deteção de tumores.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora