Glossário

Cabeçalho de Detecção

Descubra o papel crítico dos detection heads na detecção de objetos, refinando os mapas de características para identificar com precisão as localizações e classes dos objetos.

Uma cabeça de deteção é o componente final e talvez o mais crítico de um modelo de deteção de objectos, servindo como camada de decisão que traduz as caraterísticas da imagem codificada em previsões acionáveis. Localizada no final de uma rede neural de rede neural de aprendizagem profunda, especificamente depois da a espinha dorsal e o pescoço, a cabeça de deteção processa mapas de de alto nível para produzir o resultado final: a classe do objeto o objeto e a sua localização precisa na imagem. Enquanto as camadas anteriores da rede se concentram na extração de caraterísticas identificar arestas, texturas e padrões complexos - a cabeça de deteção interpreta estes dados para responder a "o que é?" e "onde está?"

Funcionalidade e arquitetura

A principal responsabilidade de uma cabeça de deteção é a realização de duas tarefas distintas mas simultâneas: classificação e regressão. Nas modernas arquitecturas modernas de deteção de objectos, Estas tarefas são frequentemente tratadas por ramos separados dentro da cabeça, uma escolha de design que permite ao modelo especializar-se em diferentes aspectos da previsão.

Ramo de classificação: Este subcomponente atribui uma pontuação de probabilidade a várias categorias (por exemplo, "pessoa", "bicicleta", "semáforo"). Utiliza uma função de função de perda, como a perda de entropia cruzada, para aprender a diferença entre as classes.
Ramo de Regressão: Esta parte da cabeça prevê as coordenadas espaciais da caixa delimitadora que envolve o objeto. Ela refina as dimensões dimensões da caixa (x, y, largura, altura) para se alinharem com a verdade terrestre, minimizando frequentemente a perda de Perda de intersecção sobre união (IoU).

A saída da cabeça de deteção é normalmente um conjunto denso de detecções candidatas. Para finalizar os resultados, etapas de pós-processamento como a Supressão Não Máxima (NMS) são para filtrar as caixas sobrepostas e reter apenas as previsões mais fiáveis.

Tipos de cabeças de deteção

A conceção da cabeça de deteção determina a forma como um modelo aborda o problema da localização de objectos.

Cabeças baseadas em âncoras: Os tradicionais detectores de objectos tradicionais de uma fase, como as primeiras versões YOLO dependem de caixas de ancoragem predefinidas. A cabeça prevê deslocações a partir destas caixas de referência fixas. Embora eficaz, esta abordagem requer uma afinação cuidadosa dos hiperparâmetros de ancoragem.
Cabeças sem âncora: Modelos topo de gama, incluindo Ultralytics YOLO11utilizam detectores sem âncoras. Estas cabeças prevêem Estes detectores prevêem os centros e tamanhos dos objectos diretamente a partir dos pixels do mapa de caraterísticas, sem depender de caixas predefinidas. Isto simplifica significativamente simplifica significativamente a arquitetura do modelo e melhora a generalização entre diferentes formas de objectos.

Aplicações no Mundo Real

A eficiência e a precisão da cabeça de deteção são vitais para a implantação da inteligência artificial (IA) em ambientes complexos.

Diagnóstico médico: Na análise de imagens médicas, as cabeças de deteção são treinadas para identificar anomalias, como tumores ou fracturas, em radiografias e exames de ressonância magnética. Por exemplo, A IA nos cuidados de saúde baseia-se em cabeças de alta precisão para reduzir os falsos negativos, ajudando os radiologistas na deteção precoce de doenças.
Análise de retalho: As lojas inteligentes utilizam a visão por computador para track o inventário e monitorizar o comportamento dos clientes. As cabeças de deteção em IA para aplicações de retalho podem identificar produtos específicos nas prateleiras ou detect comportamentos suspeitos para prevenção de perdas, processando feeds de vídeo em tempo real.

Deteção de cabeça vs. coluna vertebral e pescoço

É útil distinguir a cabeça de deteção dos outros componentes principais de uma Rede Neuronal Convolucional (CNN):

Backbone: A espinha dorsal (por exemplo, ResNet ou CSPDarknet) é responsável pela extração de caraterísticas visuais brutas da imagem de entrada.
Pescoço: O pescoço, frequentemente uma rede piramidal de caraterísticas (FPN), mistura e refina estas caraterísticas para agregar o contexto a diferentes escalas.
Cabeça: A cabeça de deteção consome estas caraterísticas refinadas para gerar a classe final e coordenar previsões.

Exemplo de implementação

O seguinte trecho de código Python demonstra como inspecionar a cabeça de deteção de um modelo YOLO11 pré-treinado utilizando o ultralytics pacote. Isto ajuda os utilizadores a compreender a estrutura da camada final responsável pela inferência.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Inspect the final detection head layer
# This typically reveals the number of classes (nc) and anchors/outputs
print(model.model.model[-1])

# Run inference to see the head's output in action
results = model("https://ultralytics.com/images/bus.jpg")

Compreender a cabeça de deteção é essencial para quem pretende otimizar o desempenho do modelo ou efetuar tarefas avançadas como a aprendizagem por transferência, em que a cabeça é frequentemente substituída para treinar o modelo num novo conjunto de dados personalizado. Os investigadores experimentam continuamente novos designs de cabeça para melhorar métricas como precisão média média (mAP), alargando os limites do que a visão computacional pode alcançar.

Cabeçalho de Detecção

Treine os modelosYOLO Ultralytics para simplificar os fluxos de trabalho em todos os sectores

Solução de licenciamento empresarial flexível para impulsionar sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Funcionalidade e arquitetura

Tipos de cabeças de deteção

Aplicações no Mundo Real

Deteção de cabeça vs. coluna vertebral e pescoço

Exemplo de implementação

Leia mais nesta categoria

Compreender por que a anotação humana no ciclo é fundamental

O que é destilação de conjuntos de dados? Uma rápida visão geral

Os óculos Oakley Meta AI estão a redefinir os óculos com a Vision AI

Junte-se à comunidade Ultralytics