Glossário

Aprendizado One-Shot

Explore a aprendizagem One-Shot em IA. Aprenda a classify a partir de uma única imagem usando Ultralytics e redes Siamese para uma visão computacional eficiente.

A aprendizagem One-Shot é uma técnica de classificação especializada em aprendizagem automática (ML) concebida para aprender informações sobre categorias de objetos a partir de um único exemplo de treino. Ao contrário dos algoritmos tradicionais de aprendizagem profunda (DL), que requerem conjuntos de dados massivos contendo milhares de imagens anotadas para generalizar eficazmente, a aprendizagem One-Shot imita a capacidade cognitiva humana de compreender um novo conceito instantaneamente. Por exemplo, uma pessoa geralmente consegue reconhecer uma ave exótica específica depois de vê-la apenas uma vez; essa metodologia tenta replicar essa eficiência em sistemas de inteligência artificial (IA). Ela é particularmente valiosa em cenários em que a rotulagem de dados é cara, os dados são escassos ou novas categorias devem ser adicionadas dinamicamente sem retreinar todo o modelo.

Mecanismos por trás do conceito

O princípio central da aprendizagem One-Shot envolve mudar o objetivo da classificação padrão para a avaliação de similaridade . Em vez de treinar uma rede neural (NN) para produzir um rótulo de classe específico (por exemplo, «cão» ou «gato»), o modelo aprende uma função de distância. Uma arquitetura comum empregada para isso é a rede neural siamesa, que consiste em duas sub-redes idênticas que compartilham os mesmos pesos do modelo.

Durante a operação, a rede realiza a extração de características para converter imagens de entrada em vetores numéricos compactos conhecidos como embeddings. O sistema então compara o embedding de uma nova imagem de consulta com o embedding da única imagem de referência "foto". Se a distância matemática — frequentemente calculada usando a distância euclidiana ou a similaridade coseno— estiver abaixo de um determinado limite, as imagens são determinadas como pertencentes à mesma classe. Isso permite que o modelo verifique a identidade ou classify com base na sua proximidade no espaço de características aprendido.

Python a seguir demonstra como extrair embeddings e calcular a similaridade usando um YOLO26 modelo de classificação do ultralytics pacote.

import numpy as np
from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model for feature extraction
model = YOLO("yolo26n-cls.pt")

# Extract embeddings for a reference 'shot' and a query image
# The embed() method returns the feature vector directly
shot_vec = model.embed("reference_img.jpg")[0]
query_vec = model.embed("query_img.jpg")[0]

# Calculate similarity (higher dot product implies greater similarity)
similarity = np.dot(shot_vec, query_vec) / (np.linalg.norm(shot_vec) * np.linalg.norm(query_vec))

print(f"Similarity Score: {similarity:.4f}")

Distinguindo paradigmas relacionados

É importante diferenciar a aprendizagem One-Shot de outras técnicas de aprendizagem eficientes em termos de dados, uma vez que resolvem problemas semelhantes através de restrições diferentes:

Aprendizagem com poucos exemplos (FSL): Esta é a categoria mais ampla que engloba a aprendizagem com um único exemplo. Na FSL, o modelo recebe um pequeno «conjunto de suporte» de exemplos, normalmente variando de duas a cinco imagens por classe. A aprendizagem com um único exemplo é simplesmente o caso extremo em que o tamanho do conjunto de suporte é exatamente um.
Aprendizagem Zero-Shot (ZSL): A ZSL lida com o reconhecimento de categorias que o modelo nunca viu visualmente. Em vez de uma imagem de referência, a ZSL baseia-se em atributos semânticos ou descrições de texto (por exemplo, identificar uma «zebra» associando características visuais à descrição de texto «cavalo listrado») através do processamento de linguagem natural (NLP).
Aprendizagem por transferência: Isso envolve pegar um modelo pré-treinado em um grande banco de dados como o ImageNet e ajustá-lo para uma nova tarefa. Embora a aprendizagem por transferência alimente os extratores de características usados na aprendizagem One-Shot, a aprendizagem por transferência padrão geralmente requer mais de um exemplo para atualizar pesos de forma eficaz sem sobreajuste.

Aplicações no Mundo Real

A aprendizagem One-Shot desbloqueou capacidades em setores onde a recolha de grandes quantidades de dados de treino é impraticável.

Reconhecimento facial e segurança

A aplicação mais comum do One-Shot Learning é na segurança biométrica. Ao configurar o Face ID num smartphone ou ao inscrever-se num sistema de acesso de funcionários, o dispositivo captura uma única representação matemática do rosto do utilizador . Durante o uso diário, o sistema de reconhecimento facial compara a imagem ao vivo da câmara com essa "única captura" armazenada para verificar a identidade. Isso depende de técnicas de incorporação robustas, como as discutidas na pesquisa fundamental FaceNet, para garantir que mudanças na iluminação ou no ângulo não prejudiquem a correspondência de similaridade.

Controlo de qualidade industrial

Na IA na fabricação, criar um conjunto de dados equilibrado de peças "defeituosas" é difícil porque os defeitos são raros e inconsistentes. O One-Shot Learning permite que os sistemas de visão computacional (CV) aprendam a representação de uma única peça de referência "perfeita". Qualquer item na linha de montagem que produza uma incorporação significativamente distante dessa referência é sinalizado para detecção de anomalias. Isso permite a garantia imediata da qualidade sem a necessidade de milhares de imagens de peças defeituosas, que podem ser gerenciadas e implantadas por meio da Ultralytics .

Desafios e perspectivas futuras

Embora poderoso, o One-Shot Learning é suscetível a ruídos; se a única imagem de referência estiver desfocada, obstruída ou não representativa, a capacidade do modelo de reconhecer essa classe diminui significativamente. Os investigadores frequentemente empregam metaaprendizagem, ou «aprender a aprender», para melhorar a estabilidade e a generalização do modelo. À medida que as arquiteturas evoluem, modelos mais recentes, como o YOLO26, estão a incorporar extratores de recursos mais robustos que tornam a inferência one-shot mais rápida e precisa, abrindo caminho para dispositivos de IA de ponta mais adaptáveis e inteligentes .

Aprendizado One-Shot

Treine os modelosYOLO Ultralytics para simplificar os fluxos de trabalho em todos os sectores

Solução de licenciamento empresarial flexível para impulsionar sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Mecanismos por trás do conceito

Distinguindo paradigmas relacionados

Aplicações no Mundo Real

Reconhecimento facial e segurança

Controlo de qualidade industrial

Desafios e perspectivas futuras

Leia mais nesta categoria

12 casos de uso de imagens aéreas com tecnologia de visão computacional

O que é a estimativa de profundidade monocular? Uma visão geral

Uma análise sobre o usoYOLO Ultralytics para deteção de ameaças por IA

Junte-se à comunidade Ultralytics