Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Apprentissage "One-Shot"

Découvrez l'apprentissage en un seul passage dans le domaine de l'IA. Apprenez à classify à partir d'une seule image à l'aide des réseaux Ultralytics et Siamese pour une vision par ordinateur efficace.

L'apprentissage en un seul essai (One-Shot Learning) est une technique de classification spécialisée dans le machine learning (ML) conçue pour apprendre des informations sur des catégories d'objets à partir d'un seul exemple d'entraînement. Contrairement aux algorithmes traditionnels de deep learning (DL), qui nécessitent des ensembles de données massifs contenant des milliers d'images annotées pour généraliser efficacement, l'apprentissage en un seul essai imite la capacité cognitive humaine à saisir instantanément un nouveau concept. Par exemple, une personne peut généralement reconnaître un oiseau exotique spécifique après l'avoir vu une seule fois ; cette méthodologie tente de reproduire cette efficacité dans les systèmes d'intelligence artificielle (IA). Elle est particulièrement utile dans les cas où l' étiquetage des données est coûteux, où les données sont rares ou où de nouvelles catégories doivent être ajoutées de manière dynamique sans avoir à réentraîner l'ensemble du modèle.

Mécanismes sous-jacents au concept

Le principe fondamental de l'apprentissage en une seule étape consiste à passer de la classification standard à l'évaluation de la similarité . Au lieu d'entraîner un réseau neuronal (NN) à produire une étiquette de classe spécifique (par exemple, « chien » ou « chat »), le modèle apprend une fonction de distance. Une architecture couramment utilisée à cette fin est le réseau neuronal siamois, qui se compose de deux sous-réseaux identiques partageant les mêmes poids de modèle.

Pendant son fonctionnement, le réseau effectue une extraction de caractéristiques afin de convertir les images d'entrée en vecteurs numériques compacts appelés « embeddings ». Le système compare ensuite l'embedding d'une nouvelle image de requête à l'embedding de l'image de référence unique « cliché » unique. Si la distance mathématique, souvent calculée à l'aide de la distance euclidienne ou de la similarité cosinus, est inférieure à un certain seuil, les images sont considérées comme appartenant à la même classe. Cela permet au modèle de vérifier l'identité ou classify en fonction de leur proximité dans l'espace des caractéristiques apprises.

Python suivant montre comment extraire des représentations et calculer la similarité à l'aide d'un YOLO26 à partir du modèle de classification de l ultralytics l'emballage.

import numpy as np
from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model for feature extraction
model = YOLO("yolo26n-cls.pt")

# Extract embeddings for a reference 'shot' and a query image
# The embed() method returns the feature vector directly
shot_vec = model.embed("reference_img.jpg")[0]
query_vec = model.embed("query_img.jpg")[0]

# Calculate similarity (higher dot product implies greater similarity)
similarity = np.dot(shot_vec, query_vec) / (np.linalg.norm(shot_vec) * np.linalg.norm(query_vec))

print(f"Similarity Score: {similarity:.4f}")

Distinguer les paradigmes connexes

Il est important de différencier l'apprentissage en un seul passage des autres techniques d'apprentissage efficaces en termes de données, car elles résolvent des problèmes similaires à travers différentes contraintes :

  • Apprentissage en quelques essais (FSL): Il s'agit d'une catégorie plus large qui englobe l'apprentissage en un seul essai. Dans le FSL, le modèle dispose d'un petit « ensemble de support » d'exemples, généralement compris entre deux et cinq images par classe. L'apprentissage en un seul essai est simplement le cas extrême où la taille de l'ensemble de support est exactement égale à un.
  • Apprentissage sans exemple (Zero-Shot Learning, ZSL): le ZSL traite de la reconnaissance de catégories que le modèle n' a jamais vues visuellement. Au lieu d'une image de référence, le ZSL s'appuie sur des attributs sémantiques ou des descriptions textuelles (par exemple, identifier un « zèbre » en associant des caractéristiques visuelles à la description textuelle « cheval rayé ») via le traitement du langage naturel (NLP).
  • Apprentissage par transfert: cela implique de prendre un modèle pré-entraîné sur une grande base de données telle que ImageNet et de l'ajuster à une nouvelle tâche. Alors que l' apprentissage par transfert alimente les extracteurs de caractéristiques utilisés dans l'apprentissage en un seul passage, l'apprentissage par transfert standard nécessite généralement plus d'un exemple pour mettre à jour efficacement les pondérations sans surajustement.

Applications concrètes

L'apprentissage en une seule fois a ouvert de nouvelles possibilités dans des secteurs où la collecte de grandes quantités de données d'apprentissage est peu pratique.

Reconnaissance faciale et sécurité

L'application la plus répandue de l'apprentissage en un seul passage est la sécurité biométrique. Lors de la configuration de Face ID sur un smartphone ou de l'inscription dans un système d'accès pour les employés, l'appareil capture une seule représentation mathématique du visage de l'utilisateur . Lors de l'utilisation quotidienne, le système de reconnaissance faciale compare l'image en direct de la caméra à cette « image unique » stockée afin de vérifier l'identité. Cela repose sur des techniques d'intégration robustes, telles que celles discutées dans la recherche fondamentale FaceNet, afin de garantir que les changements d'éclairage ou d'angle ne perturbent pas la correspondance de similarité.

Contrôle qualité industriel

Dans le domaine de l'IA appliquée à la fabrication, il est difficile de créer un ensemble de données équilibré de pièces « défectueuses », car les défauts sont rares et incohérents. L'apprentissage en un seul passage permet aux systèmes de vision par ordinateur (CV) d'apprendre la représentation d'une seule pièce de référence « parfaite ». Tout élément de la chaîne de montage qui produit un intégration très éloignée de cette référence est signalé pour la détection des anomalies. Cela permet d'assurer immédiatement la qualité sans avoir besoin de milliers d'images de pièces défectueuses, qui peuvent être gérées et déployées via la Ultralytics .

Défis et perspectives d'avenir

Bien que puissant, l'apprentissage en un seul passage est sensible au bruit ; si l'image de référence unique est floue, obstruée ou non représentative, la capacité du modèle à reconnaître cette classe se dégrade considérablement. Les chercheurs ont souvent recours au méta-apprentissage, ou « apprentissage de l'apprentissage », pour améliorer la stabilité et la généralisation des modèles. À mesure que les architectures évoluent, les modèles plus récents comme YOLO26 intègrent des extracteurs de caractéristiques plus robustes qui rendent l'inférence en un seul essai plus rapide et plus précise, ouvrant la voie à des dispositifs d'IA de pointe plus adaptatifs et plus intelligents .

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant