Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Apprentissage "One-Shot"

Découvrez la puissance de l'apprentissage "One-Shot", une technique d'IA révolutionnaire permettant aux modèles de généraliser à partir de données minimales pour des applications concrètes.

Le One-Shot Learning (OSL) est une approche sophistiquée de l'apprentissage automatique. de l 'apprentissage machine (ML) où un modèle est conçu un modèle est conçu pour reconnaître et catégoriser de nouveaux objets à partir d'un seul exemple étiqueté. Contrairement aux méthodes traditionnelles d'apprentissage profond (DL) qui nécessitent de données d'entraînement pour atteindre une précision, l'OSL imite la capacité cognitive humaine à saisir instantanément un nouveau concept après l'avoir vu une seule fois. Cette capacité Cette capacité est particulièrement cruciale pour les applications où l'étiquetage des données est coûteux et où les données sont rares. l'étiquetage des données est coûteux, les données sont rares ou de catégories apparaissent de manière dynamique, comme dans la vérification d'identité ou l'identification d'anomalies rares.

Mécanismes d'apprentissage ponctuel

Le mécanisme de base de l'OSL consiste à déplacer le problème de la classification vers l'évaluation des différences. Au lieu de d'entraîner un modèle à mémoriser des classes spécifiques (comme "chat" ou "chien"), le système apprend une fonction de similarité. fonction de similarité. Pour ce faire, on utilise souvent une architecture de réseau neuronal (RN). architecture de réseau neuronal (RN) connue sous le nom de réseau siamois. réseau siamois. Les réseaux siamois utilisent des sous-réseaux identiques qui partagent les mêmes poids de modèle pour traiter deux entrées distinctes. pour traiter simultanément deux images d'entrée distinctes. simultanément.

Au cours de ce processus, le réseau convertit les données d'entrée à haute dimension (comme les images) en vecteurs compacts à basse dimension, appelés "embeddings". compacts à faible dimension, appelés " embeddings". Si les deux images appartiennent à la même Si les deux images appartiennent à la même classe, le réseau est entraîné à positionner leurs encastrements à proximité l'un de l'autre dans l'espace vectoriel. Inversement, si si elles sont différentes, leurs encastrements sont éloignés les uns des autres. Ce processus s'appuie fortement sur une efficace pour capturer l'essence unique d'un objet. d'un objet. Au moment de l'inférence, une nouvelle image est classée en comparant son intégration à l'unique "de chaque classe à l'aide d'une métrique de distance, telle que la distance la distance euclidienne ou la similarité en cosinus.

L'extrait Python suivant illustre la manière d'extraire les encastrements à l'aide de la fonction YOLO11 et de calculer la similarité entre un "cliché" connu et une nouvelle image d'interrogation. "connue et une nouvelle image d'interrogation.

import numpy as np
from ultralytics import YOLO

# Load a pre-trained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Extract embeddings for a 'shot' (reference) and a 'query' image
# The model returns a list of results; we access the first item
shot_result = model.embed("reference_image.jpg")[0]
query_result = model.embed("test_image.jpg")[0]

# Calculate Cosine Similarity (1.0 = identical, -1.0 = opposite)
# High similarity suggests the images belong to the same class
similarity = np.dot(shot_result, query_result) / (np.linalg.norm(shot_result) * np.linalg.norm(query_result))

print(f"Similarity Score: {similarity:.4f}")

Distinguer les paradigmes d'apprentissage apparentés

Pour comprendre la méthode OSL, il faut la distinguer des autres techniques d'apprentissage à faible volume de données. Bien qu'elles partagent l'objectif d'efficacité l'efficacité, leurs contraintes diffèrent considérablement :

  • Apprentissage à la petite semaine (FSL): Il s'agit de la catégorie la plus large qui englobe l'OSL. est la catégorie la plus large qui englobe l'OSL. En FLS, le modèle reçoit un petit ensemble d'exemples, généralement entre deux et cinq par classe. entre deux et cinq par classe. L'OSL est simplement le cas le plus extrême de FSL où le nombre d'exemples ($k$) est égal à un. un.
  • Zero-Shot Learning (ZSL): ZSL va encore plus loin en demandant au modèle d'identifier des classes qu'il n'a jamais vues visuellement. Il s'appuie sur la recherche sémantique et les métadonnées, en associant des caractéristiques visuelles à des descriptions textuelles (par exemple, identifier un "zèbre" en sachant qu'il ressemble à un "cheval rayé"). "cheval rayé").
  • Apprentissage par transfert: Il s'agit consiste à prendre un modèle pré-entraîné sur un ensemble massif de données, tel que le ImageNetet et de l'affiner sur un ensemble de données plus petit et spécifique à une tâche. Bien que l'apprentissage par transfert réduise les exigences en matière de données, il nécessite généralement plus d'un seul exemple pour éviter le surajustement. surajustement.

Applications concrètes

L'apprentissage en une seule fois a permis à l'intelligence l 'intelligence artificielle (IA) de fonctionner dans des environnements dynamiques où le recyclage des modèles n'est pas pratique.

  1. Reconnaissance faciale: Le cas d'utilisation le plus courant est la sécurité biométrique. le plus courant est la sécurité biométrique. Lorsqu'un utilisateur enregistre son visage sur un smartphone, l'appareil capture une seule représentation de référence ("one shot"). représentation de référence unique ("one shot"). Par la suite, le système utilise les principes OSL pour vérifier l'identité de l'utilisateur en comparant la représentation de référence à celle de l'utilisateur. l'identité de l'utilisateur en comparant le flux en direct à cette référence stockée, ce qui améliore considérablement la sécurité des données. sécurité des données. Cette méthode a été popularisée par par des recherches telles que l'article FaceNet de Google, qui utilise la perte de triplet pour l'apprentissage de l'intégration. pour l'apprentissage de l'intégration.
  2. Contrôle de la qualité industrielle : Dans le domaine de la fabrication, les défauts peuvent être extrêmement rares et variés. Il est difficile de collecter un grand nombre de pièces cassées pour une formation traditionnelle. L'OSL permet à un système de vision par ordinateur d'apprendre l'apparence d'une pièce "parfaite" à partir d'une image de référence. d'une pièce "parfaite" à partir d'une image de référence. Toute pièce qui dévie de manière significative dans l'espace d'intégration est signalée comme un événement de détection d'anomalie, ce qui permet une assurance qualité immédiate sur les nouvelles lignes de production.

Défis et perspectives d'avenir

Malgré son utilité, le One-Shot Learning est confronté à des problèmes de généralisation. Étant donné que le modèle déduit une classe à partir d'une seule instance, il est sensible au bruit ou aux valeurs aberrantes de l'image de référence. Les chercheurs ont souvent recours au méta-apprentissage, ou "apprendre à apprendre", afin d'améliorer la stabilité de ces modèles. pour améliorer la stabilité de ces modèles. Des cadres tels que PyTorch et TensorFlow évoluent en permanence pour prendre en charge ces architectures avancées. En outre, l'intégration de des données synthétiques peut aider à augmenter le cliché unique, une représentation plus robuste à partir de laquelle le modèle peut apprendre.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant