Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Tek Çekim Öğrenimi

Tek Atış Öğrenimi'nin (One-Shot Learning) gücünü keşfedin. Bu devrim niteliğindeki yapay zeka tekniği, modellerin gerçek dünya uygulamaları için minimal veriden genelleme yapmasını sağlar.

Tek Seferde Öğrenme (OSL), aşağıdaki konularda gelişmiş bir yaklaşımdır Bir modelin tasarlandığı makine öğrenimi (ML) Sadece tek bir etiketli örnek verildiğinde yeni nesneleri tanımak ve kategorize etmek. Gelenekselin aksine gerektiren derin öğrenme (DL) yöntemleri yüksek eğitim verisi elde etmek için eğitim verisi havuzları doğruluğu sayesinde OSL, insanların yeni bir kavramı sadece bir kez gördükten sonra anında kavrama yeteneğini taklit eder. Bu yeteneği özellikle aşağıdaki uygulamalarda çok önemlidir veri etiketleme pahalıdır, veri azdır veya yeni kategoriler, kimlik doğrulama veya nadir anormalliklerin belirlenmesi gibi dinamik olarak ortaya çıkar.

Tek Seferlik Öğrenme Mekanizmaları

OSL'nin arkasındaki temel mekanizma, problemi sınıflandırmadan fark değerlendirmesine kaydırmayı içerir. Bunun yerine Belirli sınıfları ("kedi" ve "köpek" gibi) ezberlemek için bir modeli eğitmek, sistem bir benzerlik fonksiyonu. Bu genellikle bir olarak bilinen sinir ağı (NN) mimarisi Siyam Ağı. Siyam Ağları, aynı alt ağları paylaşan özdeş alt ağları kullanır iki farklı girdi görüntüsünü işlemek için model ağırlıkları Aynı anda.

Bu işlem sırasında ağ, yüksek boyutlu girdileri (görüntüler gibi) kompakt, düşük boyutlu vektörlere dönüştürür gömme olarak bilinir. Eğer iki görüntü aynı aynı sınıftaysa, ağ vektör uzayında gömülmelerini birbirine yakın konumlandıracak şekilde eğitilir. Tersine, eğer farklı olduklarında, gömülmeleri birbirinden ayrılır. Bu süreç büyük ölçüde etkili bir benzersiz özü yakalamak için özellik çıkarma bir nesnenin. Çıkarım zamanında, yeni bir görüntü, gömülü olduğu tek kayıtlı görüntü ile karşılaştırılarak sınıflandırılır. gibi bir mesafe metriği kullanarak her bir sınıfın "atışını" Öklid mesafesi veya kosinüs benzerliği.

Aşağıdaki Python kod parçacığı, katıştırmaların nasıl çıkarılacağını göstermektedir YOLO11 arasındaki benzerliği hesaplar ve bilinen bir "shot" ve yeni bir sorgu görüntüsü.

import numpy as np
from ultralytics import YOLO

# Load a pre-trained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Extract embeddings for a 'shot' (reference) and a 'query' image
# The model returns a list of results; we access the first item
shot_result = model.embed("reference_image.jpg")[0]
query_result = model.embed("test_image.jpg")[0]

# Calculate Cosine Similarity (1.0 = identical, -1.0 = opposite)
# High similarity suggests the images belong to the same class
similarity = np.dot(shot_result, query_result) / (np.linalg.norm(shot_result) * np.linalg.norm(query_result))

print(f"Similarity Score: {similarity:.4f}")

İlgili Öğrenme Paradigmalarını Ayırt Etme

OSL'yi anlamak, onu diğer düşük verili öğrenme tekniklerinden ayırmayı gerektirir. Her ne kadar hedeflerini paylaşsalar da verimlilik, kısıtlamaları önemli ölçüde farklılık göstermektedir:

  • Az Atışlı Öğrenme (FSL): Bu OSL'yi kapsayan daha geniş bir kategoridir. FSL'de modele küçük bir örnek kümesi sunulur - tipik olarak sınıf başına iki ile beş arasında değişir. OSL, örnek sayısının ($k$) eşit olduğu FSL'nin en uç durumudur Bir.
  • Zero-Shot Learning (ZSL): ZSL modelin görsel olarak hiç görmediği sınıfları tanımlamasını gerektirerek veri kıtlığını bir adım öteye taşır. Bu dayanır anlamsal arama ve meta veriler üzerinde, ilişkilendirme metinsel açıklamalarla görsel özellikler (örneğin, bir "zebra "nın "zebra "ya benzediğini bilerek onu tanımlamak) "çizgili at").
  • Transfer Öğrenimi: Bu gibi büyük bir veri kümesi üzerinde önceden eğitilmiş bir modelin alınmasını içerir. ImageNetve Daha küçük, göreve özgü bir veri kümesi üzerinde ince ayar yapmak. Transfer Öğrenimi veri gereksinimlerini azaltırken, genellikle hala tek bir örnekten daha fazlasına ihtiyaç duyar. aşırı uyum.

Gerçek Dünya Uygulamaları

One-Shot Learning şunları sağladı yapay zekanın (AI) çalışması için Modellerin yeniden eğitilmesinin pratik olmadığı dinamik ortamlarda.

  1. Yüz Tanıma: En çok yaygın kullanım alanı biyometrik güvenliktir. Bir kullanıcı yüzünü bir akıllı telefona kaydettiğinde, cihaz bir tek referans gösterimi ("tek atış"). Daha sonra, sistem OSL prensiplerini kullanarak canlı yayını depolanan referansla karşılaştırarak kullanıcının kimliğini önemli ölçüde geliştirir veri güvenliği. Bu yöntem şu kişiler tarafından popülerleştirilmiştir Google'ın FaceNet makalesi gibi araştırmalarda üçlü öğrenmeyi yerleştirmek için kayıp.
  2. Endüstriyel Kalite Kontrol: Üretimde kusurlar son derece nadir ve çeşitli olabilir. Bu için kırık parçalardan oluşan geniş bir veri kümesi toplamak zordur. geleneksel eğitim. OSL, bir görünümü öğrenmek için bilgisayar görüş sistemi bir referans görüntüden "mükemmel" bir parça. Yerleştirme uzayında önemli ölçüde sapma gösteren herhangi bir parça bir anomali algılama olayı olarak işaretlenir, yeni üretim hatlarında anında kalite güvencesi sağlar.

Zorluklar ve Geleceğe Bakış

Yararlı olmasına rağmen, Tek Atışta Öğrenme genelleme konusunda zorluklarla karşılaşmaktadır. Çünkü model bir sınıf çıkarır Tek bir örnekten yola çıkarak, bu referans görüntüdeki gürültü veya aykırı değerlere karşı hassastır. Araştırmacılar genellikle meta-öğrenme ya da "öğrenmeyi öğrenme" bu modellerin istikrarını artırır. Gibi çerçeveler PyTorch ve TensorFlow bu gelişmiş teknolojileri desteklemek için sürekli gelişmektedir. mimarileri. Bunlara ek olarak sentetik veriler tek atışı güçlendirmeye yardımcı olabilir, modelin öğrenmesi için daha sağlam bir temsil sağlar.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın