Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التعلم بلقطة واحدة (One-Shot Learning)

استكشف التعلم من مرة واحدة في مجال الذكاء الاصطناعي. تعلم كيفية classify من صورة واحدة باستخدام شبكات Ultralytics و Siamese من أجل رؤية حاسوبية فعالة.

التعلم من مرة واحدة هو تقنية تصنيف متخصصة في التعلم الآلي (ML) مصممة لتعلم معلومات حول فئات الكائنات من مثال تدريبي واحد. على عكس خوارزميات التعلم العميق (DL) التقليدية، التي تتطلب مجموعات بيانات ضخمة تحتوي على آلاف الصور المُعلقة لتعميمها بشكل فعال، فإن التعلم من مرة واحدة يحاكي القدرة الإدراكية البشرية على فهم مفهوم جديد على الفور. على سبيل المثال، يمكن للشخص عادةً التعرف على طائر غريب معين بعد رؤيته مرة واحدة فقط؛ وتحاول هذه المنهجية تكرار هذه الكفاءة في أنظمة الذكاء الاصطناعي (AI). وهي ذات قيمة خاصة في السيناريوهات التي تكون فيها عملية تسمية البيانات مكلفة، أو تكون البيانات نادرة، أو يجب إضافة فئات جديدة بشكل ديناميكي دون إعادة تدريب النموذج بأكمله.

الآليات الكامنة وراء المفهوم

المبدأ الأساسي للتعلم أحادي الخطوة ينطوي على تحويل الهدف من التصنيف القياسي إلى تقييم التشابه . بدلاً من تدريب شبكة عصبية (NN) لإخراج تسمية فئة محددة (على سبيل المثال، "كلب" أو "قطة")، يتعلم النموذج وظيفة المسافة. البنية الشائعة المستخدمة لهذا الغرض هي الشبكة العصبية السيامية، التي تتكون من شبكتين فرعيتين متطابقتين تشتركان في نفس أوزان النموذج.

أثناء التشغيل، تقوم الشبكة باستخراج الميزات لتحويل الصور المدخلة إلى متجهات رقمية مدمجة تُعرف باسم التضمينات. ثم يقارن النظام تضمين صورة استعلام جديدة بتضمين الصورة المرجعية "اللقطة". إذا كانت المسافة الرياضية — التي غالبًا ما تُحسب باستخدام المسافة الإقليدية أو تشابه جيب التمام— أقل من عتبة معينة، يتم تحديد أن الصور تنتمي إلى نفس الفئة. وهذا يسمح للنموذج بالتحقق من الهوية أو classify بناءً على قربها في مساحة السمات المكتسبة.

يوضح Python التالي كيفية استخراج التضمينات وحساب التشابه باستخدام يولو26 نموذج التصنيف من ultralytics الحزمة.

import numpy as np
from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model for feature extraction
model = YOLO("yolo26n-cls.pt")

# Extract embeddings for a reference 'shot' and a query image
# The embed() method returns the feature vector directly
shot_vec = model.embed("reference_img.jpg")[0]
query_vec = model.embed("query_img.jpg")[0]

# Calculate similarity (higher dot product implies greater similarity)
similarity = np.dot(shot_vec, query_vec) / (np.linalg.norm(shot_vec) * np.linalg.norm(query_vec))

print(f"Similarity Score: {similarity:.4f}")

تمييز النماذج ذات الصلة

من المهم التمييز بين التعلم أحادي الخطوة وتقنيات التعلم الأخرى الفعالة من حيث البيانات، حيث إنها تحل مشاكل مماثلة من خلال قيود مختلفة:

  • التعلم من عدة لقطات (FSL): هذه هي الفئة الأوسع التي تشمل التعلم من لقطة واحدة. في FSL، يتم تزويد النموذج بمجموعة صغيرة من الأمثلة "الداعمة "، تتراوح عادةً من صورتين إلى خمس صور لكل فئة. التعلم من لقطة واحدة هو ببساطة الحالة القصوى حيث يكون حجم المجموعة الداعمة واحدًا بالضبط.
  • التعلم بدون تدريب (ZSL): يتعامل ZSL مع التعرف على الفئات التي لم يرها النموذج بصريًا من قبل. بدلاً من الصورة المرجعية، يعتمد ZSL على السمات الدلالية أو الأوصاف النصية (على سبيل المثال، تحديد "الزرافة" من خلال ربط السمات البصرية بالوصف النصي "حصان مخطط") عبر معالجة اللغة الطبيعية (NLP).
  • التعلم النقلي: يتضمن هذا أخذ نموذج تم تدريبه مسبقًا على قاعدة بيانات كبيرة مثل ImageNet وتعديله ليتناسب مع مهمة جديدة. في حين أن التعلم النقلي يدعم مستخلصات الميزات المستخدمة في التعلم أحادي المرة، فإن التعلم النقلي القياسي عادةً ما يتطلب أكثر من مثال واحد لتحديث الأوزان بشكل فعال دون الإفراط في التكيف.

تطبيقات واقعية

أطلق التعلم من مرة واحدة العنان لقدرات في قطاعات حيث جمع كميات هائلة من بيانات التدريب أمر غير عملي.

التعرف على الوجه والأمن

التطبيق الأكثر انتشارًا لتقنية One-Shot Learning هو في مجال الأمن البيومتري. عند إعداد Face ID على هاتف ذكي أو التسجيل في نظام وصول الموظفين، يلتقط الجهاز تمثيلًا رياضيًا واحدًا لوجه المستخدم . أثناء الاستخدام اليومي، يقارن نظام التعرف على الوجه الصور الحية للكاميرا مع هذا التمثيل "اللقطي" المخزن للتحقق من الهوية. يعتمد هذا على تقنيات تضمين قوية، مثل تلك التي تمت مناقشتها في البحث الأساسي FaceNet، لضمان ألا تؤدي التغييرات في الإضاءة أو الزاوية إلى كسر تطابق التشابه.

مراقبة الجودة الصناعية

في مجال الذكاء الاصطناعي في التصنيع، يصعب إنشاء مجموعة بيانات متوازنة للأجزاء "المعيبة" لأن العيوب نادرة وغير متسقة. يتيح التعلم أحادي المرة لأنظمة الرؤية الحاسوبية (CV) تعلم تمثيل جزء مرجعي "مثالي" واحد. يتم وضع علامة على أي عنصر على خط التجميع ينتج عنه تضمين بعيد بشكل كبير عن هذا المرجع من أجل الكشف عن الشذوذ. وهذا يتيح ضمان الجودة الفوري دون الحاجة إلى آلاف الصور للأجزاء المكسورة، والتي يمكن إدارتها ونشرها عبر Ultralytics .

التحديات والتوقعات المستقبلية

على الرغم من قوة التعلم أحادي اللقطة، إلا أنه عرضة للتشويش؛ فإذا كانت الصورة المرجعية الوحيدة ضبابية أو معوقة أو غير تمثيلية، فإن قدرة النموذج على التعرف على تلك الفئة تتدهور بشكل كبير. غالبًا ما يستخدم الباحثون التعلم التلوي، أو "التعلم من أجل التعلم"، لتحسين استقرار النموذج وتعميمه. مع تطور البنى، تدمج النماذج الأحدث مثل YOLO26 مستخلصات ميزات أكثر قوة تجعل الاستدلال من مرة واحدة أسرع وأكثر دقة، مما يمهد الطريق لأجهزة ذكاء اصطناعي أكثر تكيفًا وذكاءً .

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن