استكشف التعلم من مرة واحدة في مجال الذكاء الاصطناعي. تعلم كيفية classify من صورة واحدة باستخدام شبكات Ultralytics و Siamese من أجل رؤية حاسوبية فعالة.
التعلم من مرة واحدة هو تقنية تصنيف متخصصة في التعلم الآلي (ML) مصممة لتعلم معلومات حول فئات الكائنات من مثال تدريبي واحد. على عكس خوارزميات التعلم العميق (DL) التقليدية، التي تتطلب مجموعات بيانات ضخمة تحتوي على آلاف الصور المُعلقة لتعميمها بشكل فعال، فإن التعلم من مرة واحدة يحاكي القدرة الإدراكية البشرية على فهم مفهوم جديد على الفور. على سبيل المثال، يمكن للشخص عادةً التعرف على طائر غريب معين بعد رؤيته مرة واحدة فقط؛ وتحاول هذه المنهجية تكرار هذه الكفاءة في أنظمة الذكاء الاصطناعي (AI). وهي ذات قيمة خاصة في السيناريوهات التي تكون فيها عملية تسمية البيانات مكلفة، أو تكون البيانات نادرة، أو يجب إضافة فئات جديدة بشكل ديناميكي دون إعادة تدريب النموذج بأكمله.
المبدأ الأساسي للتعلم أحادي الخطوة ينطوي على تحويل الهدف من التصنيف القياسي إلى تقييم التشابه . بدلاً من تدريب شبكة عصبية (NN) لإخراج تسمية فئة محددة (على سبيل المثال، "كلب" أو "قطة")، يتعلم النموذج وظيفة المسافة. البنية الشائعة المستخدمة لهذا الغرض هي الشبكة العصبية السيامية، التي تتكون من شبكتين فرعيتين متطابقتين تشتركان في نفس أوزان النموذج.
أثناء التشغيل، تقوم الشبكة باستخراج الميزات لتحويل الصور المدخلة إلى متجهات رقمية مدمجة تُعرف باسم التضمينات. ثم يقارن النظام تضمين صورة استعلام جديدة بتضمين الصورة المرجعية "اللقطة". إذا كانت المسافة الرياضية — التي غالبًا ما تُحسب باستخدام المسافة الإقليدية أو تشابه جيب التمام— أقل من عتبة معينة، يتم تحديد أن الصور تنتمي إلى نفس الفئة. وهذا يسمح للنموذج بالتحقق من الهوية أو classify بناءً على قربها في مساحة السمات المكتسبة.
يوضح Python التالي كيفية استخراج التضمينات وحساب التشابه باستخدام
يولو26 نموذج التصنيف من
ultralytics الحزمة.
import numpy as np
from ultralytics import YOLO
# Load a pre-trained YOLO26 classification model for feature extraction
model = YOLO("yolo26n-cls.pt")
# Extract embeddings for a reference 'shot' and a query image
# The embed() method returns the feature vector directly
shot_vec = model.embed("reference_img.jpg")[0]
query_vec = model.embed("query_img.jpg")[0]
# Calculate similarity (higher dot product implies greater similarity)
similarity = np.dot(shot_vec, query_vec) / (np.linalg.norm(shot_vec) * np.linalg.norm(query_vec))
print(f"Similarity Score: {similarity:.4f}")
من المهم التمييز بين التعلم أحادي الخطوة وتقنيات التعلم الأخرى الفعالة من حيث البيانات، حيث إنها تحل مشاكل مماثلة من خلال قيود مختلفة:
أطلق التعلم من مرة واحدة العنان لقدرات في قطاعات حيث جمع كميات هائلة من بيانات التدريب أمر غير عملي.
التطبيق الأكثر انتشارًا لتقنية One-Shot Learning هو في مجال الأمن البيومتري. عند إعداد Face ID على هاتف ذكي أو التسجيل في نظام وصول الموظفين، يلتقط الجهاز تمثيلًا رياضيًا واحدًا لوجه المستخدم . أثناء الاستخدام اليومي، يقارن نظام التعرف على الوجه الصور الحية للكاميرا مع هذا التمثيل "اللقطي" المخزن للتحقق من الهوية. يعتمد هذا على تقنيات تضمين قوية، مثل تلك التي تمت مناقشتها في البحث الأساسي FaceNet، لضمان ألا تؤدي التغييرات في الإضاءة أو الزاوية إلى كسر تطابق التشابه.
في مجال الذكاء الاصطناعي في التصنيع، يصعب إنشاء مجموعة بيانات متوازنة للأجزاء "المعيبة" لأن العيوب نادرة وغير متسقة. يتيح التعلم أحادي المرة لأنظمة الرؤية الحاسوبية (CV) تعلم تمثيل جزء مرجعي "مثالي" واحد. يتم وضع علامة على أي عنصر على خط التجميع ينتج عنه تضمين بعيد بشكل كبير عن هذا المرجع من أجل الكشف عن الشذوذ. وهذا يتيح ضمان الجودة الفوري دون الحاجة إلى آلاف الصور للأجزاء المكسورة، والتي يمكن إدارتها ونشرها عبر Ultralytics .
على الرغم من قوة التعلم أحادي اللقطة، إلا أنه عرضة للتشويش؛ فإذا كانت الصورة المرجعية الوحيدة ضبابية أو معوقة أو غير تمثيلية، فإن قدرة النموذج على التعرف على تلك الفئة تتدهور بشكل كبير. غالبًا ما يستخدم الباحثون التعلم التلوي، أو "التعلم من أجل التعلم"، لتحسين استقرار النموذج وتعميمه. مع تطور البنى، تدمج النماذج الأحدث مثل YOLO26 مستخلصات ميزات أكثر قوة تجعل الاستدلال من مرة واحدة أسرع وأكثر دقة، مما يمهد الطريق لأجهزة ذكاء اصطناعي أكثر تكيفًا وذكاءً .