اكتشف كيف يجمع التعلم شبه المُشرف بين البيانات المُصنفة وغير المُصنفة لتعزيز دقة النموذج. تعلم كيفية تنفيذ سير عمل SSL باستخدام Ultralytics .
التعلم شبه المُشرف عليه (SSL) هو نموذج استراتيجي في التعلم الآلي (ML) يعمل كجسر بين طريقتين تقليديتين للتدريب. في حين أن التعلم المُشرف عليه يعتمد كليًا على مجموعات بيانات مُعلّقة بالكامل، يحاول التعلم غير المُشرف عليه العثور على أنماط في البيانات دون أي علامات، يعمل SSL من خلال الجمع بين كمية صغيرة من البيانات المُعلّقة ومجموعة أكبر بكثير من البيانات غير المُعلّقة. هذه الطريقة ذات قيمة خاصة في سيناريوهات الرؤية الحاسوبية (CV) في العالم الحقيقي حيث يكون جمع الصور الخام — مثل لقطات الفيديو من كاميرات المراقبة أو الأقمار الصناعية — غير مكلف نسبيًا، ولكن عملية وضع علامات على البيانات بواسطة خبراء بشريين مكلفة وبطيئة وتتطلب عمالة كثيفة. من خلال الاستخدام الفعال للبنية المخفية داخل الأمثلة غير الموسومة، يمكن لـ SSL تحسين دقة النموذج وتعميمه بشكل كبير دون الحاجة إلى ميزانية شاملة للتعليقات التوضيحية.
الهدف الأساسي لـ SSL هو نشر المعلومات الموجودة في المجموعة الصغيرة من الأمثلة الموسومة إلى المجموعة الأكبر غير الموسومة. وهذا يسمح للشبكة العصبية بتعلم حدود القرار التي تمر عبر مناطق منخفضة الكثافة من البيانات، مما يؤدي إلى تصنيف أو كشف أكثر قوة.
هناك تقنيتان شائعتان تقودان معظم سير العمل شبه الخاضع للإشراف:
يوضح Python التالي Python سير عمل بسيط للتصنيف الزائف باستخدام ultralytics . هنا، نقوم بتدريب نموذج YOLO26 على مجموعة بيانات صغيرة ثم نستخدمه لإنشاء تصنيفات لمجلد من الصور غير المصنفة.
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train initially on a small available labeled dataset
model.train(data="coco8.yaml", epochs=10)
# Run inference on unlabeled data to generate pseudo-labels
# Setting save_txt=True saves the detections as text files for future training
results = model.predict(source="./unlabeled_images", save_txt=True, conf=0.85)
التعلم شبه الموجه يغير الصناعات التي تكثر فيها البيانات ولكن الخبرة فيها نادرة.
من أجل نشر حلول الذكاء الاصطناعي بفعالية، من الضروري فهم الفرق بين SSL والاستراتيجيات المماثلة:
مع تزايد حجم نماذج التعلم العميق (DL) ، أصبحت كفاءة استخدام البيانات أمراً بالغ الأهمية. الأطر الحديثة مثل PyTorch و TensorFlow توفر الخلفية الحسابية لهذه الحلقات التدريبية المتقدمة . علاوة على ذلك، تعمل أدوات مثل Ultralytics على تبسيط دورة حياة إدارة مجموعات البيانات. من خلال استخدام ميزات مثل التعليق التلقائي، يمكن للفرق تنفيذ سير عمل شبه خاضع للإشراف بسهولة أكبر، وتحويل البيانات الأولية بسرعة إلى أوزان نماذج جاهزة للإنتاج. يضمن هذا التطور في MLOps استمرار انخفاض حاجز الدخول لإنشاء أنظمة رؤية عالية الدقة.