استكشف المفاهيم الأساسية للتعلم المعزز (RL). تعرف على كيفية استخدام الوكلاء للتغذية الراجعة لإتقان المهام وشاهد كيف يعمل Ultralytics على تشغيل أنظمة الرؤية RL.
التعلم المعزز (RL) هو مجموعة فرعية موجهة نحو الأهداف من التعلم الآلي (ML) حيث يتعلم نظام مستقل ، يُعرف باسم الوكيل، اتخاذ القرارات من خلال تنفيذ الإجراءات وتلقي التعليقات من بيئته. على عكس التعلم الخاضع للإشراف، الذي يعتمد على مجموعات بيانات ثابتة مصنفة بالإجابات الصحيحة، تتعلم خوارزميات RL من خلال عملية ديناميكية من التجربة والخطأ. يتفاعل الوكيل مع محاكاة أو العالم الحقيقي، ويراقب عواقب أفعاله لتحديد الاستراتيجيات التي تحقق أعلى المكافآت على المدى الطويل. هذا النهج يحاكي بشكل وثيق المفهوم النفسي للتكييف التشغيلي، حيث يتم تشكيل السلوك عن طريق التعزيز الإيجابي (المكافآت) والتعزيز السلبي (العقوبات) بمرور الوقت.
لفهم كيفية عمل RL، من المفيد تصوره كدورة مستمرة من التفاعل. غالبًا ما يتم صياغة هذا الإطار رياضيًا على أنه عملية قرار ماركوف (MDP)، والتي تنظم عملية صنع القرار في المواقف التي تكون فيها النتائج عشوائية جزئيًا ومسيطر عليها جزئيًا من قبل صانع القرار.
تشمل المكونات الأساسية لدورة التعلم هذه ما يلي:
تجاوز التعلم المعزز مرحلة البحث النظري إلى مرحلة التطبيقات العملية عالية التأثير في مختلف الصناعات.
في العديد من التطبيقات الحديثة، تكون "الحالة" التي يراقبها الوكيل مرئية. تعمل النماذج عالية الأداء مثل YOLO26 كطبقة إدراك لوكلاء RL، حيث تقوم بتحويل الصور الأولية إلى بيانات منظمة. تصبح هذه المعلومات المعالجة — مثل موقع الأجسام وفئتها — الحالة التي تستخدمها سياسة RL لاختيار الإجراء.
يوضح المثال التالي كيفية استخدام ultralytics حزمة لمعالجة إطار بيئة،
وإنشاء تمثيل للحالة (على سبيل المثال، عدد الكائنات) لدورة RL نظرية.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")
# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Process the frame to extract the current 'state'
results = model(observation_frame)
# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")
من المهم التمييز بين التعلم المعزز ونماذج التعلم الآلي الأخرى:
مع زيادة القوة الحاسوبية، تعمل تقنيات مثل التعلم المعزز من ردود فعل البشر (RLHF) على تحسين طريقة تعلم الوكلاء، ومواءمة أهدافهم بشكل أوثق مع القيم البشرية المعقدة ومعايير السلامة . غالبًا ما يستخدم الباحثون بيئات موحدة مثل Gymnasium لتقييم هذه الخوارزميات وتحسينها. بالنسبة للفرق التي تسعى إلى إدارة مجموعات البيانات المطلوبة لطبقات الإدراك لهذه الوكلاء، توفر Ultralytics أدوات شاملة للتعليق وإدارة النماذج.