اكتشف قوة التعلم العميق المعزز - حيث يتعلم الذكاء الاصطناعي سلوكيات معقدة لحل التحديات في الألعاب والروبوتات والرعاية الصحية والمزيد.
التعلُّم المعزز العميق (DRL) هو مجال فرعي متقدم من مجالات التعلم الآلي (ML) الذي يجمع بين أطر صنع القرار في التعلم المعزز مع قدرات القوية للتعلم العميق (DL). بينما يعتمد التعلّم المعزز التقليدي على التجربة والخطأ لتحسين السلوك في بيئات بسيطة، يدمج التعلّم المعزز العميق يدمج الشبكات العصبية متعددة الطبقات من أجل لتفسير البيانات الحسية عالية الأبعاد، مثل إطارات الفيديو أو قراءات أجهزة الاستشعار المعقدة. يسمح هذا التكامل ل وكيل الذكاء الاصطناعي بتعلم استراتيجيات متطورة لحل المشاكل المستعصية في البيئات الديناميكية غير المهيكلة، بدءًا من الملاحة المستقلة إلى اللعب الاستراتيجي اللعب.
يقع التفاعل بين الوكيل وبيئته في صميم عملية اتخاذ القرار (DRL)، وغالبًا ما يتم نمذجتها رياضيًا على شكل عملية قرار ماركوف (MDP). على عكس التعلّم تحت الإشراف، حيث يتم تدريب النموذج على مجموعة بيانات مصنفة مع إجابات صحيحة معروفة، يتعلم وكيل DRL يتعلم من خلال الاستكشاف. فهو يراقب الحالة الحالية، ويتخذ إجراءً، ويتلقى إشارة تغذية مرتدة تعرف باسم "المكافأة".
للتعامل مع المدخلات المعقدة، تستخدم DRL الشبكات العصبية التلافيفية (CNNs) أو غيرها من البنى العميقة لتقريب قيمة إجراءات محددة. من خلال عمليات مثل الترحيل العكسي و والتدرج، تعدل الشبكة أوزان نموذجها أوزان النموذج الخاص بها لتعظيم المكافآت التراكمية مع مرور الوقت. مع مرور الوقت. خوارزميات مثل الشبكات الكمية العميقة (DQN) و التحسين الأمثل للسياسة التقريبية (PPO) مفيدة في تحقيق الاستقرار في عملية التدريب هذه، مما يمكّن الوكلاء من تعميم تعلّمهم على غير مرئية.
أدى تعدد استخدامات DRL إلى تطبيقات تحويلية في مختلف الصناعات:
بالنسبة للعديد من تطبيقات DRL، تمثل "الحالة" معلومات مرئية. عالية السرعة يمكن أن تعمل نماذج اكتشاف الكائنات عالية السرعة كعيون للوكيل، حيث تقوم بتحويل وحدات البكسل الخام إلى بيانات منظمة يمكن لشبكة السياسة أن تتصرف بناءً عليها.
يوضح المثال التالي كيف أن YOLO11 يمكن استخدامه ل استخراج ملاحظات الحالة لعامل DRL:
from ultralytics import YOLO
# Load YOLO11 to serve as the perception layer for a DRL agent
model = YOLO("yolo11n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects and locations)
results = model(observation)
# The detection count serves as a simple state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")
من المفيد التفريق بين التعلّم المعزز العميق والمصطلحات المشابهة لفهم موقعه الفريد في مشهد الذكاء الاصطناعي:
يتطلب تطوير أنظمة DRL أنظمة برمجيات قوية. يعتمد الباحثون على أطر عمل مثل PyTorch و TensorFlow لبناء الشبكات العصبية الأساسية. غالبًا ما يقترن ذلك بمكتبات الواجهة القياسية مثل Gymnasium (المعروفة سابقًا باسم OpenAI Gym)، والتي توفر مجموعة من من البيئات لاختبار الخوارزميات وقياسها. ويتطلب تدريب هذه النماذج عملية حسابية مكثفة، وغالبًا ما يتطلب يستلزم وحدات معالجة رسومات عالية الأداء من أجل للتعامل مع ملايين خطوات المحاكاة المطلوبة للتقارب.