Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التعلم المعزز العميق

اكتشف قوة التعلم العميق المعزز - حيث يتعلم الذكاء الاصطناعي سلوكيات معقدة لحل التحديات في الألعاب والروبوتات والرعاية الصحية والمزيد.

التعلُّم المعزز العميق (DRL) هو مجال فرعي متقدم من مجالات التعلم الآلي (ML) الذي يجمع بين أطر صنع القرار في التعلم المعزز مع قدرات القوية للتعلم العميق (DL). بينما يعتمد التعلّم المعزز التقليدي على التجربة والخطأ لتحسين السلوك في بيئات بسيطة، يدمج التعلّم المعزز العميق يدمج الشبكات العصبية متعددة الطبقات من أجل لتفسير البيانات الحسية عالية الأبعاد، مثل إطارات الفيديو أو قراءات أجهزة الاستشعار المعقدة. يسمح هذا التكامل ل وكيل الذكاء الاصطناعي بتعلم استراتيجيات متطورة لحل المشاكل المستعصية في البيئات الديناميكية غير المهيكلة، بدءًا من الملاحة المستقلة إلى اللعب الاستراتيجي اللعب.

آليات التعلم المعزز العميق

يقع التفاعل بين الوكيل وبيئته في صميم عملية اتخاذ القرار (DRL)، وغالبًا ما يتم نمذجتها رياضيًا على شكل عملية قرار ماركوف (MDP). على عكس التعلّم تحت الإشراف، حيث يتم تدريب النموذج على مجموعة بيانات مصنفة مع إجابات صحيحة معروفة، يتعلم وكيل DRL يتعلم من خلال الاستكشاف. فهو يراقب الحالة الحالية، ويتخذ إجراءً، ويتلقى إشارة تغذية مرتدة تعرف باسم "المكافأة".

للتعامل مع المدخلات المعقدة، تستخدم DRL الشبكات العصبية التلافيفية (CNNs) أو غيرها من البنى العميقة لتقريب قيمة إجراءات محددة. من خلال عمليات مثل الترحيل العكسي و والتدرج، تعدل الشبكة أوزان نموذجها أوزان النموذج الخاص بها لتعظيم المكافآت التراكمية مع مرور الوقت. مع مرور الوقت. خوارزميات مثل الشبكات الكمية العميقة (DQN) و التحسين الأمثل للسياسة التقريبية (PPO) مفيدة في تحقيق الاستقرار في عملية التدريب هذه، مما يمكّن الوكلاء من تعميم تعلّمهم على غير مرئية.

تطبيقات واقعية

أدى تعدد استخدامات DRL إلى تطبيقات تحويلية في مختلف الصناعات:

  • الروبوتات المتقدمة: في مجال الذكاء الاصطناعي في مجال الروبوتات، يسمح الذكاء الاصطناعي في الروبوتات للآلات بإتقان المهارات الحركية المعقدة. على سبيل المثال، يمكن أن تتعلم الروبوتات التلاعب بالأشياء أو المشي فوق التضاريس غير المستوية من خلال تحسين حركاتها باستمرار استناداً إلى بيئات المحاكاة الفيزيائية مثل NVIDIA Isaac Sim.
  • الأنظمة ذاتية القيادة: تستفيد المركبات ذاتية القيادة من نظام DRL لاتخاذ قرارات في الوقت الحقيقي في حركة المرور التي لا يمكن التنبؤ بها. من خلال معالجة المدخلات من كاميرات الليدار والكاميرات، تتعلم هذه الأنظمة سياسات القيادة الآمنة سياسات القيادة الآمنة لدمج المسارات والملاحة عند التقاطعات، وغالباً ما تستخدم الرؤية الحاسوبية (CV) لتحليل المشهد المرئي المشهد المرئي.
  • الألعاب الاستراتيجية: حقّقت DRL شهرةً عالميةً عندما هزمت أنظمة مثل AlphaGo الخاصة بـ DeepMind هزمت أبطال العالم من البشر. هذه الوكلاء يستكشفون ملايين الاستراتيجيات المحتملة في المحاكاة، ويكتشفون تكتيكات جديدة تتفوق على الحدس البشري.

دمج الرؤية الحاسوبية كمراقب للحالة

بالنسبة للعديد من تطبيقات DRL، تمثل "الحالة" معلومات مرئية. عالية السرعة يمكن أن تعمل نماذج اكتشاف الكائنات عالية السرعة كعيون للوكيل، حيث تقوم بتحويل وحدات البكسل الخام إلى بيانات منظمة يمكن لشبكة السياسة أن تتصرف بناءً عليها.

يوضح المثال التالي كيف أن YOLO11 يمكن استخدامه ل استخراج ملاحظات الحالة لعامل DRL:

from ultralytics import YOLO

# Load YOLO11 to serve as the perception layer for a DRL agent
model = YOLO("yolo11n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects and locations)
results = model(observation)

# The detection count serves as a simple state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

التمييز بين DRL والمفاهيم ذات الصلة

من المفيد التفريق بين التعلّم المعزز العميق والمصطلحات المشابهة لفهم موقعه الفريد في مشهد الذكاء الاصطناعي:

  • التعلم المعزز (RL): التعلُّم المعزز القياسي هو المفهوم التأسيسي لكنه غالباً ما يعتمد على جداول البحث (مثل جداول Q) التي تصبح غير عملية لمساحات الحالة الكبيرة. تحل DRL هذه المشكلة باستخدام التعلّم العميق لتقريب السياسات، مما يمكّن من التعامل مع المدخلات المعقدة مثل الصور.
  • التعلم المعزز من التغذية الراجعة البشرية (RLHF): في حين أن DRL عادةً ما تعمل على تحسين دالة مكافأة محددة رياضيًا (على سبيل المثال، النقاط في لعبة ما)، فإن RLHF تعمل على تحسين النماذج - على وجه التحديد نماذج اللغة الكبيرة (LLMs)- باستخدام التفضيلات البشرية الذاتية لمواءمة سلوك الذكاء الاصطناعي مع القيم البشرية.
  • التعلّم غير الخاضع للإشراف: تبحث الأساليب غير الخاضعة للإشراف عن الأنماط المخفية في البيانات دون ملاحظات صريحة. في المقابل، فإن التعلم غير الخاضع للإشراف موجه نحو الهدف, مدفوعة بإشارة مكافأة توجه الوكيل نحو هدف محدد.

الأدوات والأطر

يتطلب تطوير أنظمة DRL أنظمة برمجيات قوية. يعتمد الباحثون على أطر عمل مثل PyTorch و TensorFlow لبناء الشبكات العصبية الأساسية. غالبًا ما يقترن ذلك بمكتبات الواجهة القياسية مثل Gymnasium (المعروفة سابقًا باسم OpenAI Gym)، والتي توفر مجموعة من من البيئات لاختبار الخوارزميات وقياسها. ويتطلب تدريب هذه النماذج عملية حسابية مكثفة، وغالبًا ما يتطلب يستلزم وحدات معالجة رسومات عالية الأداء من أجل للتعامل مع ملايين خطوات المحاكاة المطلوبة للتقارب.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن