Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

تقسيم الإجراءات

تعرف على كيفية تحسين تقسيم الإجراءات لدقة الروبوتات والتعلم عن طريق التقليد. اكتشف كيفية استخدام Ultralytics للحد من الأخطاء المتراكمة في وكلاء الذكاء الاصطناعي.

يُعد تقسيم الإجراءات إلى مجموعات تقنية متقدمة في مجال التعلم العميق ، وتُستخدم على نطاق واسع في علم الروبوتات والتعلم بالتقليد، حيث يتنبأ النموذج بتسلسل (أو "مجموعة") من الإجراءات المستقبلية بدلاً من إجراء واحد في كل خطوة زمنية. من خلال التنبؤ بمسار متعدد الخطوات، يسمح تقسيم الإجراءات لعوامل الذكاء الاصطناعي بأداء مهام معقدة وطويلة المدى بسلاسة وموثوقية أكبر. وقد اكتسب هذا النهج زخمًا كبيرًا بعد طرح Action Chunking with Transformers (ACT)، وهي بنية نموذجية تجمع بين التنبؤ الزمني ومدخلات الرؤية الحاسوبية عالية الأبعاد .

الحد من تراكم الأخطاء

في الاستنساخ السلوكي التقليدي، يتنبأ النموذج بالخطوة التالية المباشرة استنادًا إلى الحالة الحالية. ومع ذلك، أثناء الاستدلال في الوقت الفعلي، تؤدي أخطاء التنبؤ الطفيفة إلى انتقال النظام إلى حالات غير ملاحظة. وتتكاثر هذه الأخطاء بسرعة، مما يؤدي إلى فشل المهمة — وهي ظاهرة تُعرف باسم «تراكم الأخطاء».

تتصدى تقنية "تجميع الإجراءات" لهذه المحدودية بشكل مباشر. فمن خلال توقع إجراءات متعددة في آن واحد (مثل 50 حركة مفصلية تغطي ثانية واحدة من الحركة)، يتم تقليص نطاق التحكم الفعلي. يلتزم النظام بخطة متماسكة قصيرة المدى تستند إلى ملاحظة بصرية واحدة موثوقة، مما يقلل بشكل كبير من تكرار الأخطاء التفاعلية. عند دمج البنى الأساسية للرؤية مثل Ultralytics من أجل الوعي المكاني و تحديد موقع الصندوق المحيط، تصبح التنبؤات الناتجة مستقرة بشكل لا يصدق في مواجهة ضوضاء العملية.

تطبيقات واقعية

أدى تقسيم العمليات إلى فتح آفاق جديدة في مجال الأتمتة المادية، لا سيما عند تطبيقها على أجهزة الذكاء الاصطناعي الطرفية التي تم تحسينها بواسطة أطر عمل مثل Intel :

التمييز بين المفاهيم ذات الصلة

لفهم كيفية اندماج هذه التقنية في النظام البيئي الأوسع للذكاء الاصطناعي بشكل أفضل، من المفيد تمييزها عن المصطلحات المماثلة:

  • تقسيم الإجراءات مقابل التعرف على الإجراءات: في حين أن تقسيم الإجراءات ينتج سلسلة من الأوامر المستقبلية لتنفيذها بواسطة الآلة، فإن التعرف على الإجراءات هو العملية التحليلية لتحديد الأنشطة التي تحدث ضمن مقطع فيديو.
  • نموذج "تقسيم الإجراءات" مقابل نماذج "التسلسل إلى التسلسل": تعمل بنى "التسلسل إلى التسلسل" على ربط تسلسل الإدخال بتسلسل الإخراج، وهي مستخدمة على نطاق واسع في الترجمة الآلية. ويستفيد نموذج "تقسيم الإجراءات" بشكل كبير من هذه البنى — وبالتحديد من نماذج "ترانسفورمرز"— لكنه يقصر الإخراج حصريًّا على التحكمات الحركية والحركيات من المستوى المنخفض بدلاً من النص.
  • تقسيم الإجراءات مقابل التعلم المعزز: يعتمد التعلم المعزز على إشارات المكافأة لتعليم الوكيل من خلال التجربة والخطأ. وعلى العكس من ذلك، يُستخدم تقسيم الإجراءات بشكل أساسي في استنساخ السلوك الخاضع للإشراف، حيث يتعلم النموذج مباشرةً من العروض البشرية دون السعي الصريح إلى تعظيم المكافأة.

تطبيق تقنية تقسيم الإجراءات

في الواقع العملي، يقوم نظام الرؤية بتقييم البيئة المحيطة، بينما يقوم مُفكك التسلسل بتوليد مسار مقسم إلى أجزاء. ما يلي Python يوضح مفهوم PyTorch (بديل لـ TensorFlow) تقبل حالة بيئة — مثل تلك المستمدة من مرور الكشف عن الكائنات — وتُخرج تسلسلًا من الإجراءات المستقبلية.

import torch
import torch.nn as nn


class ActionChunker(nn.Module):
    def __init__(self, state_dim, action_dim, chunk_size):
        super().__init__()
        # Maps the current state to a sequence of future actions
        self.decoder = nn.Linear(state_dim, chunk_size * action_dim)
        self.chunk_size = chunk_size
        self.action_dim = action_dim

    def forward(self, state):
        # Predict the entire action chunk at once
        chunk = self.decoder(state)
        return chunk.view(-1, self.chunk_size, self.action_dim)


# Example: 128-dim state, 6 degrees of freedom, 50-step chunk
model = ActionChunker(state_dim=128, action_dim=6, chunk_size=50)

# Generate a 50-step action trajectory from a single observation
current_state = torch.randn(1, 128)
action_trajectory = model(current_state)

print(f"Action Chunk Shape: {action_trajectory.shape}")

تتطلب إدارة قواعد البيانات الضخمة اللازمة لتدريب هذه النظم الروبوتية موارد هائلة. وتقوم شركات رائدة في هذا المجال مثل OpenAI و Anthropic رائدة في مجال النماذج واسعة النطاق ، لكن المطورين العاديين يعتمدون على أدوات يسهل الوصول إليها. تعمل Ultralytics على تبسيط دورة حياة البيانات للمدخلات المرئية، حيث توفر تعليقات آلية على البيانات وقدرات سلسة لتدريب النماذج. مع تطور النماذج نحو بنى موحدة للرؤية واللغة والحركة (VLA)، فإن الجمع بين أنظمة الرؤية الفعالة وتقسيم الإجراءات القوي سيستمر في تحديد معالم الجيل القادم من الأتمتة الذكية.

لنبني مستقبل الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة