تعرف على كيفية تحسين تقسيم الإجراءات لدقة الروبوتات والتعلم عن طريق التقليد. اكتشف كيفية استخدام Ultralytics للحد من الأخطاء المتراكمة في وكلاء الذكاء الاصطناعي.
يُعد تقسيم الإجراءات إلى مجموعات تقنية متقدمة في مجال التعلم العميق ، وتُستخدم على نطاق واسع في علم الروبوتات والتعلم بالتقليد، حيث يتنبأ النموذج بتسلسل (أو "مجموعة") من الإجراءات المستقبلية بدلاً من إجراء واحد في كل خطوة زمنية. من خلال التنبؤ بمسار متعدد الخطوات، يسمح تقسيم الإجراءات لعوامل الذكاء الاصطناعي بأداء مهام معقدة وطويلة المدى بسلاسة وموثوقية أكبر. وقد اكتسب هذا النهج زخمًا كبيرًا بعد طرح Action Chunking with Transformers (ACT)، وهي بنية نموذجية تجمع بين التنبؤ الزمني ومدخلات الرؤية الحاسوبية عالية الأبعاد .
في الاستنساخ السلوكي التقليدي، يتنبأ النموذج بالخطوة التالية المباشرة استنادًا إلى الحالة الحالية. ومع ذلك، أثناء الاستدلال في الوقت الفعلي، تؤدي أخطاء التنبؤ الطفيفة إلى انتقال النظام إلى حالات غير ملاحظة. وتتكاثر هذه الأخطاء بسرعة، مما يؤدي إلى فشل المهمة — وهي ظاهرة تُعرف باسم «تراكم الأخطاء».
تتصدى تقنية "تجميع الإجراءات" لهذه المحدودية بشكل مباشر. فمن خلال توقع إجراءات متعددة في آن واحد (مثل 50 حركة مفصلية تغطي ثانية واحدة من الحركة)، يتم تقليص نطاق التحكم الفعلي. يلتزم النظام بخطة متماسكة قصيرة المدى تستند إلى ملاحظة بصرية واحدة موثوقة، مما يقلل بشكل كبير من تكرار الأخطاء التفاعلية. عند دمج البنى الأساسية للرؤية مثل Ultralytics من أجل الوعي المكاني و تحديد موقع الصندوق المحيط، تصبح التنبؤات الناتجة مستقرة بشكل لا يصدق في مواجهة ضوضاء العملية.
أدى تقسيم العمليات إلى فتح آفاق جديدة في مجال الأتمتة المادية، لا سيما عند تطبيقها على أجهزة الذكاء الاصطناعي الطرفية التي تم تحسينها بواسطة أطر عمل مثل Intel :
لفهم كيفية اندماج هذه التقنية في النظام البيئي الأوسع للذكاء الاصطناعي بشكل أفضل، من المفيد تمييزها عن المصطلحات المماثلة:
في الواقع العملي، يقوم نظام الرؤية بتقييم البيئة المحيطة، بينما يقوم مُفكك التسلسل بتوليد مسار مقسم إلى أجزاء. ما يلي Python يوضح مفهوم PyTorch (بديل لـ TensorFlow) تقبل حالة بيئة — مثل تلك المستمدة من مرور الكشف عن الكائنات — وتُخرج تسلسلًا من الإجراءات المستقبلية.
import torch
import torch.nn as nn
class ActionChunker(nn.Module):
def __init__(self, state_dim, action_dim, chunk_size):
super().__init__()
# Maps the current state to a sequence of future actions
self.decoder = nn.Linear(state_dim, chunk_size * action_dim)
self.chunk_size = chunk_size
self.action_dim = action_dim
def forward(self, state):
# Predict the entire action chunk at once
chunk = self.decoder(state)
return chunk.view(-1, self.chunk_size, self.action_dim)
# Example: 128-dim state, 6 degrees of freedom, 50-step chunk
model = ActionChunker(state_dim=128, action_dim=6, chunk_size=50)
# Generate a 50-step action trajectory from a single observation
current_state = torch.randn(1, 128)
action_trajectory = model(current_state)
print(f"Action Chunk Shape: {action_trajectory.shape}")
تتطلب إدارة قواعد البيانات الضخمة اللازمة لتدريب هذه النظم الروبوتية موارد هائلة. وتقوم شركات رائدة في هذا المجال مثل OpenAI و Anthropic رائدة في مجال النماذج واسعة النطاق ، لكن المطورين العاديين يعتمدون على أدوات يسهل الوصول إليها. تعمل Ultralytics على تبسيط دورة حياة البيانات للمدخلات المرئية، حيث توفر تعليقات آلية على البيانات وقدرات سلسة لتدريب النماذج. مع تطور النماذج نحو بنى موحدة للرؤية واللغة والحركة (VLA)، فإن الجمع بين أنظمة الرؤية الفعالة وتقسيم الإجراءات القوي سيستمر في تحديد معالم الجيل القادم من الأتمتة الذكية.

ابدأ رحلتك مع مستقبل تعلم الآلة