Eylem parçalama yönteminin robotların hassasiyetini ve taklit öğrenmesini nasıl geliştirdiğini öğrenin. Ultralytics kullanarak yapay zeka ajanlarında biriken hataları nasıl azaltabileceğinizi keşfedin.
Eylem parçalama, robotik ve taklit öğrenmede yaygın olarak kullanılan gelişmiş bir derin öğrenme tekniğidir; bu teknikte model, her zaman adımında tek bir eylem yerine gelecekteki eylemlerin bir dizisini (veya "parçasını") tahmin eder. Eylem parçalama, çok adımlı bir yörüngeyi tahmin ederek AI ajanlarının karmaşık, uzun vadeli görevleri daha sorunsuz ve güvenilir bir şekilde gerçekleştirmesini sağlar. Bu yaklaşım, zamansal tahmin ile yüksek boyutlu bilgisayar görme girdilerini birleştiren bir model mimarisi olan Action Chunking with Transformers (ACT) modeli piyasaya sürüldükten sonra önemli ölçüde ilgi gördü.
Geleneksel davranışsal klonlamada, bir model mevcut duruma dayanarak bir sonraki adımı tahmin eder. Ancak, gerçek zamanlı çıkarım sırasında, küçük tahmin hataları sistemi gözlemlenmemiş durumlara kaydırır. Bu hatalar hızla çoğalarak görevin başarısızlığına yol açar; bu olaya “hataların birikmesi” denir.
Eylem parçalama, bu sınırlamayı doğrudan ortadan kaldırır. Birden fazla eylemi aynı anda tahmin ederek (örneğin, 1 saniyelik hareketi kapsayan 50 eklem hareketi), etkin kontrol ufku daraltılır. Sistem, tek bir güvenilir görsel gözleme dayalı tutarlı bir kısa vadeli plana bağlı kalır ve bu da reaktif hataların sıklığını büyük ölçüde azaltır. Uzamsal farkındalık ve sınırlayıcı kutu konumlandırması için Ultralytics gibi görme omurgalarını entegre ettiğinizde, ortaya çıkan tahminler işlem gürültüsüne karşı inanılmaz derecede kararlı hale gelir.
Eylem parçalama, özellikle Intel gibi çerçevelerle optimize edilmiş kenar AI donanımlarında kullanıldığında fiziksel otomasyonda yeni olanaklar sunmaktadır:
Bu tekniğin daha geniş kapsamlı yapay zeka ekosistemine nasıl uyum sağladığını daha iyi anlamak için, onu benzer terimlerden ayırmak faydalı olacaktır:
Uygulamada, bir görüntü işleme sistemi çevreyi değerlendirir ve bir dizi kod çözücü, parçalara ayrılmış yörüngeyi oluşturur. Aşağıdaki Python kod parçacığı kavramsal bir PyTorch modülünü ( TensorFlow'a alternatif) gösterir; bu modül, bir nesne algılama geçişinden türetilen gibi bir ortam durumunu kabul eder ve bir dizi gelecekteki eylemi üretir.
import torch
import torch.nn as nn
class ActionChunker(nn.Module):
def __init__(self, state_dim, action_dim, chunk_size):
super().__init__()
# Maps the current state to a sequence of future actions
self.decoder = nn.Linear(state_dim, chunk_size * action_dim)
self.chunk_size = chunk_size
self.action_dim = action_dim
def forward(self, state):
# Predict the entire action chunk at once
chunk = self.decoder(state)
return chunk.view(-1, self.chunk_size, self.action_dim)
# Example: 128-dim state, 6 degrees of freedom, 50-step chunk
model = ActionChunker(state_dim=128, action_dim=6, chunk_size=50)
# Generate a 50-step action trajectory from a single observation
current_state = torch.randn(1, 128)
action_trajectory = model(current_state)
print(f"Action Chunk Shape: {action_trajectory.shape}")
Bu robot politikalarını eğitmek için gereken devasa veri kümelerini yönetmek, yoğun kaynak kullanımı gerektirir. OpenAI ve Anthropic büyük ölçekli modellerin öncülüğünü yapmaktadır, ancak günlük işlerini yürüten geliştiriciler erişilebilir araçlara güvenmektedir. Ultralytics , görsel girdiler için veri yaşam döngüsünü kolaylaştırır ve otomatik veri etiketleme ile sorunsuz model eğitimi yetenekleri sunar. Modeller, birleşik Görsel-Dil-Eylem (VLA) mimarilerine doğru evrimleştikçe, verimli görsel sistemleri sağlam eylem parçalama ile birleştirmek, yeni nesil akıllı otomasyonu tanımlamaya devam edecektir.

Makine öğreniminin geleceği ile yolculuğunuza başlayın