Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Eylem Parçalama

Eylem parçalama yönteminin robotların hassasiyetini ve taklit öğrenmesini nasıl geliştirdiğini öğrenin. Ultralytics kullanarak yapay zeka ajanlarında biriken hataları nasıl azaltabileceğinizi keşfedin.

Eylem parçalama, robotik ve taklit öğrenmede yaygın olarak kullanılan gelişmiş bir derin öğrenme tekniğidir; bu teknikte model, her zaman adımında tek bir eylem yerine gelecekteki eylemlerin bir dizisini (veya "parçasını") tahmin eder. Eylem parçalama, çok adımlı bir yörüngeyi tahmin ederek AI ajanlarının karmaşık, uzun vadeli görevleri daha sorunsuz ve güvenilir bir şekilde gerçekleştirmesini sağlar. Bu yaklaşım, zamansal tahmin ile yüksek boyutlu bilgisayar görme girdilerini birleştiren bir model mimarisi olan Action Chunking with Transformers (ACT) modeli piyasaya sürüldükten sonra önemli ölçüde ilgi gördü.

Birikmiş Hataların Etkisini Azaltma

Geleneksel davranışsal klonlamada, bir model mevcut duruma dayanarak bir sonraki adımı tahmin eder. Ancak, gerçek zamanlı çıkarım sırasında, küçük tahmin hataları sistemi gözlemlenmemiş durumlara kaydırır. Bu hatalar hızla çoğalarak görevin başarısızlığına yol açar; bu olaya “hataların birikmesi” denir.

Eylem parçalama, bu sınırlamayı doğrudan ortadan kaldırır. Birden fazla eylemi aynı anda tahmin ederek (örneğin, 1 saniyelik hareketi kapsayan 50 eklem hareketi), etkin kontrol ufku daraltılır. Sistem, tek bir güvenilir görsel gözleme dayalı tutarlı bir kısa vadeli plana bağlı kalır ve bu da reaktif hataların sıklığını büyük ölçüde azaltır. Uzamsal farkındalık ve sınırlayıcı kutu konumlandırması için Ultralytics gibi görme omurgalarını entegre ettiğinizde, ortaya çıkan tahminler işlem gürültüsüne karşı inanılmaz derecede kararlı hale gelir.

Gerçek Dünya Uygulamaları

Eylem parçalama, özellikle Intel gibi çerçevelerle optimize edilmiş kenar AI donanımlarında kullanıldığında fiziksel otomasyonda yeni olanaklar sunmaktadır:

  • İnce Çizgili Robotik Manipülasyon: Endüstriyel otomasyonda robotlar, kabloları geçirme, pilleri yuvalarına yerleştirme veya paket segmentasyon veri kümeleriyle izlenen nesneleri taşıma gibi yüksek hassasiyet gerektiren, temas yoğun görevleri yürütmek için parçalı tahminler kullanır. Uyumlu hareket dizileri oluşturmak, tek adımlı taklit öğrenmenin tipik özelliği olan sarsıntılı ve tutarsız hareketleri önler.
  • Otonom Navigasyon: Otonom sürüş ve drone uçuşunda, bir dizi kontrol komutunun (direksiyon ve hızlanma gibi) öngörülmesi, daha akıcı bir yörünge planlamasına olanak tanır; bu kavram, son zamanlarda IEEE robotik makalelerinde yoğun bir şekilde ele alınmaktadır. Sürekli nesne izleme ve derinlik tahmini ile birleştirildiğinde, araçlar karmaşık dinamik ortamlarda güvenli bir şekilde yol alabilir.

İlgili Kavramları Ayırt Etme

Bu tekniğin daha geniş kapsamlı yapay zeka ekosistemine nasıl uyum sağladığını daha iyi anlamak için, onu benzer terimlerden ayırmak faydalı olacaktır:

  • Eylem Parçalama ve Eylem Tanıma: Eylem parçalama, bir makinenin yürütmesi için bir dizi gelecekteki komut oluştururken, eylem tanıma ise bir video akışında gerçekleşen faaliyetleri belirlemeyi amaçlayan analitik bir süreçtir.
  • Eylem Parçalama ve Dizi-Dizi Modelleri: Dizi-dizi mimarileri, bir girdi dizisini bir çıktı dizisine eşler ve makine çevirisinde yaygın olarak kullanılır. Eylem parçalama, bu mimarileri—özellikle Transformers’ı—yoğun bir şekilde kullanır, ancak çıktıyı metin yerine tamamen düşük seviyeli motor kontrolleri ve kinematik ile sınırlar.
  • Eylem Parçalama ve Pekiştirmeli Öğrenme: Pekiştirmeli öğrenme, bir ajanı deneme yanılma yoluyla eğitmek için ödül sinyallerine dayanır. Buna karşılık, eylem parçalama öncelikle denetimli davranış klonlamada kullanılır; bu yaklaşımda model, açık bir ödül maksimizasyonu olmaksızın doğrudan insan gösterimlerinden öğrenir.

Eylem Parçalama Yönteminin Uygulanması

Uygulamada, bir görüntü işleme sistemi çevreyi değerlendirir ve bir dizi kod çözücü, parçalara ayrılmış yörüngeyi oluşturur. Aşağıdaki Python kod parçacığı kavramsal bir PyTorch modülünü ( TensorFlow'a alternatif) gösterir; bu modül, bir nesne algılama geçişinden türetilen gibi bir ortam durumunu kabul eder ve bir dizi gelecekteki eylemi üretir.

import torch
import torch.nn as nn


class ActionChunker(nn.Module):
    def __init__(self, state_dim, action_dim, chunk_size):
        super().__init__()
        # Maps the current state to a sequence of future actions
        self.decoder = nn.Linear(state_dim, chunk_size * action_dim)
        self.chunk_size = chunk_size
        self.action_dim = action_dim

    def forward(self, state):
        # Predict the entire action chunk at once
        chunk = self.decoder(state)
        return chunk.view(-1, self.chunk_size, self.action_dim)


# Example: 128-dim state, 6 degrees of freedom, 50-step chunk
model = ActionChunker(state_dim=128, action_dim=6, chunk_size=50)

# Generate a 50-step action trajectory from a single observation
current_state = torch.randn(1, 128)
action_trajectory = model(current_state)

print(f"Action Chunk Shape: {action_trajectory.shape}")

Bu robot politikalarını eğitmek için gereken devasa veri kümelerini yönetmek, yoğun kaynak kullanımı gerektirir. OpenAI ve Anthropic büyük ölçekli modellerin öncülüğünü yapmaktadır, ancak günlük işlerini yürüten geliştiriciler erişilebilir araçlara güvenmektedir. Ultralytics , görsel girdiler için veri yaşam döngüsünü kolaylaştırır ve otomatik veri etiketleme ile sorunsuz model eğitimi yetenekleri sunar. Modeller, birleşik Görsel-Dil-Eylem (VLA) mimarilerine doğru evrimleştikçe, verimli görsel sistemleri sağlam eylem parçalama ile birleştirmek, yeni nesil akıllı otomasyonu tanımlamaya devam edecektir.

Hadi birlikte yapay zekanın geleceğini şekillendirelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın