Behavioral Cloning
Davranışsal klonlamanın AI taklit öğrenimini nasıl desteklediğini öğren. Temel uygulamaları, zorlukları ve bunu Ultralytics YOLO26 ile nasıl entegre edebileceğini keşfet.
Behavioral cloning is a foundational technique in imitation learning where an AI agent learns to perform a task by strictly mimicking a dataset of expert demonstrations. Instead of relying on a complex reward system, the model treats sequential decision-making as a standard supervised learning problem. By ingesting thousands of state-action pairs—such as a human operator's visual feed and their corresponding joystick movements—the agent learns a policy that maps new observations directly to predicted actions.
Link to this sectionDavranışsal Klonlama Pekiştirmeli Öğrenmeden Nasıl Ayrılır?#
Pekiştirmeli öğrenme, bir ajanın bir ortamla etkileşime girmesini ve bir ödül sinyalini maksimize ederek deneme yanılma yoluyla öğrenmesini gerektirirken, davranışsal klonlama tamamen statik, önceden kaydedilmiş veri kümelerine dayanır. Ortam etkileşimi veya açık ödül fonksiyonları olmadan çalıştığı için, bir Markov Karar Süreci formüle etmenin karmaşıklıklarından kaçınır. Ancak, bu basitlik, ajanın uzman performansını aşan yeni çözümler keşfedemeyeceği anlamına gelir. Son dönemdeki çevrimdışı pekiştirmeli öğrenme yöntemleri, ödüllerle daha fazla optimize etmeden önce başlangıç model eğitimini stabilize etmek için genellikle davranışsal klonlamayı sağlam bir başlangıç noktası olarak kullanır.
Link to this sectionGerçek Dünya Uygulamaları#
Davranışsal klonlama, matematiksel bir ödül fonksiyonu tasarlamanın son derece zor olduğu ancak insan gösterim verilerini toplamanın nispeten kolay olduğu alanlarda yaygın olarak kullanılmaktadır.
- Otonom Sürüş: NVIDIA DRIVE gibi modern kendi kendine sürüş sistemleri, uçtan uca davranışsal klonlamadan yoğun bir şekilde yararlanır. Binlerce saatlik insan sürüş verisi üzerinde eğitim alarak, modeller gelen bilgisayarlı görü akışlarından doğrudan direksiyon açıları ve hızlanma komutları üretmeyi öğrenir.
- Robotik Manipülasyon: Uzaktan kumandalı robotik kollar, paketleri sıralamak, üretilmiş parçaları birleştirmek veya çamaşır katlamak gibi karmaşık fiziksel görevleri öğrenmek için davranışsal klonlama kullanır. İnsan gösterimlerinin tam eklem açılarını ve görsel durumlarını kaydederek, modeller ince motor becerilerini yüksek hassasiyetle kopyalayabilir.
Link to this sectionBileşik Hata Problemi#
Bu tekniğin en önemli sınırlaması, genellikle bileşik hatalar olarak bilinen kovaryant kaymasıdır. Eğitim sırasında, ajan sadece mükemmel uzman yörüngelerinden öğrenir. Gerçek dünyadaki kapalı döngü yürütmede, küçük bir başlangıç hatası, ajanı eğitim verilerinde bulunmayan tanıdık olmayan bir duruma sürükler. İyileşme bilgisinden yoksun olduğundan, sonraki eylemler hızla bozulur ve görevin tamamen başarısız olmasına yol açar. Bu sorunu hafifletmek, büyük, çeşitli veri kümeleri ve hedeflenmiş veri artırma gerektirir.
Link to this sectionSon Gelişmeler: Difüzyon Politikaları ve Eylem Parçalama#
Geleneksel sınırlamaların üstesinden gelmek için, modern derin öğrenme mimarileri üretken teknikleri entegre etmektedir. Difüzyon politikaları, son derece karmaşık, çok modlu eylem dağılımlarını temsil etmek için difüzyon modellerinin matematiksel çerçevesinden yararlanır ve ajanların belirsiz senaryoları zarif bir şekilde ele almasını sağlar; bu, güncel robotik araştırmalarında derinlemesine incelenen bir kavramdır. Eş zamanlı olarak, eylem parçalama, bir ajanın tek bir adım yerine gelecekteki eylemlerin bir dizisini tahmin etmesine olanak tanır, böylece reaktif hata sıklığını en aza indirir ve daha pürüzsüz bir yürütme sağlar.
Link to this sectionBilgisayarlı Görü ile Pratik Uygulama#
Uygulamada, davranışsal klonlama, çevresel durumları politika ağına aktarmadan önce çıkarmak için güçlü bir algılama omurgasına dayanır. Veri kümelerini yönetmek için Ultralytics Platform kullanırken, geliştiriciler genellikle yüksek hızlı nesne algılama modellerini PyTorch gibi sinir ağı kütüphaneleri veya TorchRL gibi özel kontrol paketleriyle eşleştirir.
Ultralytics YOLO26 modelinin, bir direksiyon eylemi tahmin eden temel bir PyTorch davranışsal klonlama politikasına beslemek üzere uzamsal koordinatları çıkararak nasıl bir algılama katmanı görevi görebileceğini aşağıdaki Python kod parçacığı göstermektedir.
import torch
import torch.nn as nn
from ultralytics import YOLO
# Load an Ultralytics YOLO26 model as the perception layer
perception_model = YOLO("yolo26n.pt")
results = perception_model("robot_camera_feed.jpg")
# Extract the bounding box center to define the current environmental state
if len(results[0].boxes) > 0:
box = results[0].boxes[0].xywh.squeeze()
state = torch.tensor([box[0], box[1]]) # x, y center coordinates
# A simplified PyTorch Behavioral Cloning policy mapping states to actions
bc_policy = nn.Linear(in_features=2, out_features=1)
# Predict the expert-cloned action (e.g., a steering angle)
predicted_action = bc_policy(state)
print(f"Predicted cloned action: {predicted_action.item()}")OpenAI ve Anthropic gibi kuruluşlardan gelen araştırmalar fiziksel zeka için temel modellere doğru ilerledikçe, davranışsal klonlama makinelerin karmaşık gerçek dünya ortamlarını yorumlamayı ve bu ortamlarda gezinmeyi öğrenmesi için bir temel taşı olmaya devam edecektir.






