Computer Use Agents (CUAs)
Bilgisayar Kullanım Ajanlarının (CUA) GUI'leri tıpkı insanlar gibi nasıl otomatize ettiğini keşfet. Ultralytics YOLO26 kullanarak gelişmiş CUA algı sistemleri kurmayı öğren.
Bilgisayar Kullanım Ajanları (CUA'lar), yapay zeka sistemlerinin dijital ortamlarla etkileşim kurma biçiminde büyük bir sıçramayı temsil eder. Yalnızca arka uç API'lerine veya metin tabanlı komutlara dayanan geleneksel AI Ajanlarından farklı olarak bir CUA, tıpkı bir insanın yapacağı gibi bir grafik kullanıcı arayüzü (GUI) ile etkileşime girecek şekilde tasarlanmıştır. Ekranı gözlemleyerek, imleci hareket ettirerek, öğelere tıklayarak ve sanal klavyede yazı yazarak CUA'lar, soyut Üretken YZ yetenekleri ile pratik, günlük yazılım operasyonları arasındaki boşluğu doldurur.
Bu evrim, genellikle Yapay Genel Zeka'ya (AGI) doğru atılmış bir adım olarak görülür; çünkü YZ'nin kendine özgü görsel ortamları sorunsuz bir şekilde algılamasını ve gezinmesini gerektirerek, bazen Moravec Paradoksu olarak adlandırılan makine zekasının tarihsel sınırlamalarına meydan okur.
Link to this sectionGörsel Arayüzlere Geçiş#
Tarihsel olarak, farklı yazılım uygulamalarındaki görevleri otomatikleştirmek, doğrudan entegrasyonlar veya katı DOM tabanlı ayrıştırma gerektiriyordu. Ancak, en yeni nesil CUA'lar, ekrandaki pikselleri yorumlamak için gelişmiş Görsel-Dil Modellerinden (VLM) ve sofistike Bilgisayarlı Görü (CV) tekniklerinden yararlanır.
2024 sonu ile 2025 başı arasındaki önemli buluşlar, CUA'nın benimsenmesini hızlandırdı. Örneğin, Anthropic'in Claude Computer Use özelliği, modellerin bir masaüstüne bakması ve uygulamalarda tıklamalar yapması için genelleştirilmiş bir API sundu. Benzer şekilde, OpenAI'ın Operator ürünü, uç uca web tarama görevlerini yürütebilen bir araştırma önizlemesi olarak piyasaya sürüldü. Bu sistemler artık karmaşık, çok adımlı dijital iş akışlarını tamamlama yeteneklerini ölçmek için WebArena ve OSWorld gibi sıkı kriterler üzerinde düzenli olarak değerlendiriliyor.
Because these agents have direct control over a system, developers are strongly advised to run them inside sandboxed Virtual Machines to mitigate risks such as unintended actions or malicious Prompt Injection.
Link to this sectionGerçek Dünya Uygulamaları#
CUA'lar, izole yazılım ekosistemlerinde karmaşık ve çok adımlı görevleri yürüterek endüstrileri hızla dönüştürüyor.
- Otonom Kalite Güvencesi (QA): GUI otomasyon testlerinde, CUA'lar web uygulamaları arasında görsel olarak gezinebilir, kullanıcı iş akışlarına tıklayabilir ve kırılgan test betikleri olmadan düzen öğelerini doğrulayabilir. Bir düğme renk değiştirirse veya hareket ederse, ajan buna doğal bir şekilde uyum sağlar.
- Eski Nesil Robotik Süreç Otomasyonu: Modern API'lerden yoksun eski masaüstü uygulamaları için CUA'lar, Robotik Süreç Otomasyonunu (RPA) süper şarj eder. Ajan eski bir CRM'i açabilir, yapılandırılmamış faturaları okuyabilir ve çıkarılan verileri manuel olarak sisteme yazarak kurumsal veri girişini kolaylaştırabilir.
Link to this sectionCUA'lar için Algı Oluşturma#
Büyük VLM'ler tüm ekran görüntülerini analiz edebilse de, bunları yerelleştirilmiş nesne algılama modelleriyle eşleştirmek genellikle daha verimli ve doğrudur. Bu modeller, düğmeler, simgeler ve metin alanları gibi UI öğelerini gerçek zamanlı olarak haritalandırarak ajanın tıklaması için kesin koordinatlar sağlar.
Geliştiriciler, bir CUA için son derece duyarlı algı katmanları oluşturmak amacıyla PyTorch ile birlikte Ultralytics YOLO26 modelini kullanabilirler. Ultralytics Platformu, özel GUI veri kümeleri üzerinde model eğitimi için kullanılabilir. Aşağıdaki Python kod parçası, bir CUA'nın ekrandaki bir düğmeyi bulmak için ultralytics paketinin tahmin modunu nasıl kullanabileceğini göstermektedir:
from ultralytics import YOLO
# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")
# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")
# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
if model.names[int(box.cls)] == "button":
x1, y1, x2, y2 = box.xyxy[0].tolist()
print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")Link to this sectionCUA'lar ve İlgili Kavramlar#
Bilgisayar Kullanım Ajanlarının daha geniş YZ ekosistemine nasıl uyum sağladığını anlamak, doğru eylem parçalama stratejilerini uygulamak için esastır:
- vs. Auto-GPT: Auto-GPT öncelikle metin üretimine ve görevleri döngüsel olarak gerçekleştirmek için önceden tanımlanmış betiklere dayanan otonom bir ajan olsa da, bir CUA doğası gereği görsel arayüzlerle ve işletim sistemleriyle doğrudan etkileşime girer.
- vs. Fonksiyon Çağırma (Araç Kullanımı): Fonksiyon Çağırma (Araç Kullanımı), bir YZ'nin belirli, önceden tanımlanmış bir arka uç kod fonksiyonunu (hava durumu API'si almak gibi) yürütmesine olanak tanır. Buna karşılık CUA'lar, dijital ortamı tıpkı bir son kullanıcının yapacağı gibi manipüle ederek ön uç UI eylemlerini gerçekleştirir.






