Computer Use Agents (CUAs)

Bilgisayar Kullanım Temsilcilerinin (CUA) GUI'leri insanlar gibi nasıl otomatikleştirdiğini keşfet. Ultralytics YOLO26'yı kullanarak gelişmiş CUA algı sistemleri oluşturmayı öğren.

Bilgisayar Kullanım Ajanları (CUA'lar), yapay zeka sistemlerinin dijital ortamlarla nasıl etkileşime girdiğine dair büyük bir sıçramayı temsil eder. Yalnızca arka uç API'lerine veya metin tabanlı komutlara dayanan geleneksel AI Ajanlarından farklı olarak bir CUA, bir grafik kullanıcı arayüzü (GUI) ile tıpkı bir insanın yapacağı gibi etkileşime girmek üzere tasarlanmıştır. Ekranı gözlemleyerek, imleci hareket ettirerek, öğelere tıklayarak ve sanal bir klavyede yazarak CUA'lar, soyut Üretken Yapay Zeka yetenekleri ile pratik, günlük yazılım operasyonları arasındaki boşluğu doldurur.

Bu evrim, genellikle Yapay Genel Zeka'ya (AGI) doğru bir adım olarak görülür; çünkü yapay zekanın kendine özgü görsel ortamları sorunsuz bir şekilde algılamasını ve bu ortamlarda gezinmesini gerektirerek, bazen Moravec'in Paradoksu olarak adlandırılan makine zekasının tarihsel sınırlamalarına meydan okur.

Link to this sectionGörsel Arayüzlere Geçiş#

Tarihsel olarak, farklı yazılım uygulamalarındaki görevleri otomatikleştirmek, doğrudan entegrasyonlar veya katı DOM tabanlı ayrıştırma gerektiriyordu. Ancak, en yeni nesil CUA'lar, ekrandaki pikselleri yorumlamak için gelişmiş Görüş-Dil Modelleri (VLM) ve karmaşık Bilgisayarlı Görü (CV) tekniklerinden yararlanır.

2024 sonu ile 2025 başı arasındaki önemli buluşlar, CUA'nın benimsenmesini hızlandırdı. Örneğin, Anthropic'in Claude Computer Use aracı, modellerin bir masaüstüne bakması ve uygulamalarda gezinmesi için genelleştirilmiş bir API sundu. Benzer şekilde, OpenAI'ın Operator ürünü, açık uçlu web tarama görevlerini yerine getirebilen bir araştırma önizlemesi olarak piyasaya sürüldü. Bu sistemler artık karmaşık, çok adımlı dijital iş akışlarını tamamlama yeteneklerini ölçmek için WebArena ve OSWorld gibi titiz kıyaslama testlerinde düzenli olarak değerlendirilmektedir.

Because these agents have direct control over a system, developers are strongly advised to run them inside sandboxed Virtual Machines to mitigate risks such as unintended actions or malicious Prompt Injection.

Link to this sectionGerçek Dünya Uygulamaları#

CUA'lar, izole edilmiş yazılım ekosistemlerinde karmaşık ve çok adımlı görevleri yürüterek endüstrileri hızla dönüştürüyor.

Otonom Kalite Güvencesi (QA): GUI otomasyon testlerinde, CUA'lar web uygulamalarında görsel olarak gezinebilir, kullanıcı iş akışlarına tıklayabilir ve kırılgan test betikleri olmadan düzen öğelerini doğrulayabilir. Bir düğme renk değiştirirse veya hareket ederse, ajan buna doğal bir şekilde uyum sağlar.
Eski Nesil Robotik Süreç Otomasyonu: Modern API'lerden yoksun eski masaüstü uygulamaları için CUA'lar, Robotik Süreç Otomasyonunu (RPA) güçlendirir. Ajan, eski bir CRM'i açabilir, yapılandırılmamış faturaları okuyabilir ve çıkarılan verileri sisteme manuel olarak girerek kurumsal veri girişini kolaylaştırabilir.

Link to this sectionCUA'lar İçin Algı Oluşturma#

Büyük VLM'ler tüm ekran görüntülerini analiz edebilse de, bunları yerelleştirilmiş nesne algılama modelleriyle eşleştirmek genellikle daha verimli ve doğrudur. Bu modeller; düğmeler, simgeler ve metin alanları gibi UI öğelerini gerçek zamanlı olarak haritalandırarak ajanın tıklaması için kesin koordinatlar sağlar.

Geliştiriciler, bir CUA için son derece duyarlı algı katmanları oluşturmak amacıyla PyTorch ile birlikte Ultralytics YOLO26 modelini kullanabilirler. Ultralytics Platformu, özel GUI veri setleri üzerinde model eğitimi için kullanılabilir. Aşağıdaki Python kod parçacığı, bir CUA'nın ekrandaki bir düğmeyi bulmak için ultralytics paketinin tahmin modunu nasıl kullanabileceğini göstermektedir:

from ultralytics import YOLO

# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")

# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")

# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
    if model.names[int(box.cls)] == "button":
        x1, y1, x2, y2 = box.xyxy[0].tolist()
        print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")

Link to this sectionCUA'lar ve İlgili Kavramlar#

Bilgisayar Kullanım Ajanlarının daha geniş yapay zeka ekosistemine nasıl uyum sağladığını anlamak, doğru eylem parçalama stratejilerini uygulamak için esastır:

Auto-GPT ile Karşılaştırma: Auto-GPT öncelikle metin üretimine ve görevleri döngüye sokmak için önceden tanımlanmış betiklere dayanan otonom bir ajan olsa da, bir CUA görsel arayüzlerle ve işletim sistemleriyle doğrudan etkileşime girer.
İşlev Çağırma (Araç Kullanımı) ile Karşılaştırma: İşlev Çağırma (Araç Kullanımı), bir yapay zekanın belirli, önceden tanımlanmış bir arka uç kod işlevini (hava durumu API'sini almak gibi) yürütmesine olanak tanır. Buna karşılık CUA'lar, uç kullanıcı tıpkı bir son kullanıcı gibi dijital ortamı manipüle ederek ön uç UI eylemlerini gerçekleştirir.