ControlNet'in üretken yapay zeka üzerinde nasıl hassas uzamsal kontrol sağladığını keşfedin. Görüntü oluşturmayı yönlendirmek için pozları çıkarmak üzere Ultralytics kullanmayı öğrenin.
ControlNet, büyük metin-görüntü üretici AI modelleri üzerinde ince ayarlı, uzamsal kontrol sağlamak için tasarlanmış gelişmiş bir sinir ağı mimarisidir. Başlangıçta Stable Diffusion gibi modelleri geliştirmek için tanıtılan bu mimari, kullanıcıların sadece metin komutlarının ötesinde ek giriş koşulları kullanarak görüntü üretimini yönlendirmelerine olanak tanır. Kenar haritaları, derinlik haritaları veya insan iskeletleri gibi belirli görsel kılavuzları ağa besleyerek, uygulayıcılar üretilen çıktının tam kompozisyonunu, duruşunu veya yapısını belirleyebilir ve doğal dil açıklamaları ile kesin görsel uygulama arasındaki boşluğu kapatabilirler.
ControlNet'in temel yeniliği, yeni koşullandırma görevlerini öğrenirken temel modelin önceden eğitilmiş geniş bilgisini koruma yeteneğinde yatmaktadır. Bunu, orijinal sinir ağı bloğunun parametrelerini kilitleyerek ve eğitilebilir bir klon oluşturarak başarır. Bu klon, kilitli modele özel "sıfır konvolüsyon" katmanları ile bağlanır. Bu klon, kilitli modele özel "sıfır konvolüsyon" katmanları kullanılarak bağlanır. Bu katmanlar, ince ayarlamanın ilk aşamalarında gürültü eklenmemesini sağlamak için sıfır ağırlıklarla başlatılır. Matematiksel ve yapısal teori hakkında daha fazla bilgiyi arXiv'deki orijinal ControlNet araştırma yayınında bulabilirsiniz.
Bu benzersiz yapı, geliştiricilerin tüketici sınıfı donanımlarda sağlam koşullandırma kontrolleri eğitmesine olanak tanıyarak, sıfırdan devasa bir derin öğrenme modeli eğitmeye kıyasla son derece erişilebilir hale getirir.
Üretken yapay zeka tartışılırken, ControlNet'i ilgili kavramlardan ayırmak yararlıdır:
ControlNet, profesyonel iş akışlarında bilgisayar görme ve üretken yapay zekanın kullanım alanını önemli ölçüde genişletmiştir.
ControlNet'i etkili bir şekilde kullanmak için, önce kaynak görüntüden istenen uzamsal koşulu çıkarmanız gerekir. Örneğin , Ultralytics , en son teknoloji ürünü görme modelini kullanarak insan poz iskeletini çıkarabilirsiniz. Bu iskelet daha sonra kaydedilir ve ControlNet özellikli metinden görüntüye dönüştürme boru hattı için koşullandırma girdisi olarak kullanılır.
from ultralytics import YOLO
# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")
# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")
Standart OpenCV kullanarak Canny kenarları hazırlıyor veya gelişmiş segmentasyon maskeleri çıkarıyor olsanız da, yüksek kaliteli girdiler hazırlamak çok önemlidir. Bulut tabanlı veri kümesi yönetimi ve özel ControlNet koşullarını eğitmek için gereken veri açıklamaları için Ultralytics gibi platformlar, modern AI ekipleri için sorunsuz, uçtan uca bir ortam sağlar.