Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Yayılım Modelleri

Difüzyon modellerinin, yüksek kaliteli veriler oluşturmak için üretken yapay zekayı nasıl kullandığını keşfedin. Gerçekçi sentetik verilerle Ultralytics eğitimini bugün geliştirmeyi öğrenin.

Difüzyon modelleri, kademeli gürültü ekleme sürecini tersine çevirerek yeni veri örnekleri oluşturmayı öğrenen bir tür üretken yapay zeka algoritmasıdır. Nesne algılama veya sınıflandırma gibi görevler için kullanılan ve verilerden etiketleri tahmin eden geleneksel ayırt edici modellerin aksine, difüzyon modelleri, gerçek dünya verilerinin istatistiksel özelliklerini yakından taklit eden yüksek kaliteli içerik (özellikle görüntüler, ses ve videolar) üretmeye odaklanır. Bu modeller, eğitim istikrarı ve çeşitli çıktılar üretme yetenekleri sayesinde, yüksek çözünürlüklü görüntü sentezi için en son teknolojiye sahip çözüm haline gelmiş ve Generative Adversarial Networks (GAN)gibi önceki liderleri geride bırakmıştır. .

Difüzyon Modellerinin Çalışma Şekli

Difüzyon modelinin temel mekanizması, dengesiz termodinamik üzerine kuruludur. Eğitim süreci iki ayrı aşamadan oluşur: ileri süreç (difüzyon) ve ters süreç (gürültü giderme).

  • İleri Süreç: Bu aşama, bir dizi zaman adımında küçük miktarlarda Gauss gürültüsü ekleyerek eğitim görüntüsünün yapısını sistematik olarak yok eder. Süreç devam ettikçe, karmaşık veriler (bir kedi fotoğrafı gibi) yavaş yavaş saf, yapısal olmayan rastgele gürültüye dönüşür.
  • Tersine İşlem: Sinir ağının amacı, bu bozulmayı tersine çevirmeyi öğrenmektir. Rastgele gürültüden başlayarak, model her adımda eklenen gürültüyü tahmin eder ve onu çıkarır. Gürültüyü tekrar tekrar kaldırarak, model tutarlı, yüksek kaliteli bir görüntü ortaya çıkana kadar rastgele sinyali "gürültüsünden arındırır".

Bu yinelemeli iyileştirme, ince ayrıntılar ve doku üzerinde olağanüstü bir kontrol sağlar ve bu, tek adımlı oluşturma yöntemlerine göre önemli bir avantajdır.

Gerçek Dünya Uygulamaları

Difüzyon modelleri, akademik araştırmanın ötesine geçerek çeşitli endüstrilerde pratik, üretim düzeyinde araçlara dönüşmüştür.

  • Sentetik Veri Üretimi: Bilgisayar görme mühendisleri için en değerli uygulamalardan biri, eğitim veri kümelerini genişletmek için sentetik verilerin oluşturulmasıdır. Bir veri kümesinde çeşitlilik eksikliği varsa (örneğin, karlı koşullarda çekilmiş araba görüntüleri eksikse), bir yayılma modeli gerçekçi varyasyonlar üretebilir. Bu, öngörülemeyen ortamlarda kullanıldığında YOLO26 gibi görme modellerinin sağlamlığını artırmaya yardımcı olur.
  • Görüntü Doldurma ve Düzenleme: Difüzyon modelleri, kullanıcıların bir görüntünün belirli bölgelerini değiştirmelerine olanak tanıyan gelişmiş düzenleme araçlarını destekler. Doldurma olarak bilinen bu teknik, istenmeyen nesneleri kaldırabilir veya fotoğrafın eksik kısımlarını çevresindeki bağlama göre doldurabilir. Mimarlar ve tasarımcılar bunu hızlı prototip oluşturma, manuel 3D render gerektirmeden ürün veya ortamlardaki değişiklikleri görselleştirme amacıyla kullanır.

Anahtar Terimlerin Farklılaştırılması

Difüzyon modellerini diğer üretici mimarilerden ayırmak yararlıdır:

  • Difüzyon Modelleri ve GAN'lar: GAN'lar iki rakip ağ (bir üreteç ve bir ayırt edici) kullanır ve hızlı örnekleme ile bilinirler, ancak genellikle modelin sınırlı çeşitlilikte çıktı ürettiği "mod çöküşü" sorunuyla karşılaşırlar. Difüzyon modelleri genellikle eğitim sırasında daha kararlıdır ve verilerin dağılımını daha kapsamlı bir şekilde kapsar, ancak çıkarım zamanında daha yavaş olabilirler.
  • Difüzyon Modelleri ve VAE'ler: Varyasyonel Otomatik Kodlayıcılar (VAE'ler) verileri gizli bir alana sıkıştırır ve ardından yeniden yapılandırır. VAE'ler hızlıdır, ancak ürettikleri görüntüler difüzyon süreçlerinin ürettiği net detaylara kıyasla bazen bulanık görünebilir .

Pratik Uygulama

Difüzyon modelini sıfırdan eğitmek önemli miktarda hesaplama gücü gerektirirken, mühendisler önceden eğitilmiş modelleri kullanabilir veya bunları verimli dedektörlerle birlikte iş akışlarına entegre edebilir. Örneğin, bir difüzyon modelini kullanarak bir veri kümesi için arka plan varyasyonları oluşturabilir ve ardından Ultralytics kullanarak bu geliştirilmiş veriler üzerinde bir algılama modelini etiketleyip eğitebilirsiniz.

Aşağıda, kullanılarak kavramsal bir örnek verilmiştir. torch bu sistemlerin eğitiminin temelini oluşturan basit bir ileri difüzyon adımını (gürültü ekleme) simüle etmek için kullanılır.

import torch


def add_noise(image_tensor, noise_level=0.1):
    """Simulates a single step of the forward diffusion process by adding Gaussian noise."""
    # Generate Gaussian noise with the same shape as the input image
    noise = torch.randn_like(image_tensor) * noise_level

    # Add noise to the original image
    noisy_image = image_tensor + noise

    # Clamp values to ensure they remain valid image data (e.g., 0.0 to 1.0)
    return torch.clamp(noisy_image, 0.0, 1.0)


# Create a dummy image tensor (3 channels, 64x64 pixels)
dummy_image = torch.rand(1, 3, 64, 64)
noisy_result = add_noise(dummy_image)

print(f"Original shape: {dummy_image.shape}, Noisy shape: {noisy_result.shape}")

Gelecek Yönelimler

Bu alan, hesaplama maliyetlerini azaltmak için piksel uzayından ziyade sıkıştırılmış gizli uzayda çalışan gizli difüzyon modelleri (LDM'ler) yönünde hızla gelişmektedir. Bu verimlilik, güçlü üretici modellerin tüketici donanımlarında çalıştırılmasını mümkün kılmaktadır. Araştırmalar devam ettikçe, üretici girdiler ile ayrıştırıcı görevler arasında daha sıkı bir entegrasyon olmasını bekliyoruz. Araştırmalar devam ettikçe, üretici girdiler ile ayırt edici görevler arasında daha sıkı bir entegrasyon bekliyoruz. Örneğin, difüzyonla üretilen senaryoların, otonom araçların güvenliğini doğrulamak veya nadir görülen patolojileri simüle ederek tıbbi görüntü analizini iyileştirmek için kullanılması gibi. Tıbbi görüntü analizini iyileştirmek için.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın