Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Yayılım Modelleri

Difüzyon modellerinin, gerçekçi görüntüler, videolar ve verileri benzersiz ayrıntı ve kararlılıkla oluşturarak üretken yapay zekada nasıl devrim yarattığını keşfedin.

Difüzyon modelleri bir sınıftır Yeni ürünler yaratmayı öğrenen üretken yapay zeka algoritmaları kademeli bir gürültü ekleme sürecini tersine çevirerek veri örnekleri. Denge dışı prensiplerden esinlenilmiştir termodinamik olarak bu modeller ortaya çıkmıştır. yüksek doğrulukta görüntü, ses ve video üretmek için en son teknoloji. Önceki yöntemlerin aksine tek bir adımda karmaşık bir çıktı üretmeye çalışırken, difüzyon modelleri rastgele durağanlığı iteratif olarak tutarlı içerikte detay ve semantik yapı üzerinde benzeri görülmemiş bir kontrol sağlar. bilgisayarla görme görevleri.

Difüzyon Mekanizması

Difüzyon modellerinin işleyişi iki farklı aşamaya ayrılabilir: ileri süreç ve geri süreç süreç.

  1. İleri Süreç (Yayılma): Bu aşama, verilerin yapısının sistematik olarak yok edilmesini içerir. Eğitim verilerinden net bir görüntü ile başlayın, model, küçük miktarlarda Gauss gürültüsü ekler. zaman adımları serisi. Sonunda veriler saf, yapılandırılmamış rastgele gürültüye dönüşür. Bu süreç tipik olarak sabittir ve bir Markov zinciri kuralını takip eder.
  2. Ters İşlem (Denoising): Çekirdek makine öğrenimi görevi bu aşamada yatmaktadır. A sinir ağı -genelliklebir U-Net mimarisi- her adımda eklenen gürültüyü tahmin etmek ve çıkarmak için eğitilmiştir. Bozulmayı tersine çevirmeyi öğrenerek model şunları yapabilir saf gürültü ile başlar ve yepyeni, tutarlı bir görüntü halüsinasyonu oluşturmak için aşamalı olarak "denoise" eder.

Temel araştırma gibi araştırmalar Denoising Difüzyon Olasılık Modelleri (DDPM) makalesi Bu iteratif iyileştirmeyi istikrarlı ve etkili kılan matematiksel çerçeve.

Difüzyon ve GAN'lar

Difüzyon modelleri ön plana çıkmadan önce, Üretken Çekişmeli Ağlar (GAN'lar) görüntü sentezi için baskın yaklaşımdı. Her ikisi de güçlü olmakla birlikte, temelde farklılık gösterirler:

  • Eğitim Kararlılığı: Difüzyon modellerinin eğitilmesi genellikle daha kolaydır. GAN'lar bir düşmana dayanır İki ağ (jeneratör ve diskriminatör) arasındaki oyun, genellikle mod çökmesine veya kararsızlığa yol açar. Difüzyon, aşağıdakilerle ilgili daha istikrarlı bir kayıp fonksiyonu kullanır gürültü tahminine.
  • Çıktı Çeşitliliği: Difüzyon modelleri, çeşitli ve son derece ayrıntılı örnekler üretmede üstünlük sağlarken GAN'lar veri kümesinin tüm dağılımını kapsamakta zorlanabilir.
  • Çıkarım Hızı: GAN'ların görüntüleri tek bir geçişte oluşturduğu bir değiş tokuş vardır, bu da onları daha hızlıdır. Difüzyon modelleri, bir görüntüyü rafine etmek için birden fazla adım gerektirir ve bu da daha yüksek çıkarım gecikmesi. Ancak, daha yeni teknikler gizli difüzyon gibi ( gizli difüzyonda kullanılan Kararlı Difüzyon) işlemi bir üzerinde hızı önemli ölçüde artırmak için sıkıştırılmış gizli alan tüketici GPU'ları.

Gerçek Dünya Uygulamaları

Difüzyon modellerinin çok yönlülüğü çeşitli sektörlere yayılarak yaratıcılığı artıran ve mühendislik iş akışları.

  • Sentetik Veri Üretimi: Etiketli gerçek dünya verilerinin elde edilmesi pahalı veya gizlilik açısından hassas olabilir. Difüzyon modelleri büyük miktarlarda gerçekçi Sağlam eğitim için sentetik veri nesne algılama modelleri. Örneğin, bir mühendis eğitmek için nadir endüstriyel kusurların binlerce sentetik görüntüsünü oluşturabilir YOLO11 kalite güvencesi için.
  • Yüksek Gerçeklikli Görüntü Oluşturma: DALL-E 3 gibi araçlar, Midjourney, ve Adobe Firefly, metin istemlerini farklı metinlere dönüştürmek için difüzyondan yararlanır profesyonel düzeyde sanat eserleri ve varlıklar.
  • Tıbbi Görüntüleme: Sağlık hizmetlerinde, difüzyon modelleri aşağıdakilere yardımcı olur süper çözünürlük, yüksek kaliteli yeniden yapılandırma Daha düşük çözünürlüklü girdilerden MRI veya CT taramaları, doğru tıbbi görüntü analizi.
  • Video ve Ses Sentezi: Bu kavram, statik görüntülerin ötesinde zamansal verilere kadar uzanmaktadır. Gibi modeller OpenAI tarafından Sora ve Runway ML, tutarlı video dizileri oluşturmak için difüzyon ilkelerini uygular ve gerçekçi ses manzaraları.

İleri Sürecin Uygulanması

Difüzyon modellerinin eğitim için verileri nasıl hazırladığını anlamak için ileri süreci görselleştirmek faydalı olacaktır. Bu aşağıdaki PyTorch kod parçacığı Gauss gürültü bir tensor eklenerek tek bir bozulma adımı simüle edilir.

import torch


def add_gaussian_noise(image_tensor, noise_level=0.1):
    """Simulates one step of the forward diffusion process by adding noise.

    Args:
        image_tensor (torch.Tensor): Input image tensor.
        noise_level (float): Standard deviation of the noise.
    """
    noise = torch.randn_like(image_tensor) * noise_level
    noisy_image = image_tensor + noise
    return noisy_image


# Create a dummy tensor representing a 640x640 image
clean_img = torch.zeros(1, 3, 640, 640)
noisy_output = add_gaussian_noise(clean_img, noise_level=0.2)

print(f"Output shape: {noisy_output.shape} | Noise added successfully.")

Bu süreci tersine çevirerek, model sinyali gürültüden kurtarmayı öğrenir ve karmaşık sinyallerin üretilmesini sağlar. sonraki görevler için veri kümelerini artırmak amacıyla kullanılabilecek görseller görüntü segmentasyonu veya sınıflandırma gibi.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın