Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Diffusion Models

Scopri come i modelli di diffusione utilizzano l'AI generativa per creare dati ad alta fedeltà. Impara a migliorare l'addestramento di Ultralytics YOLO26 con dati sintetici realistici oggi stesso.

I modelli di diffusione sono una classe di algoritmi di intelligenza artificiale generativa che imparano a creare nuovi campioni di dati invertendo un processo graduale di aggiunta di rumore. A differenza dei tradizionali modelli discriminativi utilizzati per attività come il rilevamento oggetti o la classificazione, che prevedono etichette dai dati, i modelli di diffusione si concentrano sulla generazione di contenuti ad alta fedeltà (in particolare immagini, audio e video) che imitano da vicino le proprietà statistiche dei dati del mondo reale. Sono diventati rapidamente la soluzione all'avanguardia per la sintesi di immagini ad alta risoluzione, superando i precedenti leader come le Reti Generative Avversarie (GAN) grazie alla loro stabilità di addestramento e alla capacità di generare output diversificati.

Link to this sectionCome funzionano i modelli di diffusione#

Il meccanismo centrale di un modello di diffusione si basa sulla termodinamica di non equilibrio. Il processo di addestramento coinvolge due fasi distinte: il processo in avanti (diffusione) e il processo inverso (denoising).

  • Processo in avanti: Questa fase distrugge sistematicamente la struttura di un'immagine di addestramento aggiungendo piccole quantità di rumore gaussiano in una serie di passaggi temporali. Man mano che il processo continua, i dati complessi (come la foto di un gatto) si trasformano gradualmente in rumore casuale puro e non strutturato.
  • Processo inverso: L'obiettivo della rete neurale è imparare a invertire questa corruzione. Partendo dal rumore casuale, il modello prevede il rumore che è stato aggiunto in ogni passaggio e lo sottrae. Rimuovendo iterativamente il rumore, il modello "pulisce" il segnale casuale fino a far emergere un'immagine coerente e di alta qualità.

Questo affinamento iterativo consente un controllo eccezionale sui dettagli e sulla trama, un vantaggio significativo rispetto ai metodi di generazione a singolo passaggio.

Link to this sectionApplicazioni nel mondo reale#

I modelli di diffusione sono andati oltre la ricerca accademica, diventando strumenti pratici di livello industriale in diversi settori.

  • Generazione di dati sintetici: Una delle applicazioni più preziose per gli ingegneri di computer vision è la creazione di dati sintetici per aumentare i dataset di addestramento. Se un dataset manca di diversità, ad esempio se mancano immagini di auto in condizioni di neve, un modello di diffusione può generare variazioni realistiche. Questo aiuta a migliorare la robustezza di modelli di visione come YOLO26 quando vengono distribuiti in ambienti imprevedibili.
  • Inpainting e modifica di immagini: I modelli di diffusione alimentano strumenti di editing avanzati che consentono agli utenti di modificare regioni specifiche di un'immagine. Questa tecnica, nota come inpainting, può rimuovere oggetti indesiderati o riempire parti mancanti di una foto in base al contesto circostante. Architetti e designer la utilizzano per la prototipazione rapida, visualizzando modifiche a prodotti o ambienti senza dover ricorrere al rendering 3D manuale.

Link to this sectionDifferenziare i termini chiave#

È utile distinguere i modelli di diffusione da altre architetture generative:

  • Modelli di diffusione vs. GAN: Mentre le GAN utilizzano due reti in competizione (un generatore e un discriminatore) e sono note per il campionamento veloce, spesso soffrono di "mode collapse", in cui il modello produce varietà limitate di output. I modelli di diffusione sono generalmente più stabili durante l'addestramento e coprono la distribuzione dei dati in modo più completo, sebbene possano essere più lenti in fase di inferenza.
  • Modelli di diffusione vs. VAE: I Variational Autoencoders (VAE) comprimono i dati in uno spazio latente per poi ricostruirli. Sebbene i VAE siano veloci, le immagini generate possono talvolta apparire sfocate rispetto ai dettagli nitidi prodotti dai processi di diffusione.

Link to this sectionImplementazione pratica#

Mentre l'addestramento di un modello di diffusione da zero richiede una notevole potenza di calcolo, gli ingegneri possono sfruttare modelli pre-addestrati o integrarli in flussi di lavoro insieme a rilevatori efficienti. Ad esempio, potresti utilizzare un modello di diffusione per generare variazioni di sfondo per un dataset e poi utilizzare la Ultralytics Platform per annotare e addestrare un modello di rilevamento su quei dati migliorati.

Di seguito è riportato un esempio concettuale che utilizza torch per simulare un semplice passaggio di diffusione in avanti (aggiunta di rumore), che è il fondamento dell'addestramento di questi sistemi.

import torch


def add_noise(image_tensor, noise_level=0.1):
    """Simulates a single step of the forward diffusion process by adding Gaussian noise."""
    # Generate Gaussian noise with the same shape as the input image
    noise = torch.randn_like(image_tensor) * noise_level

    # Add noise to the original image
    noisy_image = image_tensor + noise

    # Clamp values to ensure they remain valid image data (e.g., 0.0 to 1.0)
    return torch.clamp(noisy_image, 0.0, 1.0)


# Create a dummy image tensor (3 channels, 64x64 pixels)
dummy_image = torch.rand(1, 3, 64, 64)
noisy_result = add_noise(dummy_image)

print(f"Original shape: {dummy_image.shape}, Noisy shape: {noisy_result.shape}")

Link to this sectionProspettive Future#

Il campo si sta evolvendo rapidamente verso i modelli di diffusione latente (LDM), che operano in uno spazio latente compresso anziché nello spazio dei pixel per ridurre i costi computazionali. Questa efficienza rende fattibile l'esecuzione di potenti modelli generativi su hardware consumer. Con il proseguire della ricerca, prevediamo una maggiore integrazione tra input generativi e attività discriminative, come l'utilizzo di scenari generati dalla diffusione per convalidare la sicurezza dei veicoli autonomi o migliorare l'analisi di immagini mediche simulando patologie rare.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning