Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

ControlNet

Scopri come ControlNet offre un controllo spaziale preciso sull'IA generativa. Impara a utilizzare Ultralytics per estrarre pose che guidano la generazione di immagini oggi stesso.

ControlNet è un'architettura di rete neurale avanzata progettata per garantire un controllo spaziale dettagliato su modelli di IA generativi di grandi dimensioni che trasformano il testo in immagini. Introdotta originariamente per migliorare modelli come Stable Diffusion, consente agli utenti di guidare la generazione di immagini utilizzando condizioni di input aggiuntive oltre ai semplici prompt di testo. Inserendo nella rete guide visive specifiche, come mappe dei bordi , mappe di profondità o scheletri umani, i professionisti possono dettare l'esatta composizione, postura o struttura dell'output generato, colmando il divario tra le descrizioni in linguaggio naturale e l'esecuzione visiva precisa .

Come funziona l'architettura

L'innovazione principale di ControlNet risiede nella sua capacità di preservare la vasta conoscenza pre-addestrata di un modello di base mentre apprende nuovi compiti di condizionamento . Ciò è possibile bloccando i parametri del blocco della rete neurale originale e creando un clone addestrabile . Questo clone è collegato al modello bloccato utilizzando livelli specializzati di "convoluzione zero", che vengono inizializzati con pesi pari a zero per garantire che non venga aggiunto alcun rumore durante le prime fasi di messa a punto. Per ulteriori informazioni sulla teoria matematica e strutturale, consultare la pubblicazione originale della ricerca ControlNet su arXiv.

Questa struttura unica consente agli sviluppatori di addestrare controlli di condizionamento robusti su hardware di livello consumer, rendendola altamente accessibile rispetto all'addestramento di un modello di deep learning massiccio partendo da zero.

ControlNet vs. Modelli di diffusione e LoRA

Quando si parla di intelligenza artificiale generativa, è utile differenziare ControlNet dai concetti correlati:

  • Modelli di diffusione: sono i motori di base sottostanti che generano immagini rimuovendo il rumore in modo iterativo. Si basano quasi esclusivamente su prompt di testo.
  • LoRA (Low-Rank Adaptation): LoRA è un metodo per insegnare rapidamente a un modello un nuovo stile o soggetto (come un personaggio specifico o uno stile artistico). Al contrario, ControlNet determina l'esatta disposizione spaziale dell'immagine.

Applicazioni nel mondo reale

ControlNet ha notevolmente ampliato l'utilità della visione artificiale e dell'IA generativa nei flussi di lavoro professionali.

  • Rendering di concetti architettonici: architetti e interior designer utilizzano ControlNet per trasformare i progetti di base in bianco e nero realizzati con il CAD (computer-aided design) o gli schizzi disegnati a mano in rendering fotorealistici di edifici e stanze.
  • Posa dei personaggi nello sviluppo dei videogiochi: gli animatori sfruttano modelli di stima della posa umana per estrarre strutture scheletriche da un video di riferimento. Questi scheletri vengono inseriti in ControlNet per generare sprite di personaggi coerenti e stilizzati che mantengono pose esatte per le risorse dei videogiochi, riducendo significativamente il tempo di illustrazione manuale.

Preparazione delle condizioni per ControlNet

Per utilizzare ControlNet in modo efficace, è necessario innanzitutto estrarre la condizione spaziale desiderata da un'immagine sorgente. Ad esempio, è possibile utilizzare Ultralytics , l'ultimo modello di visione all'avanguardia, per estrarre uno scheletro della posa umana. Questo scheletro viene quindi salvato e utilizzato come input di condizionamento per una pipeline da testo a immagine abilitata per ControlNet.

from ultralytics import YOLO

# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")

# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")

Sia che si stiano preparando bordi Canny utilizzando OpenCV standard OpenCV o che si stiano estraendo maschere di segmentazione avanzate, è essenziale preparare input di alta qualità. Per la gestione dei set di dati basata su cloud e l' annotazione dei dati necessaria per addestrare le condizioni personalizzate di ControlNet, piattaforme come Ultralytics forniscono un ambiente end-to-end senza soluzione di continuità per i moderni team di IA.

Potenziamento con Ultralytics YOLO

Ottieni una visione AI avanzata per i tuoi progetti. Trova oggi stesso la licenza giusta per i tuoi obiettivi.

Esplora le opzioni di licenza