Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

ControlNet

Entdecken Sie, wie ControlNet eine präzise räumliche Steuerung generativer KI ermöglicht. Lernen Sie, wie Sie Ultralytics zum Extrahieren von Posen verwenden können, um die Bilderzeugung zu steuern.

ControlNet ist eine fortschrittliche neuronale Netzwerkarchitektur, die entwickelt wurde, um eine detaillierte, räumliche Kontrolle über große Text-zu-Bild-generative KI-Modelle zu ermöglichen. Ursprünglich eingeführt, um Modelle wie Stable Diffusion zu verbessern, ermöglicht es Benutzern, die Bildgenerierung mit zusätzlichen Eingabebedingungen zu steuern, die über reine Textbefehle hinausgehen. Durch die Eingabe spezifischer visueller Vorgaben – wie Kantenkarten , Tiefenkarten oder menschliche Skelette – in das Netzwerk können Anwender die genaue Zusammensetzung, Haltung oder Struktur der generierten Ausgabe vorgeben und so die Lücke zwischen Beschreibungen in natürlicher Sprache und präziser visueller Ausführung schließen.

Wie die Architektur funktioniert

Die zentrale Innovation von ControlNet liegt in seiner Fähigkeit, das umfangreiche, vortrainierte Wissen eines Basis-Grundmodells zu bewahren und gleichzeitig neue Konditionierungsaufgaben zu erlernen . Dies wird erreicht, indem die Parameter des ursprünglichen neuronalen Netzwerkblocks gesperrt und ein trainierbarer Klon erstellt wird. Dieser Klon wird über spezielle „Zero Convolution”-Schichten mit dem gesperrten Modell verbunden, die mit Nullgewichten initialisiert werden, um sicherzustellen, dass in den frühen Phasen der Feinabstimmung kein Rauschen hinzugefügt wird. Weitere Informationen zur mathematischen und strukturellen Theorie finden Sie in der ursprünglichen ControlNet-Forschungspublikation auf arXiv.

Diese einzigartige Struktur ermöglicht es Entwicklern, robuste Konditionierungssteuerungen auf handelsüblicher Hardware zu trainieren, was sie im Vergleich zum Training eines massiven Deep-Learning-Modells von Grund auf

ControlNet vs. Diffusionsmodelle und LoRA

Bei der Erörterung generativer künstlicher Intelligenz ist es hilfreich, ControlNet von verwandten Konzepten zu unterscheiden:

  • Diffusionsmodelle: Dies sind die zugrunde liegenden Basis-Engines, die Bilder durch iteratives Entfernen von Rauschen erzeugen. Sie basieren fast ausschließlich auf Text-Prompts.
  • LoRA (Low-Rank Adaptation): LoRA ist eine Methode, um einem Modell schnell einen neuen Stil oder ein neues Thema beizubringen (z. B. einen bestimmten Charakter oder Kunststil). Im Gegensatz dazu schreibt ControlNet die genaue räumliche Anordnung des Bildes vor.

Anwendungsfälle in der Praxis

ControlNet hat den Nutzen von Computervision und generativer KI in professionellen Arbeitsabläufen

  • Architekturkonzept-Rendering: Architekten und Innenarchitekten verwenden ControlNet, um einfache schwarz-weiße CAD-Entwürfe (Computer-Aided Design) oder handgezeichnete Skizzen in fotorealistische Renderings von Gebäuden und Räumen umzuwandeln.
  • Charakter-Posing in der Spieleentwicklung: Animatoren nutzen Modelle zur Schätzung menschlicher Posen, um Skelettstrukturen aus einem Referenzvideo zu extrahieren. Diese Skelette werden in ControlNet eingespeist, um konsistente, stilisierte Charakter-Sprites zu generieren, die exakte Posen für Videospiel-Assets einnehmen, wodurch der manuelle Illustrationsaufwand erheblich reduziert wird.

Vorbereitung der Bedingungen für ControlNet

Um ControlNet effektiv zu nutzen, müssen Sie zunächst die gewünschte räumliche Bedingung aus einem Quellbild extrahieren. Sie können beispielsweise Ultralytics , das neueste hochmoderne Bildverarbeitungsmodell, verwenden, um ein menschliches Positionsskelett zu extrahieren. Dieses Skelett wird dann gespeichert und als Eingabe für eine ControlNet-fähige Text-zu-Bild-Pipeline

from ultralytics import YOLO

# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")

# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")

Unabhängig davon, ob Sie Canny-Kanten mit OpenCV vorbereiten oder fortgeschrittene Segmentierungsmasken extrahieren, ist die Vorbereitung hochwertiger Eingaben unerlässlich. Für die cloudbasierte Datensatzverwaltung und Datenannotation, die zum Trainieren benutzerdefinierter ControlNet-Bedingungen erforderlich sind, bieten Plattformen wie die Ultralytics eine nahtlose End-to-End-Umgebung für moderne KI-Teams.

Leistungssteigerung mit Ultralytics YOLO

Erhalten Sie fortschrittliche KI-Vision für Ihre Projekte. Finden Sie noch heute die richtige Lizenz für Ihre Ziele.

Lizenzoptionen entdecken