ControlNet

Erkunde, wie ControlNet eine präzise räumliche Steuerung über generative KI bietet. Lerne, Ultralytics YOLO26 zum Extrahieren von Posen zu verwenden, um die Bildgenerierung heute zu steuern.

ControlNet ist eine fortschrittliche neuronale Netzwerkarchitektur, die entwickelt wurde, um eine fein abgestimmte, räumliche Kontrolle über große generative KI-Modelle zu ermöglichen. Ursprünglich eingeführt, um Modelle wie Stable Diffusion zu verbessern, erlaubt es Nutzern, die Bildgenerierung über zusätzliche Eingabebedingungen hinaus, die über reine Text-Prompts hinausgehen, zu steuern. Indem spezifische visuelle Leitfäden – wie Kantenkarten, Tiefenkarten oder menschliche Skelette – in das Netzwerk eingespeist werden, können Anwender die exakte Komposition, Haltung oder Struktur des generierten Outputs bestimmen und so die Lücke zwischen natürlichsprachlichen Beschreibungen und präziser visueller Ausführung schließen.

Link to this sectionWie die Architektur funktioniert#

Die Kerninnovation von ControlNet liegt in der Fähigkeit, das umfangreiche, vortrainierte Wissen eines Grundlagenmodells zu bewahren und gleichzeitig neue Konditionierungsaufgaben zu erlernen. Dies wird erreicht, indem die Parameter des ursprünglichen neuronalen Netzwerk-Blocks gesperrt und ein trainierbares Klon-Modell erstellt werden. Dieser Klon wird mithilfe spezialisierter "Zero-Convolution"-Layer mit dem gesperrten Modell verbunden, die mit Nullgewichten initialisiert werden, um sicherzustellen, dass in den frühen Phasen des Fine-Tunings kein Rauschen hinzugefügt wird. Mehr über die mathematische und strukturelle Theorie erfährst du in der ursprünglichen ControlNet-Forschungspublikation auf arXiv.

Diese einzigartige Struktur ermöglicht es Entwicklern, robuste Konditionierungskontrollen auf Consumer-Hardware zu trainieren, was den Ansatz im Vergleich zum Training eines massiven Deep-Learning-Modells von Grund auf wesentlich zugänglicher macht.

Link to this sectionControlNet vs. Diffusionsmodelle und LoRA#

Wenn es um generative Künstliche Intelligenz geht, ist es hilfreich, ControlNet von verwandten Konzepten zu unterscheiden:

Diffusionsmodelle: Dies sind die zugrunde liegenden Basis-Engines, die Bilder durch iteratives Entfernen von Rauschen generieren. Sie verlassen sich fast ausschließlich auf Text-Prompts.
LoRA (Low-Rank Adaptation): LoRA ist eine Methode, um einem Modell schnell einen neuen Stil oder ein neues Thema (wie einen bestimmten Charakter oder Kunststil) beizubringen. Im Gegensatz dazu gibt ControlNet die exakte räumliche Anordnung des Bildes vor.

Link to this sectionPraxisanwendungen#

ControlNet hat den Nutzen von Computer Vision und generativer KI in professionellen Arbeitsabläufen drastisch erweitert.

Architektonische Konzeptvisualisierung: Architekten und Innenarchitekten nutzen ControlNet, um grundlegende schwarz-weiße computergestützte Designentwürfe (CAD) oder handgezeichnete Skizzen in fotorealistische Renderings von Gebäuden und Räumen zu verwandeln.
Charakter-Posing in der Spieleentwicklung: Animatoren nutzen Modelle zur menschlichen Pose Estimation, um Skelettstrukturen aus einem Referenzvideo zu extrahieren. Diese Skelette werden in ControlNet eingespeist, um konsistente, stilisierte Charakter-Sprites zu generieren, die exakte Posen für Videospiel-Assets einnehmen, was die manuelle Illustrationszeit erheblich reduziert.

Link to this sectionVorbereitung von Bedingungen für ControlNet#

Um ControlNet effektiv zu nutzen, musst du zuerst die gewünschte räumliche Bedingung aus einem Quellbild extrahieren. Beispielsweise kannst du Ultralytics YOLO26, das neueste State-of-the-Art-Vision-Modell, verwenden, um ein menschliches Posen-Skelett zu extrahieren. Dieses Skelett wird dann gespeichert und als Konditionierungseingabe für eine ControlNet-fähige Text-zu-Bild-Pipeline verwendet.

from ultralytics import YOLO

# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")

# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")

Egal, ob du Canny-Kanten mit Standard-OpenCV-Funktionen vorbereitest oder erweiterte Segmentierungsmasken extrahierst – die Bereitstellung hochwertiger Eingabedaten ist entscheidend. Für cloudbasiertes Datensatzmanagement und Datenannotation, die für das Training benutzerdefinierter ControlNet-Bedingungen erforderlich sind, bieten Plattformen wie die Ultralytics Platform eine nahtlose End-to-End-Umgebung für moderne KI-Teams.

ControlNet

Link to this sectionWie die Architektur funktioniert#

Link to this sectionControlNet vs. Diffusionsmodelle und LoRA#

Link to this sectionPraxisanwendungen#

Link to this sectionVorbereitung von Bedingungen für ControlNet#

Explore solutions

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

Lass uns gemeinsam die Zukunft der KI bauen!