Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

ControlNet

Erkunde, wie ControlNet eine präzise räumliche Steuerung über generative KI bietet. Lerne, Ultralytics YOLO26 zum Extrahieren von Posen zu verwenden, um die Bildgenerierung heute zu steuern.

ControlNet ist eine fortschrittliche neuronale Netzwerkarchitektur, die entwickelt wurde, um eine fein abgestimmte, räumliche Kontrolle über große generative KI-Modelle zu ermöglichen. Ursprünglich eingeführt, um Modelle wie Stable Diffusion zu verbessern, erlaubt es Nutzern, die Bildgenerierung über zusätzliche Eingabebedingungen hinaus, die über reine Text-Prompts hinausgehen, zu steuern. Indem spezifische visuelle Leitfäden – wie Kantenkarten, Tiefenkarten oder menschliche Skelette – in das Netzwerk eingespeist werden, können Anwender die exakte Komposition, Haltung oder Struktur des generierten Outputs bestimmen und so die Lücke zwischen natürlichsprachlichen Beschreibungen und präziser visueller Ausführung schließen.

Link to this sectionWie die Architektur funktioniert#

Die Kerninnovation von ControlNet liegt in der Fähigkeit, das umfangreiche, vortrainierte Wissen eines Grundlagenmodells zu bewahren und gleichzeitig neue Konditionierungsaufgaben zu erlernen. Dies wird erreicht, indem die Parameter des ursprünglichen neuronalen Netzwerk-Blocks gesperrt und ein trainierbares Klon-Modell erstellt werden. Dieser Klon wird mithilfe spezialisierter "Zero-Convolution"-Layer mit dem gesperrten Modell verbunden, die mit Nullgewichten initialisiert werden, um sicherzustellen, dass in den frühen Phasen des Fine-Tunings kein Rauschen hinzugefügt wird. Mehr über die mathematische und strukturelle Theorie erfährst du in der ursprünglichen ControlNet-Forschungspublikation auf arXiv.

Diese einzigartige Struktur ermöglicht es Entwicklern, robuste Konditionierungskontrollen auf Consumer-Hardware zu trainieren, was den Ansatz im Vergleich zum Training eines massiven Deep-Learning-Modells von Grund auf wesentlich zugänglicher macht.

Link to this sectionControlNet vs. Diffusionsmodelle und LoRA#

Wenn es um generative Künstliche Intelligenz geht, ist es hilfreich, ControlNet von verwandten Konzepten zu unterscheiden:

  • Diffusionsmodelle: Dies sind die zugrunde liegenden Basis-Engines, die Bilder durch iteratives Entfernen von Rauschen generieren. Sie verlassen sich fast ausschließlich auf Text-Prompts.
  • LoRA (Low-Rank Adaptation): LoRA ist eine Methode, um einem Modell schnell einen neuen Stil oder ein neues Thema (wie einen bestimmten Charakter oder Kunststil) beizubringen. Im Gegensatz dazu gibt ControlNet die exakte räumliche Anordnung des Bildes vor.

Link to this sectionPraxisanwendungen#

ControlNet hat den Nutzen von Computer Vision und generativer KI in professionellen Arbeitsabläufen drastisch erweitert.

  • Architektonische Konzeptvisualisierung: Architekten und Innenarchitekten nutzen ControlNet, um grundlegende schwarz-weiße computergestützte Designentwürfe (CAD) oder handgezeichnete Skizzen in fotorealistische Renderings von Gebäuden und Räumen zu verwandeln.
  • Charakter-Posing in der Spieleentwicklung: Animatoren nutzen Modelle zur menschlichen Pose Estimation, um Skelettstrukturen aus einem Referenzvideo zu extrahieren. Diese Skelette werden in ControlNet eingespeist, um konsistente, stilisierte Charakter-Sprites zu generieren, die exakte Posen für Videospiel-Assets einnehmen, was die manuelle Illustrationszeit erheblich reduziert.

Link to this sectionVorbereitung von Bedingungen für ControlNet#

Um ControlNet effektiv zu nutzen, musst du zuerst die gewünschte räumliche Bedingung aus einem Quellbild extrahieren. Beispielsweise kannst du Ultralytics YOLO26, das neueste State-of-the-Art-Vision-Modell, verwenden, um ein menschliches Posen-Skelett zu extrahieren. Dieses Skelett wird dann gespeichert und als Konditionierungseingabe für eine ControlNet-fähige Text-zu-Bild-Pipeline verwendet.

from ultralytics import YOLO

# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")

# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")

Egal, ob du Canny-Kanten mit Standard-OpenCV-Funktionen vorbereitest oder erweiterte Segmentierungsmasken extrahierst – die Bereitstellung hochwertiger Eingabedaten ist entscheidend. Für cloudbasiertes Datensatzmanagement und Datenannotation, die für das Training benutzerdefinierter ControlNet-Bedingungen erforderlich sind, bieten Plattformen wie die Ultralytics Platform eine nahtlose End-to-End-Umgebung für moderne KI-Teams.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens