Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

Capsule Networks (CapsNet)

Erkunde Capsule Networks (CapsNets) und wie sie die Einschränkungen von CNNs lösen. Lerne mehr über dynamisches Routing, räumliche Hierarchien und den Vergleich von CapsNets mit YOLO26.

Kapsel-Netzwerke, oft als CapsNets abgekürzt, stellen eine fortschrittliche Architektur im Bereich des Deep Learning dar, die entwickelt wurde, um spezifische Einschränkungen herkömmlicher neuronaler Netze zu überwinden. CapsNets wurden von Geoffrey Hinton und seinem Team eingeführt und versuchen, die biologische neuronale Organisation des menschlichen Gehirns genauer nachzuahmen als Standardmodelle. Im Gegensatz zu einem typischen convolutional neural network (CNN), das zwar hervorragend Merkmale erkennt, aber durch Downsampling oft räumliche Beziehungen verliert, organisiert ein Kapsel-Netzwerk Neuronen in Gruppen, die „Kapseln“ genannt werden. Diese Kapseln kodieren nicht nur die Wahrscheinlichkeit des Vorhandenseins eines Objekts, sondern auch dessen spezifische Eigenschaften wie Orientierung, Größe und Textur, wodurch die hierarchischen räumlichen Beziehungen innerhalb visueller Daten effektiv bewahrt werden.

Link to this sectionDie Einschränkung traditioneller CNNs#

Um die Innovation von CapsNets zu verstehen, ist es hilfreich, sich anzusehen, wie Standardmodelle der Computer Vision funktionieren. Ein konventionelles CNN verwendet Schichten zur feature extraction, gefolgt von Pooling-Schichten – speziell max pooling –, um die Rechenlast zu reduzieren und Translationsinvarianz zu erreichen. Das bedeutet, ein CNN kann eine „Katze“ identifizieren, unabhängig davon, wo sie sich im Bild befindet.

Dieser Prozess verwirft jedoch oft präzise Standortdaten, was zum „Picasso-Problem“ führt: Ein CNN könnte ein Gesicht korrekt klassifizieren, selbst wenn sich der Mund auf der Stirn befindet, einfach weil alle notwendigen Merkmale vorhanden sind. CapsNets adressieren dies, indem sie Pooling-Schichten entfernen und durch einen Prozess ersetzen, der die spatial hierarchies von Objekten berücksichtigt.

Link to this sectionWie Kapsel-Netzwerke funktionieren#

Der zentrale Baustein dieser Architektur ist die Kapsel, eine verschachtelte Menge von Neuronen, die einen Vektor anstelle eines skalaren Wertes ausgibt. In der vector mathematics hat ein Vektor sowohl einen Betrag als auch eine Richtung. In einem CapsNet:

  • Betrag (Länge): Repräsentiert die Wahrscheinlichkeit, dass eine bestimmte Entität im aktuellen Input existiert.
  • Richtung (Orientierung): Kodiert die Instanziierungsparameter, wie z. B. die pose estimation, Skalierung und Rotation des Objekts.

Kapseln in unteren Schichten (die einfache Formen wie Kanten erkennen) sagen die Ausgabe von Kapseln in höheren Schichten voraus (die komplexe Objekte wie Augen oder Reifen erkennen). Diese Kommunikation wird durch einen Algorithmus namens „dynamic routing“ oder „routing by agreement“ gesteuert. Wenn die Vorhersage einer Kapsel auf niedrigerer Ebene mit dem Zustand der Kapsel auf höherer Ebene übereinstimmt, wird die Verbindung zwischen ihnen gestärkt. Dies ermöglicht es dem Netzwerk, Objekte aus verschiedenen 3D-Perspektiven zu erkennen, ohne dass die massive data augmentation erforderlich ist, die normalerweise benötigt wird, um CNNs Rotation und Skalierung beizubringen.

Link to this sectionHauptunterschiede: CapsNets vs. CNNs#

Obwohl beide Architekturen grundlegend für die computer vision (CV) sind, unterscheiden sie sich in der Art und Weise, wie sie visuelle Daten verarbeiten und darstellen:

  • Skalar vs. Vektor: CNN-Neuronen verwenden skalare Ausgaben, um das Vorhandensein von Merkmalen anzuzeigen. CapsNets verwenden Vektoren, um das Vorhandensein (Länge) und Pose-Parameter (Orientierung) zu kodieren.
  • Routing vs. Pooling: CNNs verwenden Pooling zum Downsampling von Daten, wobei oft Standortdetails verloren gehen. CapsNets verwenden dynamisches Routing, um räumliche Daten zu bewahren, was sie äußerst effektiv für Aufgaben macht, die präzises object tracking erfordern.
  • Dateneffizienz: Da Kapseln implizit 3D-Perspektiven und affine transformations verstehen, können sie oft mit weniger training data verallgemeinern als CNNs, die möglicherweise umfangreiche Beispiele benötigen, um jede mögliche Rotation eines Objekts zu lernen.

Link to this sectionPraxisanwendungen#

Obwohl CapsNets oft rechenintensiver sind als optimierte Modelle wie YOLO26, bieten sie in spezialisierten Bereichen deutliche Vorteile:

  1. Medizinische Bildanalyse: Im Gesundheitswesen sind die präzise Orientierung und Form einer Anomalie entscheidend. Forscher haben CapsNets bei der brain tumor segmentation eingesetzt, wo das Modell einen Tumor anhand subtiler räumlicher Hierarchien vom umgebenden Gewebe unterscheiden muss, die Standard-CNNs möglicherweise glätten würden. Du kannst weiterführende Forschung zu Capsule Networks in Medical Imaging erkunden.

  2. Erkennung überlappender Ziffern: CapsNets erzielten auf dem MNIST dataset modernste Ergebnisse, insbesondere in Szenarien, in denen sich Ziffern überlappen. Da das Netzwerk die „Pose“ jeder Ziffer verfolgt, kann es zwei überlappende Zahlen (z. B. eine '3' über einer '5') als unterschiedliche Objekte entflechten, anstatt sie zu einer einzigen verwirrten Merkmalskarte zu verschmelzen.

Link to this sectionPraktischer Kontext und Implementierung#

Kapsel-Netzwerke sind primär eine Klassifizierungsarchitektur. Während sie theoretische Robustheit bieten, bevorzugen moderne Industrieanwendungen oft Hochgeschwindigkeits-CNNs oder Transformer für Echtzeitleistung. Dennoch ist das Verständnis der für CapsNets verwendeten Klassifizierungs-Benchmarks, wie z. B. MNIST, nützlich.

Das folgende Beispiel zeigt, wie du ein modernes YOLO classification model auf dem MNIST-Datensatz unter Verwendung des ultralytics-Pakets trainierst. Dies entspricht der primären Benchmark-Aufgabe, die zur Validierung von Kapsel-Netzwerken verwendet wird.

from ultralytics import YOLO

# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")

# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)

# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")

Link to this sectionZukunft von Kapseln und Vision AI#

Die Prinzipien hinter Kapsel-Netzwerken beeinflussen weiterhin die Forschung zu AI safety und Interpretierbarkeit. Durch die explizite Modellierung von Teil-Ganzes-Beziehungen bieten Kapseln eine „Glas-Box“-Alternative zur „Black-Box“-Natur tiefer neuronaler Netze, wodurch Entscheidungen nachvollziehbarer werden. Zukünftige Entwicklungen zielen darauf ab, die räumliche Robustheit von Kapseln mit der Inferenzgeschwindigkeit von Architekturen wie YOLO11 oder dem neueren YOLO26 zu kombinieren, um die Leistung bei der 3D object detection und Robotik zu verbessern. Forscher untersuchen zudem Matrix Capsules with EM Routing, um die Rechenkosten des Konsensalgorithmus weiter zu senken.

Für Entwickler, die Datensätze effizient verwalten und Modelle trainieren möchten, bietet die Ultralytics Platform eine einheitliche Umgebung, um Daten zu annotieren, in der Cloud zu trainieren und Modelle bereitzustellen, die die Geschwindigkeit von CNNs mit der für komplexe Vision-Aufgaben erforderlichen Genauigkeit in Einklang bringen.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens