Glossar

Capsule Networks (CapsNet)

Entdecke Capsule Networks (CapsNets): Eine bahnbrechende neuronale Netzwerkarchitektur, die sich durch räumliche Hierarchien und Merkmalsbeziehungen auszeichnet.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Capsule Networks, oft als CapsNets abgekürzt, sind eine innovative Art von neuronalen Netzwerken (NN), die als Alternative zu traditionellen Convolutional Neural Networks (CNNs) entwickelt wurden. CapsNets wurden erstmals von dem KI-Forscher Geoffrey Hinton und seinem Team vorgestellt und zielen darauf ab, die grundlegenden Einschränkungen bei der Verarbeitung räumlicher Hierarchien und Beziehungen zwischen Merkmalen in einem Bild durch CNNs zu beseitigen. CNNs sind zwar hervorragend in der Merkmalsextraktion, aber ihre Verwendung von Pooling-Schichten kann zu einem Verlust an präzisen räumlichen Informationen führen. CapsNets schlagen einen anderen Ansatz vor, bei dem "Kapseln" verwendet werden - Gruppen von Neuronen, die Vektoren anstelle von einzelnen skalaren Werten ausgeben. Diese Vektoren kodieren umfangreichere Informationen über erkannte Merkmale, darunter Eigenschaften wie die Position (Position, Ausrichtung, Maßstab) und die Wahrscheinlichkeit des Vorhandenseins des Merkmals. Diese Struktur ermöglicht es CapsNets, Teil-Ganzes-Beziehungen besser zu modellieren und das räumliche Bewusstsein aufrechtzuerhalten, was zu einer verbesserten Robustheit gegenüber Veränderungen des Blickwinkels bei Computer-Vision-Aufgaben (CV) führen kann.

Kernkonzepte

Das zentrale Element eines CapsNet ist die "Capsule". Im Gegensatz zu normalen Neuronen erkennt jede Kapsel ein bestimmtes Objekt innerhalb eines Bereichs der Eingabe und gibt einen Vektor aus. Die Größe (Länge) des Vektors gibt die Wahrscheinlichkeit an, dass das erkannte Objekt existiert, während seine Ausrichtung die Instanziierungsparameter des Objekts darstellt, z. B. seine genaue Position oder Texturdetails. Diese vektorbasierte Ausgabe unterscheidet sich deutlich von der skalaren Aktivierung, die in vielen anderen Deep Learning-Modellen (DL) üblich ist.

Die Kapseln in den unteren Schichten erstellen mithilfe von Transformationsmatrizen Vorhersagen für die Ausgaben der Kapseln in den höheren Schichten. Ein entscheidender Mechanismus, der als "Routing-by-Agreement" bekannt ist, bestimmt dynamisch die Verbindungen zwischen diesen Ebenen. Wenn die Vorhersagen mehrerer untergeordneter Kapseln hinsichtlich des Vorhandenseins und der Position eines übergeordneten Merkmals übereinstimmen, wird die entsprechende übergeordnete Kapsel aktiv. Dieser dynamische Routing-Prozess ermöglicht es dem Netzwerk, Teile zu erkennen und zu verstehen, wie sie sich zu einem Ganzen zusammenfügen, wobei räumliche Hierarchien effektiv erhalten bleiben. Die grundlegenden Ideen werden in dem Papier"Dynamic Routing Between Capsules" ausführlich beschrieben. Dieser Ansatz hilft bei Aufgaben, die ein differenziertes Verständnis der Objektzusammensetzung erfordern, und kann die Leistung verbessern, ohne dass umfangreiche Datenerweiterungen erforderlich sind.

Hauptunterschiede zu Convolutional Neural Networks (CNNs)

CapsNets bieten im Vergleich zu den weit verbreiteten CNNs ein anderes Paradigma, insbesondere bei der Verarbeitung räumlicher Daten und der Darstellung von Merkmalen:

  • Behandlung räumlicher Hierarchien: CNNs verlieren oft räumliche Informationen durch Pooling-Layer, die das Vorhandensein von Merkmalen über Regionen zusammenfassen. CapsNets sind so konzipiert, dass sie explizit hierarchische Beziehungen zwischen den Merkmalen beibehalten, wodurch sie die Struktur von Objekten besser verstehen.
  • Merkmalsrepräsentation: CNNs verwenden normalerweise skalare Aktivierungen, um das Vorhandensein eines Merkmals darzustellen. CapsNets verwenden Vektorausgänge (Capsules), die sowohl das Vorhandensein als auch die Eigenschaften (wie Pose und Verformung) eines Merkmals kodieren.
  • Blickpunkt-Äquivarianz: CapsNets zielen auf Äquivarianz ab, d.h. die Repräsentation ändert sich vorhersehbar mit Blickwinkelveränderungen, während CNNs oft große Mengen an Trainingsdaten benötigen, um Blickwinkelinvarianz zu lernen.
  • Routing-Mechanismus: CNNs verwenden Max-Pooling oder andere statische Pooling-Methoden. CapsNets verwenden ein dynamisches Routing-by-Agreement, das Verbindungen auf der Grundlage der Konsistenz der Vorhersagen zwischen den Kapselschichten gewichtet.

Vorteile von Kapselnetzwerken

CapsNets bieten mehrere potenzielle Vorteile gegenüber herkömmlichen neuronalen Netzwerkarchitekturen:

  • Verbesserte Robustheit gegenüber Blickwinkeln: Durch ihre Struktur können sie besser auf neue Sichtweisen verallgemeinert werden, ohne dass sie diese speziellen Sichtweisen beim Training sehen müssen.
  • Bessere Modellierung von Teil-Ganzes-Beziehungen: Der Routing-Mechanismus hilft CapsNets zu verstehen, wie sich Teile zu Objekten verbinden, was für komplexe Bilderkennungsaufgaben entscheidend ist.
  • Daten-Effizienz: Im Vergleich zu CNNs können sie mit kleineren Datensätzen eine hohe Genauigkeit erreichen, insbesondere bei Aufgaben, die auf räumliche Beziehungen reagieren.
  • Segmentierung von sich überlappenden Objekten: Die Fähigkeit, mehrere Objekte und ihre Posen innerhalb einer Region darzustellen, könnte bei Aufgaben wie der Segmentierung von Instanzen helfen, bei denen sich Objekte stark überschneiden. Die Verwaltung von Training und Einsatz kann über Plattformen wie Ultralytics HUB erfolgen.

Anwendungen in der realen Welt

Obwohl CapsNets immer noch in erster Linie ein Bereich aktiver Forschung sind und weniger häufig eingesetzt werden als etablierte Modelle wie Ultralytics YOLO oder YOLO11sind, haben sie sich in verschiedenen Bereichen als vielversprechend erwiesen:

  1. Erkennung von Buchstaben: CapsNets erzielten die besten Ergebnisse im MNIST-Datensatz handgeschriebener Ziffern und zeigten, dass sie in der Lage sind, Variationen in der Ausrichtung und im Stil effektiv zu handhaben und übertrafen in einigen Benchmarks traditionelle Bildklassifizierungsansätze.
  2. Medizinische Bildanalyse: Ihre Stärke, räumliche Konfigurationen zu verstehen, macht sie für die Analyse medizinischer Scans geeignet. In der Forschung wurde beispielsweise der Einsatz von CapsNets für Aufgaben wie die Segmentierung von Hirntumoren untersucht, bei denen es darauf ankommt, die genaue Form und Lage von Anomalien zu erkennen. Dies fällt in den breiteren Bereich der medizinischen Bildanalyse.

Weitere mögliche Anwendungen sind die Verbesserung der Objekterkennung, insbesondere bei unübersichtlichen Szenen, die Verbesserung des Szenenverständnisses in der Robotik und die Entwicklung robusterer Wahrnehmungssysteme für autonome Fahrzeuge. Auch wenn die Rechenanforderungen nach wie vor eine Herausforderung darstellen, zielen die laufenden Forschungsarbeiten darauf ab, die Effizienz von CapsNet für breitere Anwendungen des maschinellen Lernens (ML) zu optimieren und möglicherweise in Frameworks wie PyTorch oder TensorFlow. Du kannst Vergleiche zwischen verschiedenen Objekterkennungsmodellen anstellen, um herauszufinden, wo CapsNets in Zukunft eingesetzt werden könnten.

Alles lesen