Convolutional Neural Network (CNN) (Faltungsneuronales Netz)
Entdecken Sie, wie Convolutional Neural Networks (CNNs) die Computer Vision revolutionieren und KI im Gesundheitswesen, in selbstfahrenden Autos und mehr ermöglichen.
Ein Convolutional Neural Network (CNN) ist eine spezielle Art von neuronalem Netzwerk (NN), das sich sehr gut für die Verarbeitung von Daten mit einer gitterartigen Topologie eignet, wie z. B. Bilder. Inspiriert von der menschlichen visuellen Cortex lernen CNNs automatisch und adaptiv räumliche Hierarchien von Merkmalen aus Eingabedaten. Dies macht sie zur grundlegenden Architektur für die meisten modernen Computer Vision (CV)-Aufgaben, bei denen sie in allen Bereichen von der Bildklassifizierung bis zur Objekterkennung hervorragende Ergebnisse erzielt haben.
Wie CNNs funktionieren
Im Gegensatz zu einem Standard-Neuronales Netz, bei dem jedes Neuron in einer Schicht mit jedem Neuron in der nächsten Schicht verbunden ist, verwenden CNNs eine spezielle mathematische Operation, die als Faltung bezeichnet wird. Dies ermöglicht es dem Netzwerk, Merkmale in einem lokalen rezeptiven Feld zu erlernen und die räumlichen Beziehungen zwischen Pixeln zu erhalten.
Eine typische CNN-Architektur besteht aus mehreren Schlüsselschichten:
- Faltungsschicht (Convolutional Layer): Dies ist der Kernbaustein, bei dem ein Filter, oder Kernel, über das Eingabebild gleitet, um Feature Maps zu erzeugen. Diese Maps heben Muster wie Kanten, Ecken und Texturen hervor. Die Größe dieser Filter und die Muster, die sie erkennen, werden während des Modelltrainings gelernt.
- Aktivierungsschicht: Nach jeder Faltung wird eine Aktivierungsfunktion wie ReLU angewendet, um Nichtlinearität einzuführen, wodurch das Modell komplexere Muster erlernen kann.
- Pooling-Schicht (Downsampling): Diese Schicht reduziert die räumlichen Dimensionen (Breite und Höhe) der Feature Maps, was die Rechenlast verringert und dazu beiträgt, die erkannten Features robuster gegenüber Positions- und Orientierungsänderungen zu machen. Ein klassisches Paper zu diesem Thema ist ImageNet Classification with Deep Convolutional Neural Networks.
- Vollständig verbundene Schicht: Nach mehreren Faltungs- und Pooling-Schichten werden die High-Level-Features verebnet und an eine vollständig verbundene Schicht übergeben, die eine Klassifizierung basierend auf den gelernten Features durchführt.
CNN vs. andere Architekturen
Obwohl CNNs eine Art von Deep-Learning-Modell sind, unterscheiden sie sich erheblich von anderen Architekturen.
- Neuronale Netze (NNs): Ein Standard-NN behandelt Eingabedaten als flachen Vektor, wodurch alle räumlichen Informationen verloren gehen. CNNs bewahren diese Informationen, was sie ideal für die Bildanalyse macht.
- Vision Transformers (ViTs): Im Gegensatz zu CNNs, die eine starke induktive Voreingenommenheit für räumliche Lokalität aufweisen, ViTs ein Bild als eine Sequenz von Patches behandeln und einen Self-Attention Mechanismus zum Erlernen globaler Beziehungen. ViTs benötigen oft mehr Daten zum Trainieren, können sich aber bei Aufgaben auszeichnen, bei denen ein weitreichender Kontext wichtig ist. Viele moderne Modelle, wie RT-DETR, verwenden Sie einen hybriden Ansatz, der ein CNN kombiniert
backbone mit einem Transformer-basierten detection head.
Anwendungsfälle in der Praxis
CNNs sind die treibende Kraft hinter unzähligen realen Anwendungen:
- Objekterkennung: Modelle aus der Ultralytics YOLO-Familie, wie YOLOv8 und YOLO11, verwenden CNN-Backbones, um Objekte in Bildern und Videos mit bemerkenswerter Geschwindigkeit und Genauigkeit zu identifizieren und zu lokalisieren. Diese Technologie ist entscheidend für alles, von KI in Automobilsystemen bis hin zu KI-gestütztem Bestandsmanagement.
- Medizinische Bildanalyse: Im Gesundheitswesen unterstützen CNNs Radiologen bei der Analyse medizinischer Scans (Röntgenaufnahmen, MRTs, CTs) zur Erkennung von Tumoren, Frakturen und anderen Anomalien. Diese Anwendung trägt zur Verbesserung der Diagnosegeschwindigkeit und -konsistenz bei, wie in Forschungsarbeiten von Institutionen wie den National Institutes of Health (NIH) hervorgehoben wird. Weitere Informationen finden Sie unter medizinische Bildanalyse mit Ultralytics.
- Bildsegmentierung: Für Aufgaben, die ein Verständnis auf Pixelebene erfordern, wie z. B. in autonomen Fahrzeugen, die die Straße von einem Fußgänger unterscheiden müssen, werden CNN-basierte Architekturen wie U-Net häufig für die Bildsegmentierung verwendet.
Tools und Frameworks
Die Entwicklung und Bereitstellung von CNNs wird durch leistungsstarke Tools und Frameworks unterstützt: