Faltungsneuronales Netz (CNN)

Entdecken Sie, wie Convolutional Neural Networks (CNNs) die Computer-Vision revolutionieren und die KI im Gesundheitswesen, bei selbstfahrenden Autos und vielem mehr unterstützen.

Ein neuronales Faltungsnetzwerk (Convolutional Neural Network, CNN) ist eine spezielle Art von neuronalem Netzwerk (NN), das sich besonders gut für die Verarbeitung von Daten mit einer gitterartigen Topologie eignet, wie z. B. Bilder. Nach dem Vorbild des menschlichen visuellen Kortex lernen CNNs automatisch und adaptiv räumliche Hierarchien von Merkmalen aus Eingabedaten. Dies macht sie zur grundlegenden Architektur für die meisten modernen Computer-Vision-Aufgaben (CV), bei denen sie in allen Bereichen von der Bildklassifizierung bis zur Objekterkennung Spitzenergebnisse erzielt haben.

Wie die Cnn's arbeiten

Im Gegensatz zu einem normalen neuronalen Netz, bei dem jedes Neuron in einer Schicht mit jedem Neuron in der nächsten verbunden ist, verwenden CNNs eine spezielle mathematische Operation, die Faltung genannt wird. Dadurch kann das Netz Merkmale in einem lokalen rezeptiven Feld lernen, wobei die räumlichen Beziehungen zwischen Pixeln erhalten bleiben.

Eine typische CNN-Architektur besteht aus mehreren Schlüsselebenen:

Faltungsschicht: Dies ist der zentrale Baustein, bei dem ein Filter oder Kernel über das Eingabebild gleitet, um Merkmalskarten zu erstellen. Diese Karten heben Muster wie Kanten, Ecken und Texturen hervor. Die Größe dieser Filter und die Muster, die sie erkennen, werden während des Modelltrainings gelernt.
Aktivierungsschicht: Nach jeder Faltung wird eine Aktivierungsfunktion wie ReLU angewendet, um Nichtlinearität einzuführen, so dass das Modell komplexere Muster lernen kann.
Pooling-Ebene (Downsampling): Diese Schicht reduziert die räumlichen Dimensionen (Breite und Höhe) der Merkmalskarten, was den Rechenaufwand verringert und dazu beiträgt, dass die erkannten Merkmale robuster gegenüber Änderungen der Position und Ausrichtung sind. Ein klassischer Artikel zu diesem Thema ist ImageNet Classification with Deep Convolutional Neural Networks.
Vollverknüpfte Schicht: Nach mehreren Faltungsschichten und Pooling-Schichten werden die High-Level-Merkmale abgeflacht und an eine vollverknüpfte Schicht weitergeleitet, die eine Klassifizierung auf der Grundlage der gelernten Merkmale vornimmt.

Cnn im Vergleich zu anderen Architekturen

CNNs sind zwar eine Art von Deep-Learning-Modell, unterscheiden sich aber deutlich von anderen Architekturen.

Neuronale Netze (NNs): Ein Standard-NN behandelt die Eingabedaten als flachen Vektor, wobei alle räumlichen Informationen verloren gehen. CNNs bewahren diese Informationen, was sie ideal für die Bildanalyse macht.
Vision Transformers (ViTs): Im Gegensatz zu CNNs, die eine starke induktive Tendenz zur räumlichen Lokalisierung haben, ViTs ein Bild als eine Folge von Flecken behandeln und eine Selbstaufmerksamkeit Mechanismus zum Erlernen globaler Beziehungen. ViTs benötigen oft mehr Daten zum Trainieren, können sich aber bei Aufgaben auszeichnen, bei denen ein weitreichender Kontext wichtig ist. Viele moderne Modelle, wie RT-DETRverwenden einen hybriden Ansatz, bei dem ein CNN backbone mit einem Transformator-basierten detection head.

Anwendungen in der realen Welt

CNNs sind die treibende Kraft hinter zahllosen Anwendungen in der realen Welt:

Objekt-Erkennung: Modelle aus der Ultralytics YOLO-Familie, wie YOLOv8 und YOLO11, nutzen CNN-Backbones, um Objekte in Bildern und Videos mit bemerkenswerter Geschwindigkeit und Genauigkeit zu identifizieren und zu lokalisieren. Diese Technologie ist von entscheidender Bedeutung für alles, von KI in Automobilsystemen bis hin zu KI-gesteuertem Bestandsmanagement.
Medizinische Bildanalyse: Im Gesundheitswesen unterstützen CNNs Radiologen bei der Analyse medizinischer Scans (Röntgenbilder, MRTs, CTs), um Tumore, Knochenbrüche und andere Anomalien zu erkennen. Diese Anwendung trägt dazu bei, die Diagnosegeschwindigkeit und -konsistenz zu verbessern, wie Forschungsergebnisse von Institutionen wie den National Institutes of Health (NIH) zeigen. Weitere Informationen über die medizinische Bildanalyse mit Ultralytics finden Sie hier.
Bildsegmentierung: Für Aufgaben, die ein Verständnis auf Pixelebene erfordern, wie z. B. in autonomen Fahrzeugen, die die Straße von einem Fußgänger unterscheiden müssen, werden CNN-basierte Architekturen wie U-Net häufig für die Bildsegmentierung verwendet.

Tools und Rahmenwerke

Die Entwicklung und der Einsatz von CNNs wird durch leistungsstarke Tools und Frameworks unterstützt:

Bibliotheken: Beliebte Bibliotheken wie PyTorch (siehe die offizielle PyTorch-Website) und TensorFlow bieten High-Level-APIs für den Aufbau und das Training von CNNs. High-Level-APIs wie Keras vereinfachen die Entwicklung weiter.
Plattformen: Plattformen wie Ultralytics HUB rationalisieren den gesamten Prozess, von der Verwaltung der Datensätze bis zum Training der Modelle und deren Einsatz. Eine effektive Modellerstellung erfordert oft eine sorgfältige Abstimmung der Hyperparameter und profitiert von umfassenden Tipps für die Modellschulung. Für eine optimierte Leistung können Sie Integrationen wie OpenVINO und TensorRT untersuchen.

Faltungsneuronales Netz (CNN)

Flexible Lizenzierungslösung für Unternehmen zur Förderung Ihrer Innovation

Trainieren Sie AI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Trainieren Sie YOLO-Modelle einfach mit Ultralytics HUB

Wie die Cnn's arbeiten

Cnn im Vergleich zu anderen Architekturen

Anwendungen in der realen Welt

Tools und Rahmenwerke

Lesen Sie mehr in dieser Kategorie

Industrielles Internet der Dinge (IIoT) erklärt

Die wichtigsten Highlights von Ultralytics auf der WAIC 2025 in Shanghai

Wie wird Tee mit Technologien wie Vision AI hergestellt?

Werden Sie Mitglied der Ultralytics-Gemeinschaft