Glossar

Faltungsneuronales Netz (CNN)

Entdecken Sie, wie Convolutional Neural Networks (CNNs) die Computer-Vision revolutionieren und die KI im Gesundheitswesen, bei selbstfahrenden Autos und vielem mehr unterstützen.

Ein neuronales Faltungsnetzwerk (Convolutional Neural Network, CNN) ist eine spezielle Art von neuronalem Netzwerk (NN), das sich besonders gut für die Verarbeitung von Daten mit einer gitterartigen Topologie eignet, wie z. B. Bilder. Nach dem Vorbild des menschlichen visuellen Kortex lernen CNNs automatisch und adaptiv räumliche Hierarchien von Merkmalen aus Eingabedaten. Dies macht sie zur grundlegenden Architektur für die meisten modernen Computer-Vision-Aufgaben (CV), bei denen sie in allen Bereichen von der Bildklassifizierung bis zur Objekterkennung Spitzenergebnisse erzielt haben.

Wie die Cnn's arbeiten

Im Gegensatz zu einem normalen neuronalen Netz, bei dem jedes Neuron in einer Schicht mit jedem Neuron in der nächsten verbunden ist, verwenden CNNs eine spezielle mathematische Operation, die Faltung genannt wird. Dadurch kann das Netz Merkmale in einem lokalen rezeptiven Feld lernen, wobei die räumlichen Beziehungen zwischen Pixeln erhalten bleiben.

Eine typische CNN-Architektur besteht aus mehreren Schlüsselebenen:

  1. Faltungsschicht: Dies ist der zentrale Baustein, bei dem ein Filter oder Kernel über das Eingabebild gleitet, um Merkmalskarten zu erstellen. Diese Karten heben Muster wie Kanten, Ecken und Texturen hervor. Die Größe dieser Filter und die Muster, die sie erkennen, werden während des Modelltrainings gelernt.
  2. Aktivierungsschicht: Nach jeder Faltung wird eine Aktivierungsfunktion wie ReLU angewendet, um Nichtlinearität einzuführen, so dass das Modell komplexere Muster lernen kann.
  3. Pooling-Ebene (Downsampling): Diese Schicht reduziert die räumlichen Dimensionen (Breite und Höhe) der Merkmalskarten, was den Rechenaufwand verringert und dazu beiträgt, dass die erkannten Merkmale robuster gegenüber Änderungen der Position und Ausrichtung sind. Ein klassischer Artikel zu diesem Thema ist ImageNet Classification with Deep Convolutional Neural Networks.
  4. Vollverknüpfte Schicht: Nach mehreren Faltungsschichten und Pooling-Schichten werden die High-Level-Merkmale abgeflacht und an eine vollverknüpfte Schicht weitergeleitet, die eine Klassifizierung auf der Grundlage der gelernten Merkmale vornimmt.

Cnn im Vergleich zu anderen Architekturen

CNNs sind zwar eine Art von Deep-Learning-Modell, unterscheiden sich aber deutlich von anderen Architekturen.

  • Neuronale Netze (NNs): Ein Standard-NN behandelt die Eingabedaten als flachen Vektor, wobei alle räumlichen Informationen verloren gehen. CNNs bewahren diese Informationen, was sie ideal für die Bildanalyse macht.
  • Vision Transformers (ViTs): Im Gegensatz zu CNNs, die eine starke induktive Tendenz zur räumlichen Lokalisierung haben, ViTs ein Bild als eine Folge von Flecken behandeln und eine Selbstaufmerksamkeit Mechanismus zum Erlernen globaler Beziehungen. ViTs benötigen oft mehr Daten zum Trainieren, können sich aber bei Aufgaben auszeichnen, bei denen ein weitreichender Kontext wichtig ist. Viele moderne Modelle, wie RT-DETRverwenden einen hybriden Ansatz, bei dem ein CNN backbone mit einem Transformator-basierten detection head.

Anwendungen in der realen Welt

CNNs sind die treibende Kraft hinter zahllosen Anwendungen in der realen Welt:

  • Objekt-Erkennung: Modelle aus der Ultralytics YOLO-Familie, wie YOLOv8 und YOLO11, nutzen CNN-Backbones, um Objekte in Bildern und Videos mit bemerkenswerter Geschwindigkeit und Genauigkeit zu identifizieren und zu lokalisieren. Diese Technologie ist von entscheidender Bedeutung für alles, von KI in Automobilsystemen bis hin zu KI-gesteuertem Bestandsmanagement.
  • Medizinische Bildanalyse: Im Gesundheitswesen unterstützen CNNs Radiologen bei der Analyse medizinischer Scans (Röntgenbilder, MRTs, CTs), um Tumore, Knochenbrüche und andere Anomalien zu erkennen. Diese Anwendung trägt dazu bei, die Diagnosegeschwindigkeit und -konsistenz zu verbessern, wie Forschungsergebnisse von Institutionen wie den National Institutes of Health (NIH) zeigen. Weitere Informationen über die medizinische Bildanalyse mit Ultralytics finden Sie hier.
  • Bildsegmentierung: Für Aufgaben, die ein Verständnis auf Pixelebene erfordern, wie z. B. in autonomen Fahrzeugen, die die Straße von einem Fußgänger unterscheiden müssen, werden CNN-basierte Architekturen wie U-Net häufig für die Bildsegmentierung verwendet.

Tools und Rahmenwerke

Die Entwicklung und der Einsatz von CNNs wird durch leistungsstarke Tools und Frameworks unterstützt:

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert