Convolutional Neural Network (CNN) (Faltungsneuronales Netz)
Entdecken Sie, wie Convolutional Neural Networks (CNNs) die Computer Vision revolutionieren und KI im Gesundheitswesen, in selbstfahrenden Autos und mehr ermöglichen.
Ein Convolutional Neural Network (CNN) ist eine spezielle Klasse von
Architektur des tiefen Lernens (DL), die für die
Daten zu verarbeiten, die eine gitterartige Topologie aufweisen, wie z. B. digitale Bilder. Inspiriert von der biologischen Struktur des
visuellen Kortex von Tieren inspiriert, sind CNNs in einzigartiger Weise in der Lage
automatisch räumliche Hierarchien von Merkmalen zu lernen. Im Gegensatz zu herkömmlichen neuronalen Netzen, die die Eingabedaten als eine
flache Liste von Zahlen behandeln, bewahren CNNs die räumlichen Beziehungen zwischen Pixeln, was sie zur grundlegenden Technologie
hinter den meisten modernen
Computer Vision (CV) Anwendungen. Durch
effizientes Filtern der Eingaben, um aussagekräftige Muster zu extrahieren, treiben diese Netze Fortschritte voran, die von der Gesichts
Gesichtserkennung auf Smartphones bis hin zu Diagnosetools in der
medizinischen Bildanalyse.
Wie Faltungsneuronale Netze funktionieren
Die Effektivität eines CNN liegt in seiner Fähigkeit, Bilder in eine Form zu bringen, die leichter zu verarbeiten ist, ohne dabei
Merkmale zu verlieren, die für eine gute Vorhersage entscheidend sind. Dies wird durch eine Reihe von spezialisierten Schichten erreicht:
-
Faltungsschicht: Dies ist der zentrale Baustein. Er verwendet eine Reihe von lernfähigen Filtern, oft
genannt Kernel, die über das Eingangsbild gleiten. Dieser mathematische Prozess, bekannt als
Faltung, erzeugt
Merkmalskarten, die bestimmte Muster wie Kanten
Kanten, Kurven oder Texturen hervorheben. Sie können diesen Prozess visualisieren durch
interaktive CNN-Erklärungen visualisieren, um zu sehen, wie Filter
visuelle Daten.
-
Aktivierungsfunktion: Nach der Faltung wird eine nichtlineare Funktion auf die Merkmalskarten angewendet. Die
häufigste Wahl ist die
ReLU (Rectified Linear Unit), die
negative Pixelwerte durch Null ersetzt. Dadurch wird eine Nichtlinearität eingeführt, die es dem Netz ermöglicht, komplexe
Beziehungen zu lernen und nicht nur lineare Kombinationen.
-
Pooling-Schicht: Auch bekannt als Downsampling, reduziert diese Schicht die Dimensionalität der Merkmalskarte.
Karte. Techniken wie Max Pooling wählen die auffälligsten
Merkmale in einer Region, wodurch die Rechenlast verringert und die Verallgemeinerung des Modells durch Verhinderung
Überanpassung.
-
Vollständig verknüpfte Schicht: In der letzten Stufe werden die hochrangigen Merkmale abgeflacht und in ein
standardmäßiges neuronales Netz (NN) eingespeist. Diese Schicht
führt die endgültige Klassifizierungs- oder Regressionsaufgabe auf der Grundlage der von den vorherigen Schichten extrahierten Merkmale durch.
Bedeutung und Anwendungen in der realen Welt
CNNs haben den Bereich der künstlichen Intelligenz revolutioniert, da sie die manuelle Merkmalsextraktion überflüssig machen.
Ihre Fähigkeit, unverwechselbare Merkmale direkt aus
Trainingsdaten zu lernen, hat zu einer weiten Verbreitung in
verschiedenen Branchen.
-
Objekterkennung für autonome Systeme: In der Automobilindustrie sind CNNs entscheidend dafür, dass
selbstfahrende Autos ihre Umwelt wahrnehmen
Umgebung wahrzunehmen. Modelle wie YOLO11 nutzen ein CNN-basiertes
zur detect Fußgängern, Verkehrsschildern und anderen Fahrzeugen
Fahrzeuge in Echtzeit mit hoher Genauigkeit zu erkennen.
-
Diagnostik im Gesundheitswesen: CNNs unterstützen Radiologen bei der Erkennung von Anomalien in medizinischen Scans. Unter
können Deep-Learning-Modelle Röntgenbilder oder MRT-Scans analysieren, um Tumore oder Frakturen schneller detect als
Inspektion allein. Forschungen der
Nationalen Gesundheitsinstituts (NIH)
zeigen, wie diese automatisierten Werkzeuge die diagnostische Konsistenz erheblich verbessern.
-
Einzelhandel und Inventarverwaltung: Automatisierte Kassensysteme und
intelligente Bestandsverwaltung
stützen sich auf CNNs, um Produkte in den Regalen zu erkennen, Lagerbestände track und Verluste zu verhindern, was die Abläufe bei
großen Einzelhändlern.
Unterscheidung zwischen CNNs und verwandten Konzepten
CNNs werden zwar oft austauschbar mit allgemeinen KI-Begriffen verwendet, weisen aber im Vergleich zu anderen Architekturen unterschiedliche Merkmale auf
Architekturen:
-
CNN vs. Standard-Neuronale Netze: Ein herkömmliches voll vernetztes neuronales Netz verbindet jedes Eingabe
Neuron mit jedem Ausgangsneuron. Bei der Anwendung auf Bilder führt dies zu einer großen Anzahl von Parametern und einem Verlust an
räumlichen Struktur. Im Gegensatz dazu verwenden CNNs die gemeinsame Nutzung von Parametern (Verwendung desselben Filters für das gesamte Bild).
Bild), was sie für visuelle Daten sehr effizient macht.
-
CNN vs. Vision Transformers (ViT): Während CNNs sich auf lokale Merkmale durch Faltung konzentrieren,
verarbeiten Vision Transformers (ViT) Bilder
als Sequenzen von Flecken unter Verwendung eines
Selbstbeobachtungsmechanismus zur Erfassung des globalen
Kontext. ViTs benötigen oft größere Datensätze, um effektiv zu trainieren, während CNNs eine starke "induktive
Verzerrung" haben, die sie auch mit kleineren Datensätzen gut funktionieren lässt. Hybride Modelle kombinieren oft beides, wie man an
Architekturen wie RT-DETR.
Beispiel für die Umsetzung
Moderne Bibliotheken machen es einfach, die Leistung von CNNs zu nutzen. Die ultralytics Paket bietet
Zugang zu hochmodernen Modellen wie YOLO11, die über optimierte CNN-Backbones für schnelle Inferenz verfügen.
Das folgende Beispiel zeigt, wie man ein vorab trainiertes CNN-basiertes Modell lädt und eine Vorhersage durchführt:
from ultralytics import YOLO
# Load a YOLO11 model, which uses a highly optimized CNN architecture
model = YOLO("yolo11n.pt")
# Run object detection on an image to identify features and objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the prediction results
results[0].show()
Tools und Rahmenwerke für die Entwicklung
Die Entwicklung von CNNs wird durch ein robustes Ökosystem von Open-Source-Tools unterstützt. Forscher und Ingenieure verwenden typischerweise
Frameworks wie PyTorch oder
TensorFlow um eigene Architekturen von Grund auf zu entwickeln. Diese Bibliotheken
bieten die tensor , die für Faltung und Backpropagation erforderlich sind.
Für alle, die den Lebenszyklus von Computer-Vision-Projekten - von der Datenverwaltung bis zur Bereitstellung - rationalisieren möchten, bietet die
Ultralytics eine umfassende Lösung. Sie vereinfacht die komplexen Arbeitsabläufe
Arbeitsabläufe bei der Modellschulung und ermöglicht es Teams, sich auf die
Anwendung von CNNs zur Lösung von Geschäftsproblemen konzentrieren, anstatt die Infrastruktur zu verwalten. Außerdem wird die Bereitstellung dieser Modelle auf
Edge-Geräte durch Formate wie ONNX und
TensorRTdie eine hohe Leistung in Produktionsumgebungen
Umgebungen.