Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Convolutional Neural Network (CNN) (Faltungsneuronales Netz)

Entdecken Sie, wie Convolutional Neural Networks (CNNs) moderne Computer Vision ermöglichen. Erfahren Sie mehr über Schichten, Anwendungen und die Ausführung von Ultralytics für Echtzeit-KI.

Ein Convolutional Neural Network (CNN) ist eine spezielle Deep-Learning-Architektur, die für die Verarbeitung von Daten mit einer gitterartigen Topologie, insbesondere digitalen Bildern, entwickelt wurde. Inspiriert von der biologischen Struktur des visuellen Kortex sind CNNs in einzigartiger Weise in der Lage, räumliche Beziehungen innerhalb der Eingabedaten zu bewahren. Im Gegensatz zu herkömmlichen neuronalen Netzen, die ein Bild zu einer langen Liste von Zahlen verflachen, analysieren CNNs kleine, sich überlappende Bereiche eines Bildes, um automatisch Hierarchien von Merkmalen zu lernen – von einfachen Kanten und Texturen bis hin zu komplexen Formen und Objekten. Diese Fähigkeit macht sie zur grundlegenden Technologie hinter modernen Computer-Vision-Systemen (CV).

Wie Faltungsneuronale Netze funktionieren

Die Stärke eines CNN liegt in seiner Fähigkeit, ein komplexes Bild in eine Form zu reduzieren, die leichter zu verarbeiten ist, ohne dabei Merkmale zu verlieren, die für eine gute Vorhersage entscheidend sind. Dies wird durch eine Pipeline aus verschiedenen Schichten erreicht, die das Eingabevolumen in eine Ausgabeklasse oder einen Ausgabewert umwandeln:

  • Faltungsschicht: Dies ist der zentrale Baustein. Er verwendet eine Reihe von lernfähigen Filtern (oder Kernen), die wie eine Taschenlampe über das Eingabebild gleiten. An jeder Position führt der Filter eine mathematische Operation durch, die als Faltung bezeichnet wird, und erstellt eine Merkmalskarte, die bestimmte Muster wie horizontale Linien oder Farbverläufe hervorhebt.
  • Aktivierungsfunktion:Nach der Faltung wird eine nichtlineare Funktion auf die Ausgabe angewendet. Die häufigste Wahl ist die ReLU (Rectified Linear Unit), die negative Pixelwerte in Null umwandelt. Dies führt zu Nichtlinearität, wodurch das Netzwerk komplexe Muster über einfache lineare Beziehungen hinaus lernen kann.
  • Pooling-Schicht: Diese Schicht, auch als Downsampling bekannt, reduziert die Dimensionalität der Merkmalsabbildungen. Techniken wie Max-Pooling behalten nur die wichtigsten Merkmale (die höchsten Werte) in einem Bereich bei, was die Rechenlast reduziert und dazu beiträgt, Überanpassung zu verhindern.
  • Vollständig verbundene Schicht: In der letzten Stufe werden die verarbeiteten Merkmale abgeflacht und in ein Standard -Neuralnetzwerk (NN) eingespeist. Diese Schicht verwendet die von den vorherigen Schichten identifizierten hochrangigen Merkmale, um eine endgültige Klassifizierung oder Vorhersage zu treffen, z. B. „Katze” oder „Hund”.

Anwendungsfälle in der Praxis

CNNs haben Industrien transformiert, indem sie visuelle Aufgaben mit übermenschlicher Genauigkeit automatisieren.

  • Medizinische Diagnostik: Im Gesundheitswesen unterstützen CNNs Radiologen, indem sie Anomalien in medizinischen Scans schneller als das menschliche Auge erkennen. Beispielsweise analysieren Deep-Learning-Modelle MRT- und CT-Scans, um detect Anzeichen von Tumoren oder Frakturen detect . Forschungen zum Einsatz von KI in der Radiologie zeigen, wie diese Tools die Konsistenz und Geschwindigkeit der Diagnose verbessern.
  • Autonome Systeme: Selbstfahrende Autos sind stark auf CNNs angewiesen, um ihre Umgebung wahrzunehmen. Modelle wie YOLO26 nutzen effiziente CNN-Backbones, um Objekte in Echtzeit zu erkennen und Fußgänger, Verkehrszeichen und andere Fahrzeuge zu identifizieren, um in Sekundenbruchteilen Fahrentscheidungen zu treffen.

CNNs vs. Vision Transformers (ViT)

Während CNNs lange Zeit der Standard für Bildverarbeitungsaufgaben waren, ist eine neuere Architektur namens Vision Transformer (ViT) entstanden.

  • CNNs verarbeiten Bilder anhand lokaler Merkmale und sind aufgrund ihrer „induktiven Voreinstellung” (sie gehen davon aus, dass benachbarte Pixel miteinander in Zusammenhang stehen) bei kleineren Datensätzen äußerst effizient. Sie eignen sich hervorragend für Szenarien, die eine Echtzeit-Inferenz auf Edge-Geräten erfordern.
  • ViTs teilen Bilder in Patches auf und verarbeiten diese mithilfe globaler Selbstaufmerksamkeitsmechanismen. Dadurch können sie langreichweitige Abhängigkeiten innerhalb eines Bildes erfassen, benötigen jedoch in der Regel riesige Datensätze und mehr Rechenleistung, um effektiv trainiert zu werden.

Beispiel für die Umsetzung

Moderne Bibliotheken machen die Verwendung von CNN-basierten Modellen einfach. Die ultralytics Das Paket bietet Zugriff auf hochmoderne Modelle wie YOLO26, die über hochoptimierte CNN-Architekturen für schnelle Inferenz verfügen.

Das folgende Beispiel zeigt, wie ein vortrainiertes CNN-Modell geladen und eine Vorhersage durchgeführt wird:

from ultralytics import YOLO

# Load a YOLO26 model, which uses an advanced CNN architecture
model = YOLO("yolo26n.pt")

# Run inference on an image to identify objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the prediction results
results[0].show()

Werkzeuge für die Entwicklung

Die Entwicklung von CNNs wird durch ein robustes Ökosystem von Open-Source-Tools unterstützt. Ingenieure verwenden in der Regel Frameworks wie PyTorch oder TensorFlow , um benutzerdefinierte Architekturen zu erstellen. Diese Bibliotheken bieten die für Faltung und Backpropagation erforderlichen tensor .

Für Teams, die den Lebenszyklus von Computer-Vision-Projekten optimieren möchten – von der Datenerfassung bis zur Bereitstellung – bietet Ultralytics eine umfassende Lösung. Sie vereinfacht komplexe Arbeitsabläufe, sodass sich Entwickler auf die Anwendung von CNNs zur Lösung von Geschäftsproblemen konzentrieren können, anstatt sich um die Verwaltung der Infrastruktur zu kümmern. Darüber hinaus können Modelle in Formate wie ONNX oder TensorRT exportiert werden, um eine leistungsstarke Bereitstellung auf Edge-Geräten zu ermöglichen .

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten