Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Convolutional Neural Network (CNN) (Faltungsneuronales Netz)

Entdecken Sie, wie Convolutional Neural Networks (CNNs) die Computer Vision revolutionieren und KI im Gesundheitswesen, in selbstfahrenden Autos und mehr ermöglichen.

Ein Convolutional Neural Network (CNN) ist eine spezielle Klasse von Architektur des tiefen Lernens (DL), die für die Daten zu verarbeiten, die eine gitterartige Topologie aufweisen, wie z. B. digitale Bilder. Inspiriert von der biologischen Struktur des visuellen Kortex von Tieren inspiriert, sind CNNs in einzigartiger Weise in der Lage automatisch räumliche Hierarchien von Merkmalen zu lernen. Im Gegensatz zu herkömmlichen neuronalen Netzen, die die Eingabedaten als eine flache Liste von Zahlen behandeln, bewahren CNNs die räumlichen Beziehungen zwischen Pixeln, was sie zur grundlegenden Technologie hinter den meisten modernen Computer Vision (CV) Anwendungen. Durch effizientes Filtern der Eingaben, um aussagekräftige Muster zu extrahieren, treiben diese Netze Fortschritte voran, die von der Gesichts Gesichtserkennung auf Smartphones bis hin zu Diagnosetools in der medizinischen Bildanalyse.

Wie Faltungsneuronale Netze funktionieren

Die Effektivität eines CNN liegt in seiner Fähigkeit, Bilder in eine Form zu bringen, die leichter zu verarbeiten ist, ohne dabei Merkmale zu verlieren, die für eine gute Vorhersage entscheidend sind. Dies wird durch eine Reihe von spezialisierten Schichten erreicht:

  1. Faltungsschicht: Dies ist der zentrale Baustein. Er verwendet eine Reihe von lernfähigen Filtern, oft genannt Kernel, die über das Eingangsbild gleiten. Dieser mathematische Prozess, bekannt als Faltung, erzeugt Merkmalskarten, die bestimmte Muster wie Kanten Kanten, Kurven oder Texturen hervorheben. Sie können diesen Prozess visualisieren durch interaktive CNN-Erklärungen visualisieren, um zu sehen, wie Filter visuelle Daten.
  2. Aktivierungsfunktion: Nach der Faltung wird eine nichtlineare Funktion auf die Merkmalskarten angewendet. Die häufigste Wahl ist die ReLU (Rectified Linear Unit), die negative Pixelwerte durch Null ersetzt. Dadurch wird eine Nichtlinearität eingeführt, die es dem Netz ermöglicht, komplexe Beziehungen zu lernen und nicht nur lineare Kombinationen.
  3. Pooling-Schicht: Auch bekannt als Downsampling, reduziert diese Schicht die Dimensionalität der Merkmalskarte. Karte. Techniken wie Max Pooling wählen die auffälligsten Merkmale in einer Region, wodurch die Rechenlast verringert und die Verallgemeinerung des Modells durch Verhinderung Überanpassung.
  4. Vollständig verknüpfte Schicht: In der letzten Stufe werden die hochrangigen Merkmale abgeflacht und in ein standardmäßiges neuronales Netz (NN) eingespeist. Diese Schicht führt die endgültige Klassifizierungs- oder Regressionsaufgabe auf der Grundlage der von den vorherigen Schichten extrahierten Merkmale durch.

Bedeutung und Anwendungen in der realen Welt

CNNs haben den Bereich der künstlichen Intelligenz revolutioniert, da sie die manuelle Merkmalsextraktion überflüssig machen. Ihre Fähigkeit, unverwechselbare Merkmale direkt aus Trainingsdaten zu lernen, hat zu einer weiten Verbreitung in verschiedenen Branchen.

  • Objekterkennung für autonome Systeme: In der Automobilindustrie sind CNNs entscheidend dafür, dass selbstfahrende Autos ihre Umwelt wahrnehmen Umgebung wahrzunehmen. Modelle wie YOLO11 nutzen ein CNN-basiertes zur detect Fußgängern, Verkehrsschildern und anderen Fahrzeugen Fahrzeuge in Echtzeit mit hoher Genauigkeit zu erkennen.
  • Diagnostik im Gesundheitswesen: CNNs unterstützen Radiologen bei der Erkennung von Anomalien in medizinischen Scans. Unter können Deep-Learning-Modelle Röntgenbilder oder MRT-Scans analysieren, um Tumore oder Frakturen schneller detect als Inspektion allein. Forschungen der Nationalen Gesundheitsinstituts (NIH) zeigen, wie diese automatisierten Werkzeuge die diagnostische Konsistenz erheblich verbessern.
  • Einzelhandel und Inventarverwaltung: Automatisierte Kassensysteme und intelligente Bestandsverwaltung stützen sich auf CNNs, um Produkte in den Regalen zu erkennen, Lagerbestände track und Verluste zu verhindern, was die Abläufe bei großen Einzelhändlern.

Unterscheidung zwischen CNNs und verwandten Konzepten

CNNs werden zwar oft austauschbar mit allgemeinen KI-Begriffen verwendet, weisen aber im Vergleich zu anderen Architekturen unterschiedliche Merkmale auf Architekturen:

  • CNN vs. Standard-Neuronale Netze: Ein herkömmliches voll vernetztes neuronales Netz verbindet jedes Eingabe Neuron mit jedem Ausgangsneuron. Bei der Anwendung auf Bilder führt dies zu einer großen Anzahl von Parametern und einem Verlust an räumlichen Struktur. Im Gegensatz dazu verwenden CNNs die gemeinsame Nutzung von Parametern (Verwendung desselben Filters für das gesamte Bild). Bild), was sie für visuelle Daten sehr effizient macht.
  • CNN vs. Vision Transformers (ViT): Während CNNs sich auf lokale Merkmale durch Faltung konzentrieren, verarbeiten Vision Transformers (ViT) Bilder als Sequenzen von Flecken unter Verwendung eines Selbstbeobachtungsmechanismus zur Erfassung des globalen Kontext. ViTs benötigen oft größere Datensätze, um effektiv zu trainieren, während CNNs eine starke "induktive Verzerrung" haben, die sie auch mit kleineren Datensätzen gut funktionieren lässt. Hybride Modelle kombinieren oft beides, wie man an Architekturen wie RT-DETR.

Beispiel für die Umsetzung

Moderne Bibliotheken machen es einfach, die Leistung von CNNs zu nutzen. Die ultralytics Paket bietet Zugang zu hochmodernen Modellen wie YOLO11, die über optimierte CNN-Backbones für schnelle Inferenz verfügen.

Das folgende Beispiel zeigt, wie man ein vorab trainiertes CNN-basiertes Modell lädt und eine Vorhersage durchführt:

from ultralytics import YOLO

# Load a YOLO11 model, which uses a highly optimized CNN architecture
model = YOLO("yolo11n.pt")

# Run object detection on an image to identify features and objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the prediction results
results[0].show()

Tools und Rahmenwerke für die Entwicklung

Die Entwicklung von CNNs wird durch ein robustes Ökosystem von Open-Source-Tools unterstützt. Forscher und Ingenieure verwenden typischerweise Frameworks wie PyTorch oder TensorFlow um eigene Architekturen von Grund auf zu entwickeln. Diese Bibliotheken bieten die tensor , die für Faltung und Backpropagation erforderlich sind.

Für alle, die den Lebenszyklus von Computer-Vision-Projekten - von der Datenverwaltung bis zur Bereitstellung - rationalisieren möchten, bietet die Ultralytics eine umfassende Lösung. Sie vereinfacht die komplexen Arbeitsabläufe Arbeitsabläufe bei der Modellschulung und ermöglicht es Teams, sich auf die Anwendung von CNNs zur Lösung von Geschäftsproblemen konzentrieren, anstatt die Infrastruktur zu verwalten. Außerdem wird die Bereitstellung dieser Modelle auf Edge-Geräte durch Formate wie ONNX und TensorRTdie eine hohe Leistung in Produktionsumgebungen Umgebungen.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten