Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Faltung

Erfahren Sie, wie Faltung (Convolution) die KI in der Computer Vision unterstützt und Aufgaben wie Objekterkennung, Bilderkennung und medizinische Bildgebung mit Präzision ermöglicht.

Die Faltung ist eine spezielle mathematische Operation, die als grundlegender Baustein für moderne Computer Vision (CV) Systemen dient. Im Kontext der Künstliche Intelligenz (KI), ermöglicht die Faltung den Modellen, gitterartige Daten, wie z. B. Bilder, zu verarbeiten, indem sie die Eingaben systematisch filtern, um sinnvolle Muster zu extrahieren. Im Gegensatz zu herkömmlichen Algorithmen, die eine manuelle Festlegung von Regeln erfordern, ermöglicht die Faltung einem neuronales Netzwerk automatisch räumliche Hierarchien von Merkmalen - von einfachen Kanten und Texturen bis hin zu komplexen Objektformen - und ahmt damit die biologischen Prozesse, die in der Sehrinde des Gehirns beobachtet werden.

Die Mechanik der Faltung

Der Vorgang funktioniert, indem eine kleine Zahlenmatrix, ein so genannter Kernel oder Filter, über ein Eingabebild gleitet. An jeder Position führt der Kernel eine elementweise Multiplikation mit den überlappenden Pixelwerten durch und summiert die Ergebnisse, um ein einzelnes Ausgabepixel zu erzeugen. Dieser Prozess erzeugt eine Merkmalskarte, die Bereiche hervorhebt, in denen bestimmte Muster erkannt werden.

Zu den wichtigsten Parametern, die das Verhalten einer Faltung bestimmen, gehören:

  • Kernel-Größe: Die Dimensionen des Filters (z. B. 3x3 oder 5x5), die den Bereich der betrachteten Eingabe bestimmen der Eingabe bestimmen, der oft als rezeptives rezeptives Feld.
  • Schrittweite: Die Schrittweite, mit der sich der Filter über das Bild bewegt. Ein größerer Schrittweite führt zu einer kleineren Ausgabe Dimensionen, wodurch die Daten effektiv heruntergetastet werden.
  • Auffüllen: Das Hinzufügen von Randpixeln (normalerweise Nullen) zur Eingabe, um die räumliche Größe der Ausgabe zu kontrollieren. der Ausgabe zu steuern, ein Konzept, das in der PyTorch beschrieben.

Relevanz beim Deep Learning

Die Faltung ist der Hauptmotor hinter Faltungsneuronale Netze (CNNs). Ihre Bedeutung liegt in zwei Haupteigenschaften: gemeinsame Nutzung von Parametern und räumliche Lokalisierung. Durch die Verwendung der gleichen Modellgewichte (Kernel) über das gesamte Bild hinweg, bleibt das bleibt das Netz rechnerisch effizient und ist in der Lage Translationsinvarianz, Das heißt, es kann ein Objekt unabhängig davon erkennen, wo es im Bild erscheint. Diese Effizienz ermöglicht anspruchsvolle Architekturen wie YOLO11 Inferenzen in Echtzeit auf verschiedenen Hardware, von leistungsstarken GPUs bis hin zu ressourcenbeschränkten Edge AI-Geräten.

Anwendungsfälle in der Praxis

Der Nutzen der Faltung erstreckt sich auf praktisch alle Branchen, die visuelle Daten verwenden:

  • Medizinische Bildanalyse: Unter KI im Gesundheitswesen erlaubt die Faltung Algorithmen zu scannen MRI- und CT-Scans, um winzige Anomalien zu erkennen. So können beispielsweise spezielle Kernel trainiert werden, um die unregelmäßigen Strukturen hervorzuheben hervorzuheben, die mit Tumoren im Frühstadium verbunden sind, und Radiologen bei der Erstellung genauer Diagnosen zu unterstützen.
  • Autonome Navigation: Selbstfahrende Autos verlassen sich stark auf Faltung für Objekterkennung und Bildsegmentierung. Das System verarbeitet Video Videobilder, um zwischen Fahrspuren, Fußgängern und Verkehrszeichen zu unterscheiden, so dass die KI in der Lage ist, in Sekundenbruchteilen sichere Fahrentscheidungen zu treffen.

Faltung vs. vollständig verbundene Schichten

Es ist wichtig, zwischen Faltungsschichten und vollständig verbundenen (dichten) Schichten zu unterscheiden. In einer vollständig verknüpften Schicht ist jedes Eingangsneuron mit jedem Ausgangsneuron verbunden, was rechenintensiv ist und die räumliche Struktur von Bildern ignoriert. Struktur der Bilder ignoriert. Im Gegensatz dazu bleiben bei der Faltung die räumlichen Beziehungen erhalten und die Anzahl der Parameter wird drastisch reduziert. Parameter und verhindert so eine Überanpassung bei hochdimensionalen Daten. Während dichte Schichten häufig für die endgültige Klassifizierung verwendet werden, übernehmen Faltungsschichten die schwere Arbeit der Merkmalsextraktion.

Implementierung von Convolution mit Ultralytics

Sie können die Faltungsarchitektur moderner Objektdetektoren mit Hilfe der ultralytics Paket. Der folgende Code lädt ein YOLO11 Modells und druckt seine Struktur aus, wodurch die Conv2d Schichten für die Verarbeitung verwendet.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Print the model architecture to observe Conv2d layers
# These layers perform the convolution operations to extract features
print(model.model)

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten