Erfahren Sie, wie Faltung (Convolution) die KI in der Computer Vision unterstützt und Aufgaben wie Objekterkennung, Bilderkennung und medizinische Bildgebung mit Präzision ermöglicht.
Die Faltung ist eine spezielle mathematische Operation, die als grundlegender Baustein für moderne Computer Vision (CV) Systemen dient. Im Kontext der Künstliche Intelligenz (KI), ermöglicht die Faltung den Modellen, gitterartige Daten, wie z. B. Bilder, zu verarbeiten, indem sie die Eingaben systematisch filtern, um sinnvolle Muster zu extrahieren. Im Gegensatz zu herkömmlichen Algorithmen, die eine manuelle Festlegung von Regeln erfordern, ermöglicht die Faltung einem neuronales Netzwerk automatisch räumliche Hierarchien von Merkmalen - von einfachen Kanten und Texturen bis hin zu komplexen Objektformen - und ahmt damit die biologischen Prozesse, die in der Sehrinde des Gehirns beobachtet werden.
Der Vorgang funktioniert, indem eine kleine Zahlenmatrix, ein so genannter Kernel oder Filter, über ein Eingabebild gleitet. An jeder Position führt der Kernel eine elementweise Multiplikation mit den überlappenden Pixelwerten durch und summiert die Ergebnisse, um ein einzelnes Ausgabepixel zu erzeugen. Dieser Prozess erzeugt eine Merkmalskarte, die Bereiche hervorhebt, in denen bestimmte Muster erkannt werden.
Zu den wichtigsten Parametern, die das Verhalten einer Faltung bestimmen, gehören:
Die Faltung ist der Hauptmotor hinter Faltungsneuronale Netze (CNNs). Ihre Bedeutung liegt in zwei Haupteigenschaften: gemeinsame Nutzung von Parametern und räumliche Lokalisierung. Durch die Verwendung der gleichen Modellgewichte (Kernel) über das gesamte Bild hinweg, bleibt das bleibt das Netz rechnerisch effizient und ist in der Lage Translationsinvarianz, Das heißt, es kann ein Objekt unabhängig davon erkennen, wo es im Bild erscheint. Diese Effizienz ermöglicht anspruchsvolle Architekturen wie YOLO11 Inferenzen in Echtzeit auf verschiedenen Hardware, von leistungsstarken GPUs bis hin zu ressourcenbeschränkten Edge AI-Geräten.
Der Nutzen der Faltung erstreckt sich auf praktisch alle Branchen, die visuelle Daten verwenden:
Es ist wichtig, zwischen Faltungsschichten und vollständig verbundenen (dichten) Schichten zu unterscheiden. In einer vollständig verknüpften Schicht ist jedes Eingangsneuron mit jedem Ausgangsneuron verbunden, was rechenintensiv ist und die räumliche Struktur von Bildern ignoriert. Struktur der Bilder ignoriert. Im Gegensatz dazu bleiben bei der Faltung die räumlichen Beziehungen erhalten und die Anzahl der Parameter wird drastisch reduziert. Parameter und verhindert so eine Überanpassung bei hochdimensionalen Daten. Während dichte Schichten häufig für die endgültige Klassifizierung verwendet werden, übernehmen Faltungsschichten die schwere Arbeit der Merkmalsextraktion.
Sie können die Faltungsarchitektur moderner Objektdetektoren mit Hilfe der
ultralytics Paket. Der folgende Code lädt ein
YOLO11 Modells und druckt seine Struktur aus, wodurch die
Conv2d Schichten für die Verarbeitung verwendet.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Print the model architecture to observe Conv2d layers
# These layers perform the convolution operations to extract features
print(model.model)