Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Feature Maps

Entdecken Sie, wie Feature-Maps dieYOLO Ultralytics unterstützen und so eine präzise Objekterkennung und fortschrittliche KI-Anwendungen wie autonomes Fahren ermöglichen.

Eine Feature Map ist die grundlegende Ausgabe, die erzeugt wird, wenn ein Faltungsfilter auf ein Eingangsbild oder eine andere eine andere Merkmalskarte innerhalb eines Faltungsneuronales Netz (CNN). Im Kontext der Computer Vision (CV) fungieren diese Karten als die "Augen" eines neuronalen Netzes, die das Vorhandensein und die Position von gelernten Merkmale wie Kanten, Texturen, Ecken oder komplexe geometrische Formen. Durch die Umwandlung von Pixel-Rohdaten in in aussagekräftige Abstraktionen ermöglichen Feature-Maps hochentwickelten Modellen die Durchführung von Aufgaben, die von der Bildklassifizierung bis hin zur Echtzeit Objekterkennung.

Wie Feature-Maps erstellt werden

Die Erstellung einer Merkmalskarte erfolgt durch einen mathematischen Prozess, der als Faltung. Eine spezielle Matrix von lernfähigen Gewichten, die als Kernel oder Filter bezeichnet werden, gleitet über die Eingabedaten. An jeder Position führt der Kernel eine elementweise Multiplikation und Summation durch und erzeugt einen einzelnen Wert in der Ausgabematrix.

  • Aktivierung: Die resultierenden Werte durchlaufen typischerweise eine Aktivierungsfunktion wie ReLU, die die Nichtlinearität einführt, so dass das Netz komplexe Muster lernen kann.
  • Räumliche Beibehaltung: Im Gegensatz zu vollständig verbundenen Ebenen bleiben bei Feature-Maps räumliche Beziehungen erhalten, Das heißt, ein hoher Wert an einer bestimmten Koordinate entspricht einem erkannten Merkmal an der gleichen relativen Position im dem Originalbild.
  • Tiefe: Eine einzelne Faltungsschicht verwendet oft mehrere Filter und stapelt die resultierenden 2D Arrays, um ein 3D-Volumen von Merkmalskarten zu bilden, die oft in Architekturdiagrammen des Deep Learning (DL) visualisiert werden.

Hierarchisches Merkmalslernen

Moderne Architekturen, wie zum Beispiel das ResNet-Backbone, das in vielen Systemen verwendet wird, nutzen die hierarchische Natur von Feature-Maps. Während die Daten das Netzwerk durchlaufen, steigt die Abstraktionsebene zunimmt:

  1. Untiefe Schichten: Die ersten Feature-Maps erfassen Details auf niedriger Ebene, wie vertikale Linien, Farbverläufe Farbverläufe oder einfache Kurven. Sie bilden die Grundlage der visuellen Wahrnehmung.
  2. Tiefer liegende Schichten: Tiefer im Netz werden diese Grundelemente kombiniert. Die resultierenden Karten repräsentieren hochrangige semantische Konzepte, wie die Form eines Autorads oder das Gesicht eines Hundes. Diese Hierarchie ist entscheidend für die Leistung von State-of-the-Art-Modellen wie YOLO11, Sie ermöglicht es ihnen, zwischen ähnlichen Klassen mit hoher Genauigkeit zu unterscheiden.

Visualisierung von Netzwerkintelligenz

Entwickler visualisieren oft Feature-Maps, um zu interpretieren, was ein Modell gelernt hat, eine wichtige Praxis in Erklärbare KI (XAI). Werkzeuge wie TensorBoard ermöglichen es Ingenieuren, diese internen Zustände zu untersuchen. Wenn eine Merkmalskarte, die Autos detect soll, bei Hintergrundbäumen aktiviert wird, deutet dies darauf hin, dass das Modell übermäßig an das Rauschen angepasst wird. Diese Prüfung ist für die Fehlersuche und die Verbesserung der Robustheit des Modells.

Der folgende Python veranschaulicht den Zugriff auf die Dimensionen von Feature-Maps mithilfe der Funktion ultralytics Bibliothek durch Registrierung eines Hooks für eine Faltungsschicht.

from ultralytics import YOLO

# Load the YOLO11 model (nano version)
model = YOLO("yolo11n.pt")


# Define a hook to print the shape of the feature map from the first layer
def hook_fn(module, input, output):
    print(f"Feature Map Output Shape: {output.shape}")


# Register the hook to the first convolutional layer of the model
model.model.model[0].register_forward_hook(hook_fn)

# Run inference on a dummy image to trigger the hook
model("https://ultralytics.com/images/bus.jpg")

Anwendungsfälle in der Praxis

Feature-Maps sind der Motor für viele transformative Technologien:

  • Autonome Fahrzeuge: Unter autonomen Fahrsystemen, wie sie zum Beispiel von Waymo entwickelt wurden, verarbeiten Feature-Maps Kamerabilder, um Fahrbahnmarkierungen, Fußgänger und Verkehrsschilder zu erkennen. Die räumliche Genauigkeit dieser Karten stellt sicher, dass das Fahrzeug nicht nur weiß was auf der Straße ist, sondern auch genau weiß , wo es sich im Verhältnis zum Auto befindet.
  • Medizinische Diagnostik: Unter medizinischen Bildanalyse analysieren Deep-Learning Modelle MRT- oder CT-Scans analysieren. Die Merkmalskarten in diesen Netzen werden trainiert, um Anomalien wie Tumore oder Frakturen. Forschungen, die in Fachzeitschriften wie Nature Medicine veröffentlicht wurden, zeigen wie diese spezifischen Aktivierungen Radiologen helfen können, indem sie interessante Regionen mit hoher Präzision markieren.

Unterscheidung von verwandten Konzepten

Um die Architekturen neuronaler Netze vollständig zu verstehen, ist es hilfreich, Feature-Maps von verwandten Begriffen abzugrenzen:

  • Feature-Maps vs. Feature-Extraktion: Die Merkmalsextraktion ist der übergreifende Prozess der Ableitung informativer Daten aus Rohdaten. Die Merkmalskarte ist die spezifische Datenstruktur, die sich aus diesem Prozess innerhalb einer CNN-Schicht ergibt.
  • Merkmalskarten vs. Einbettungen: Während Feature Maps räumliche Dimensionen (Höhe und Breite) beibehalten, sind Einbettungen in der Regel abgeflachte, weniger dimensionale Vektoren. Embeddings stellen die semantische Essenz eines gesamten Bildes oder Objekts dar und werden häufig für die Ähnlichkeitssuche in einer Vektordatenbank verwendet, während Feature-Maps für Aufgaben, die eine räumliche Lokalisierung erfordern, wie Bildsegmentierung.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten