Glossar

Architekturen zur Objekterkennung

Entdecken Sie die Leistungsfähigkeit von Objekterkennungsarchitekturen, dem KI-Rückgrat für das Bildverständnis. Lernen Sie noch heute Arten, Werkzeuge und praktische Anwendungen kennen!

Architekturen zur Objekterkennung sind die grundlegenden Strukturen, die die Interpretation visueller Informationen durch Systeme der künstlichen Intelligenz (KI) ermöglichen. Diese spezialisierten neuronalen Netze sind nicht nur darauf ausgelegt, Objekte in einem Bild zu klassifizieren (zu erkennen , was vorhanden ist), sondern auch, sie genau zu lokalisieren, indem sie in der Regel Bounding Boxes um jedes erkannte Objekt zeichnen. Für diejenigen, die mit den grundlegenden Konzepten des maschinellen Lernens (ML) vertraut sind, ist das Verständnis dieser Architekturen von entscheidender Bedeutung, um die Möglichkeiten der modernen Computer Vision (CV) nutzen zu können. Sie bilden das Rückgrat von Systemen, die es Maschinen ermöglichen, die Welt auf ähnliche Weise zu "sehen" und zu verstehen wie Menschen.

Kernkomponenten

Die meisten Architekturen zur Objekterkennung bestehen aus mehreren Schlüsselkomponenten, die zusammenarbeiten. Ein Backbone-Netz, häufig ein Convolutional Neural Network (CNN), führt eine erste Merkmalsextraktion aus dem Eingangsbild durch und identifiziert Muster auf niedriger Ebene, wie Kanten und Texturen, sowie zunehmend komplexere Merkmale. Es folgt häufig eine "Hals"-Komponente, die Merkmale aus verschiedenen Stufen des Backbone zusammenfasst, um reichhaltigere Darstellungen zu erstellen, die für die Erkennung von Objekten in verschiedenen Maßstäben geeignet sind. Ein Konzept, das in Ressourcen wie dem Feature Pyramid Network Paper ausführlich beschrieben wird. Schließlich verwendet der Erkennungskopf diese Merkmale, um die Klasse und den Ort (Bounding-Box-Koordinaten) von Objekten vorherzusagen. Die Leistung wird häufig anhand von Metriken wie Intersection over Union (IoU) zur Bewertung der Lokalisierungsgenauigkeit und Mean Average Precision (mAP) für die Gesamtqualität der Erkennung gemessen. Ausführliche Erläuterungen finden Sie auf Websites wie der COCO-Datensatz-Evaluierungsseite.

Arten von Architekturen

Die Architekturen zur Objekterkennung werden anhand ihres Ansatzes grob klassifiziert:

Unterscheidung von ähnlichen Begriffen

Es ist wichtig, die Architekturen der Objekterkennung von verwandten Aufgaben der Computer Vision zu unterscheiden:

  • Bildklassifizierung: Weist einem gesamten Bild eine einzige Bezeichnung zu (z. B. "Katze", "Hund"). Sie identifiziert den Inhalt des Bildes im Allgemeinen, aber nicht , wo sich bestimmte Objekte befinden. Beispiele finden Sie in der Ultralytics-Dokumentation zur Klassifizierungsaufgabe.
  • Semantische Segmentierung: Klassifiziert jedes Pixel eines Bildes in eine vordefinierte Kategorie (z. B. werden alle Pixel, die zu Autos gehören, als "Auto" bezeichnet). Sie liefert dichte Vorhersagen, unterscheidet aber nicht zwischen verschiedenen Instanzen derselben Objektklasse.
  • Instanz-Segmentierung: Geht einen Schritt weiter als die semantische Segmentierung, indem jedes Pixel klassifiziert und zwischen einzelnen Objektinstanzen unterschieden wird (z. B. Beschriftung "Auto 1", "Auto 2"). Sie kombiniert Objekterkennung und semantische Segmentierung. Weitere Einzelheiten finden Sie in der Dokumentation zur Segmentierungsaufgabe von Ultralytics.

Anwendungen in der realen Welt

Architekturen zur Objekterkennung sind die Grundlage für zahlreiche KI-Anwendungen in den verschiedensten Bereichen:

Werkzeuge und Technologien

Für die Entwicklung und den Einsatz von Modellen, die auf diesen Architekturen beruhen, sind häufig spezielle Tools und Frameworks erforderlich:

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert