Ein Leitfaden für einen tiefen Einblick in die Objekterkennung im Jahr 2025
Lerne mehr über Objekterkennung, ihre Bedeutung für KI und wie Modelle wie YOLO11 Branchen wie autonomes Fahren, Gesundheitswesen und Sicherheit verändern.

Viele Branchen integrieren derzeit in rasantem Tempo Lösungen der künstlichen Intelligenz (KI) in ihre Betriebsabläufe. Unter den vielen heute verfügbaren KI-Technologien ist die Computer Vision eine der populärsten. Computer vision ist ein Teilbereich der KI, der Computern hilft, den Inhalt von Bildern und Videos so zu sehen und zu verstehen, wie Menschen es tun. Sie ermöglicht es Maschinen, Objekte zu erkennen, Muster zu identifizieren und einen Sinn aus dem zu ziehen, was sie sehen.
Der globale Marktwert für computergestütztes Sehen wird bis 2032 auf schätzungsweise 175,72 Milliarden Dollar anwachsen. Computer Vision umfasst verschiedene Aufgaben, die es Vision AI-Systemen ermöglichen, visuelle Daten zu analysieren und zu interpretieren. Eine der am weitesten verbreiteten und wichtigsten Aufgaben der Computer Vision ist die Objekterkennung.
Objekterkennung konzentriert sich darauf, Objekte in visuellen Daten zu lokalisieren und zu klassifizieren. Wenn du einem Computer zum Beispiel ein Bild einer Kuh zeigst, kann er die Kuh erkennen und einen Begrenzungsrahmen (BBox) darum zeichnen. Diese Fähigkeit ist nützlich in realen Anwendungen wie der Tierüberwachung, bei selbstfahrenden Autos und in der Sicherheitstechnik.
Wie lässt sich also eine Objekterkennung durchführen? Ein Weg führt über Computer Vision-Modelle. Zum Beispiel ist Ultralytics YOLO11 ein Computer Vision-Modell, das Vision-Aufgaben wie die Objekterkennung unterstützt.
In diesem Leitfaden werden wir die Objekterkennung untersuchen und erläutern, wie sie funktioniert. Wir werden auch einige reale Anwendungsfälle für die Objekterkennung und Ultralytics YOLO11 diskutieren.

Abb. 1. Verwendung der Objekterkennungsunterstützung von YOLO11 zur Überwachung von Rindern.
Link to this sectionWas ist Objekterkennung?#
Objekterkennung ist eine Aufgabe der Computer Vision, die Objekte in Bildern oder Videos identifiziert und lokalisiert. Sie beantwortet zwei Schlüsselfragen: 'Welche Objekte sind auf dem Bild?' und 'Wo befinden sie sich?'
Du kannst dir die Objekterkennung als einen Prozess vorstellen, der aus zwei Hauptschritten besteht. Der erste Schritt, die Objektklassifizierung, ermöglicht es dem System, Objekte zu erkennen und zu beschriften – etwa das Identifizieren einer Katze, eines Autos oder einer Person basierend auf erlernten Mustern. Der zweite Schritt, die Lokalisierung, bestimmt die Position des Objekts, indem ein Begrenzungsrahmen (BBox) darum gezeichnet wird, was anzeigt, wo es im Bild erscheint. Zusammen ermöglichen diese Schritte Maschinen, Objekte in einer Szene zu erkennen und zu verstehen.
Der Aspekt, der die Objekterkennung so einzigartig macht, ist ihre Fähigkeit, Objekte nicht nur zu erkennen, sondern auch ihren Standort präzise zu bestimmen. Andere Aufgaben der Computer Vision konzentrieren sich auf unterschiedliche Ziele.
Zum Beispiel weist die Bildklassifizierung einem gesamten Bild ein Label zu. Die Bildsegmentierung hingegen bietet ein pixelgenaues Verständnis verschiedener Elemente. Die Objekterkennung wiederum kombiniert Erkennung mit Lokalisierung. Dies macht sie besonders nützlich für Aufgaben wie das Zählen mehrerer Objekte in Echtzeit.

Abb. 2. Vergleich von Computer Vision-Aufgaben.
Link to this sectionObjekterkennung vs. Objekterkennung#
Wenn du verschiedene Begriffe aus der Computer Vision erkundest, magst du den Eindruck haben, dass Objekterkennung (Object Recognition) und Objekterkennung (Object Detection) austauschbar seien – sie dienen jedoch unterschiedlichen Zwecken. Ein guter Weg, den Unterschied zu verstehen, ist die Betrachtung von Gesichtserkennung (Face Detection) und Gesichtsidentifizierung (Face Recognition).
Gesichtserkennung (Face Detection) ist eine Form der Objekterkennung. Sie identifiziert das Vorhandensein eines Gesichts in einem Bild und markiert dessen Position mit einem Begrenzungsrahmen (BBox). Sie beantwortet die Frage: „Wo befindet sich das Gesicht auf dem Bild?“ Diese Technologie wird häufig in Smartphone-Kameras verwendet, die automatisch auf Gesichter fokussieren, oder in Überwachungskameras, die erkennen, wenn eine Person anwesend ist.
Gesichtsidentifizierung (Face Recognition) ist hingegen eine Form der Objekterkennung im Sinne von Identifizierung. Sie erkennt nicht nur ein Gesicht; sie identifiziert, wessen Gesicht es ist, indem sie einzigartige Merkmale analysiert und diese mit einer Datenbank vergleicht. Sie beantwortet die Frage: „Wer ist diese Person?“ Dies ist die Technologie, die hinter der Entsperrung deines Handys per Face ID oder hinter Flughafensicherheitssystemen steht, die Identitäten verifizieren.
Einfach ausgedrückt: Die Objekterkennung (Object Detection) findet und lokalisiert Objekte, während die Objekterkennung (Object Recognition) sie klassifiziert und identifiziert.

Abb. 3. Objekterkennung vs. Objektidentifizierung. Bild vom Autor.
Viele Objekterkennungsmodelle, wie YOLO11, sind darauf ausgelegt, Gesichter zu erkennen, aber nicht die Person dahinter zu identifizieren. YOLO11 kann effizient das Vorhandensein eines Gesichts in einem Bild erkennen und einen Begrenzungsrahmen (BBox) darum zeichnen, was nützlich für Anwendungen wie Überwachungssysteme, Personenstrom-Analyse und automatische Foto-Tagging-Funktionen ist. Es kann jedoch nicht bestimmen, um wen es sich handelt. YOLO11 kann mit Modellen kombiniert werden, die speziell für die Gesichtserkennung trainiert wurden, wie etwa Facenet oder DeepFace, um sowohl die Erkennung als auch die Identifizierung in einem einzigen System zu ermöglichen.
Link to this sectionVerständnis der Funktionsweise der Objekterkennung#
Bevor wir besprechen, wie Objekterkennung funktioniert, lass uns genauer betrachten, wie ein Computer ein Bild analysiert. Anstatt ein Bild so zu sehen wie wir, zerlegt ein Computer es in ein Raster aus winzigen Quadraten, die Pixel genannt werden. Jedes Pixel enthält Farb- und Helligkeitsinformationen, die Computer verarbeiten können, um visuelle Daten zu interpretieren.
Um diese Pixel zu verstehen, gruppieren Algorithmen sie basierend auf Form, Farbe und ihrer Nähe zueinander in bedeutungsvolle Regionen. Objekterkennungsmodelle wie YOLO11 können Muster oder Merkmale in diesen Pixelgruppen erkennen.
Ein selbstfahrendes Auto sieht einen Fußgänger zum Beispiel nicht so, wie wir es tun – es erkennt Formen und Muster, die den Merkmalen eines Fußgängers entsprechen. Diese Modelle stützen sich auf ein umfangreiches Training mit beschrifteten Bilddatensätzen, wodurch sie lernen, die charakteristischen Merkmale von Objekten wie Autos, Verkehrsschildern und Menschen zu identifizieren.
Ein typisches Objekterkennungsmodell besteht aus drei Hauptteilen: Backbone, Neck und Head. Der Backbone extrahiert wichtige Merkmale aus einem Bild. Der Neck verarbeitet und verfeinert diese Merkmale, während der Head dafür zuständig ist, Objektpositionen vorherzusagen und sie zu klassifizieren.
Link to this sectionVerfeinerung von Erkennungen und Darstellung der Ergebnisse#
Sobald die ersten Erkennungen erfolgt sind, werden Post-Processing-Techniken angewendet, um die Genauigkeit zu verbessern und redundante Vorhersagen zu filtern. Beispielsweise werden überlappende Begrenzungsrahmen entfernt, um sicherzustellen, dass nur die relevantesten Erkennungen beibehalten werden. Außerdem werden jedem erkannten Objekt Konfidenzwerte (numerische Werte, die angeben, wie sicher sich das Modell ist, dass ein erkanntes Objekt zu einer bestimmten Klasse gehört) zugewiesen, um die Sicherheit des Modells in seinen Vorhersagen anzuzeigen.
Schließlich werden die Ergebnisse mit Begrenzungsrahmen um die erkannten Objekte herum präsentiert, zusammen mit den vorhergesagten Klassen-Labels und Konfidenzwerten. Diese Ergebnisse können dann für reale Anwendungen verwendet werden.
Link to this sectionBeliebte Objekterkennungsmodelle#
Heutzutage gibt es viele Computer Vision-Modelle, und einige der populärsten sind die Ultralytics YOLO-Modelle. Sie sind bekannt für ihre Geschwindigkeit, Genauigkeit und Vielseitigkeit. Über die Jahre wurden diese Modelle schneller, präziser und fähig, eine breitere Palette an Aufgaben zu bewältigen. Die Veröffentlichung von Ultralytics YOLOv5 erleichterte die Bereitstellung mit Frameworks wie PyTorch und ermöglichte es mehr Menschen, fortschrittliche Vision AI ohne tiefgehende technische Expertise zu nutzen.
Aufbauend auf diesem Fundament führte Ultralytics YOLOv8 neue Funktionen wie Instanzsegmentierung, Pose-Schätzung und Bildklassifizierung ein. Jetzt treibt YOLO11 die Entwicklung mit besserer Leistung über mehrere Aufgaben hinweg noch weiter voran. Mit 22 % weniger Parametern als YOLOv8m erreicht YOLO11m eine höhere mittlere durchschnittliche Präzision (mAP) auf dem COCO-Datensatz. Einfach ausgedrückt: YOLO11 kann Objekte mit höherer Präzision erkennen und verbraucht dabei weniger Ressourcen, was es schneller und zuverlässiger macht.
Egal, ob du ein KI-Experte bist oder gerade erst anfängst, YOLO11 bietet eine leistungsstarke und dennoch benutzerfreundliche Lösung für Computer Vision-Anwendungen.
Link to this sectionBenutzerdefiniertes Training eines Modells für die Objekterkennung#
Das Training von Vision AI-Modellen beinhaltet, Computern dabei zu helfen, Bilder und Videos zu erkennen und zu verstehen. Allerdings kann das Training zeitaufwendig sein. Anstatt bei Null anzufangen, beschleunigt Transfer Learning den Prozess, indem vortrainierte Modelle verwendet werden, die bereits allgemeine Muster erkennen.
Zum Beispiel wurde YOLO11 bereits auf dem COCO-Datensatz trainiert, der eine vielfältige Auswahl an alltäglichen Objekten enthält. Dieses vortrainierte Modell kann weiter benutzerdefiniert trainiert werden, um spezifische Objekte zu erkennen, die möglicherweise nicht im ursprünglichen Datensatz enthalten waren.
Um YOLO11 benutzerdefiniert zu trainieren, benötigst du einen beschrifteten Datensatz, der Bilder der Objekte enthält, die du erkennen möchtest. Wenn du beispielsweise ein Modell entwickeln möchtest, um verschiedene Arten von Früchten in einem Lebensmittelgeschäft zu identifizieren, würdest du einen Datensatz mit beschrifteten Bildern von Äpfeln, Bananen, Orangen usw. erstellen. Sobald der Datensatz vorbereitet ist, kann YOLO11 trainiert werden, wobei Parameter wie Batch-Größe, Lernrate und Epochen angepasst werden, um die Leistung zu optimieren.
Mit diesem Ansatz können Unternehmen YOLO11 darauf trainieren, alles zu erkennen – von defekten Teilen in der Fertigung bis hin zu Wildtierarten in Naturschutzprojekten – und das Modell exakt an ihre Bedürfnisse anpassen.
Link to this sectionAnwendungen der Objekterkennung#
Schauen wir uns als nächstes einige reale Anwendungsfälle der Objekterkennung an und wie sie verschiedene Branchen transformiert.
Link to this sectionGefahrenerkennung für autonomes Fahren#
Selbstfahrende Autos nutzen Computer Vision-Aufgaben wie die Objekterkennung, um sicher zu navigieren und Hindernissen auszuweichen. Diese Technologie hilft ihnen, Fußgänger, andere Fahrzeuge, Schlaglöcher und Gefahren auf der Straße zu erkennen, wodurch sie ihre Umgebung besser verstehen können. Sie können schnelle Entscheidungen treffen und sich sicher im Verkehr bewegen, indem sie ihre Umgebung kontinuierlich analysieren.

Abb. 4. Ein Beispiel für die Verwendung der Objekterkennung zur Detektion von Schlaglöchern mit YOLO11.
Link to this sectionAnalyse medizinischer Bildgebung im Gesundheitswesen#
Medizinische Bildgebungsverfahren wie Röntgen, MRT, CT-Scans und Ultraschall erzeugen hochdetaillierte Bilder des menschlichen Körpers, um bei der Diagnose und Behandlung von Krankheiten zu helfen. Diese Scans erzeugen große Datenmengen, die Ärzte wie Radiologen und Pathologen sorgfältig analysieren müssen, um Krankheiten zu erkennen. Die detaillierte Überprüfung jedes Bildes kann jedoch zeitaufwendig sein, und menschliche Experten können aufgrund von Müdigkeit oder Zeitdruck gelegentlich Details übersehen.
Objekterkennungsmodelle wie YOLO11 können unterstützen, indem sie automatisch wichtige Merkmale in medizinischen Scans, wie Organe, Tumore oder Anomalien, mit hoher Genauigkeit identifizieren. Benutzerdefinierte Modelle können Bereiche, die Aufmerksamkeit erfordern, mit Begrenzungsrahmen hervorheben und Ärzten helfen, sich schneller auf potenzielle Probleme zu konzentrieren. Dies reduziert die Arbeitslast, verbessert die Effizienz und liefert schnelle Erkenntnisse.

Abb. 5. Analyse medizinischer Bilder unter Verwendung von YOLO11.
Link to this sectionErhöhung der Sicherheit durch Personen- und Anomalieerkennung#
Objekt-Tracking ist eine Aufgabe der Computer Vision, die von YOLO11 unterstützt wird und Echtzeitüberwachung sowie Sicherheitsverbesserungen ermöglicht. Sie baut auf der Objekterkennung auf, indem sie Objekte identifiziert und ihre Bewegung kontinuierlich über Frames hinweg verfolgt. Diese Technologie ist weit verbreitet in Überwachungssystemen, um die Sicherheit in verschiedenen Umgebungen zu erhöhen.
In Schulen und Kindertagesstätten kann Objekt-Tracking beispielsweise helfen, Kinder zu beaufsichtigen und zu verhindern, dass sie sich entfernen. In Sicherheitsanwendungen spielt es eine Schlüsselrolle bei der Erkennung von Eindringlingen in eingeschränkten Bereichen, bei der Überwachung von Menschenmengen auf Überfüllung oder verdächtiges Verhalten und beim Senden von Echtzeit-Alarmen, wenn unbefugte Aktivitäten erkannt werden. Durch die Verfolgung von Objekten während ihrer Bewegung verbessern YOLO11-basierte Trackingsysteme die Sicherheit, automatisieren die Überwachung und ermöglichen schnellere Reaktionen auf potenzielle Bedrohungen.
Link to this sectionVor- und Nachteile der Objekterkennung#
Hier sind einige der Hauptvorteile, die die Objekterkennung für verschiedene Branchen mit sich bringen kann:
- Automatisierung: Objekterkennung kann helfen, den Bedarf an menschlicher Überwachung bei Aufgaben wie der Sichtung von CCTV-Aufnahmen zu reduzieren.
- Funktioniert mit anderen KI-Modellen: Sie kann mit Gesichtserkennung, Aktionserkennung und Trackingsystemen integriert werden, um Genauigkeit und Funktionalität zu verbessern.
- Echtzeitverarbeitung: Viele Objekterkennungsmodelle, wie YOLO11, sind schnell und effizient, was sie ideal für Echtzeitanwendungen macht, die sofortige Ergebnisse erfordern.
Während diese Vorteile verdeutlichen, wie die Objekterkennung verschiedene Anwendungsfälle beeinflusst, ist es auch wichtig, die Herausforderungen bei ihrer Implementierung zu berücksichtigen. Hier sind einige der zentralen Herausforderungen:
-
Datenschutz: Die Verwendung visueller Daten, insbesondere in sensiblen Bereichen wie der Überwachung oder im Gesundheitswesen, kann Datenschutzprobleme und Sicherheitsbedenken aufwerfen.
-
Okklusion: Okklusion tritt bei der Objekterkennung auf, wenn Objekte teilweise verdeckt oder aus dem Blickfeld verborgen sind, was es für das Modell schwierig macht, sie präzise zu erkennen und zu klassifizieren.
-
Rechenintensiv: Hochleistungsmodelle erfordern oft leistungsstarke GPUs (Graphics Processing Units) für die Verarbeitung, was die Bereitstellung in Echtzeit kostspielig macht.
Link to this sectionWichtige Erkenntnisse#
Objekterkennung ist ein bahnbrechendes Werkzeug in der Computer Vision, das Maschinen hilft, Objekte in Bildern und Videos zu erkennen und zu lokalisieren. Sie wird in Bereichen von selbstfahrenden Autos bis zum Gesundheitswesen eingesetzt und macht Aufgaben einfacher, sicherer und effizienter. Mit neueren Modellen wie YOLO11 können Unternehmen einfach benutzerdefinierte Objekterkennungsmodelle erstellen, um spezialisierte Computer Vision-Anwendungen zu entwickeln.
Obwohl es einige Herausforderungen gibt, wie Datenschutzbedenken und das Verdecken von Objekten, ist die Objekterkennung eine zuverlässige Technologie. Ihre Fähigkeit, Aufgaben zu automatisieren, visuelle Daten in Echtzeit zu verarbeiten und sich in andere Vision AI-Tools zu integrieren, macht sie zu einem unverzichtbaren Teil modernster Innovationen.
Um mehr zu erfahren, besuche unser GitHub-Repository und beteilige dich an unserer Community. Entdecke Innovationen in Bereichen wie KI in selbstfahrenden Autos und Computer Vision in der Landwirtschaft auf unseren Lösungsseiten. Prüfe unsere YOLO-Lizenzoptionen und erwecke deine Vision AI-Projekte zum Leben. 🚀






