Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Bilderkennung

Erfahren Sie, wie Bilderkennung mithilfe von KI und Deep Learning visuelle Daten identifiziert. Entdecken Sie reale Anwendungen und setzen Sie Ultralytics ein, um Ergebnisse auf dem neuesten Stand der Technik zu erzielen.

Die Bilderkennung ist eine grundlegende Technologie im weiteren Bereich der Computervision (CV), die es Softwaresystemen ermöglicht , Objekte, Personen, Orte und Texte in digitalen Bildern zu identifizieren. Durch die Analyse des Pixelgehalts eines Bildes oder Videobildes versucht diese Technologie, die visuellen Wahrnehmungsfähigkeiten des menschlichen Auges und Gehirns nachzuahmen. Unterstützt durch künstliche Intelligenz (KI) wandelt die Bilderkennung unstrukturierte visuelle Daten in strukturierte, verwertbare Informationen um und dient damit als Grundlage für die Automatisierung in Branchen, die vom Gesundheitswesen bis zum autonomen Transport reichen.

Kernmechanismen und -technologien

Moderne Bilderkennungssysteme haben sich über die traditionelle, regelbasierte Programmierung hinaus weiterentwickelt und stützen sich heute stark auf Deep-Learning-Algorithmen (DL). Die am häufigsten für diese Aufgaben verwendete Architektur ist das Convolutional Neural Network (CNN). Ein CNN verarbeitet Bilder als Raster von Werten – die typischerweise die Farbkanäle Rot, Grün und Blau (RGB) darstellen – und leitet sie durch mehrere Schichten mathematischer Operationen.

Während dieses Prozesses führt das Netzwerk eine Merkmalsextraktion durch. Die ersten Schichten detect möglicherweise detect geometrische Muster wie Kanten oder Ecken, während tiefere Schichten diese Muster aggregieren, um komplexe Strukturen wie Augen, Räder oder Blätter zu erkennen. Um eine hohe Genauigkeit zu erreichen, benötigen diese Modelle große Mengen an beschrifteten Trainingsdaten. Groß angelegte öffentliche Datensätze wie ImageNet ImageNet, helfen den Modellen dabei, die statistische Wahrscheinlichkeit zu lernen, mit der eine bestimmte visuelle Anordnung einem Konzept wie „Katze”, „Fahrrad” oder „Stoppschild” entspricht .

Unterscheidung zwischen Anerkennung und verwandten Konzepten

Der Begriff „Bilderkennung“ wird zwar oft als Sammelbegriff verwendet, unterscheidet sich jedoch von anderen spezifischen Computer-Vision-Aufgaben. Das Verständnis dieser Nuancen ist entscheidend für die Auswahl des richtigen Modells für ein Projekt:

  • Erkennung vs. Bildklassifizierung: Bei der Klassifizierung wird einem gesamten Bild ein einzelnes Label zugewiesen (z. B. die Kennzeichnung eines Bildes als „Strand“). Die Erkennung ist die umfassendere Fähigkeit, die es dem System ermöglicht, den Inhalt zu verstehen.
  • Erkennung vs. Objekterkennung: Während die Erkennung identifiziert, was sich in einem Bild befindet, lokalisiert die Erkennung, wo es sich befindet. Erkennungsalgorithmen zeichnen einen Begrenzungsrahmen um jedes Objekt und trennen es so vom Hintergrund.
  • Erkennung vs. Instanzsegmentierung: Dies geht einen Schritt weiter als die Erkennung, indem die genauen Pixelkonturen eines Objekts identifiziert werden und nicht nur ein Rahmen. Dies ist entscheidend für Anwendungen, die präzise Messungen erfordern, wie z. B. die biomedizinische Bildanalyse.

Anwendungsfälle in der Praxis

Der Nutzen der Bilderkennung erstreckt sich praktisch auf alle Bereiche, in denen visuelle Daten generiert werden.

  • Medizinische Diagnostik: Im Gesundheitswesen unterstützen Erkennungsalgorithmen Radiologen durch die Analyse medizinischer Bilddaten wie Röntgenaufnahmen und MRT-Bilder. Tools wie KI in derRadiologie können Anomalien wie Tumore oder Frakturen schneller und manchmal genauer identifizieren als die menschliche Beobachtung allein.
  • Einzelhandel und Lagerhaltung: IntelligenteSupermärkte nutzen die Erkennung, um track , wenn sie aus den Regalen genommen werden, und ermöglichen so automatisierte Kassensysteme. In ähnlicher Weise verwenden Lagerroboter diese Technologie, um Pakete zu identifizieren und zu sortieren.
  • Sicherheit und Zugangskontrolle: Gesichtserkennungssysteme ermöglichen einen sicheren Zugang zu Smartphones und Gebäuden, indem sie die Identität anhand einer Datenbank mit gespeicherten Gesichtsmerkmalen überprüfen.

Implementierung der Bilderkennung mit YOLO26

Für Entwickler und Forscher ist die Implementierung der Bilderkennung mit modernsten Modellen wie YOLO26, das Klassifizierung, Erkennung und Segmentierung nativ unterstützt. Das folgende Beispiel zeigt, wie die Erkennung (insbesondere die Objekterkennung) auf einem Bild mit dem ultralytics Python .

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (n for nano, fastest speed)
model = YOLO("yolo26n.pt")

# Run inference on an image to recognize and locate objects
# The source can be a file path, URL, or webcam (source=0)
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results with bounding boxes and labels
results[0].show()

Für Teams, die ihre eigenen Datensätze annotieren und benutzerdefinierte Modelle in der Cloud trainieren möchten, bietet die Ultralytics eine optimierte Umgebung zur Verwaltung des gesamten Lebenszyklus eines Bilderkennungsprojekts, von der Datenerfassung bis zur Bereitstellung.

Zukünftige Trends

Mit zunehmender Rechenleistung entwickelt sich die Bilderkennung zu einem Videoverständnis, bei dem Systeme den zeitlichen Kontext über mehrere Bilder hinweg analysieren. Darüber hinaus ermöglicht die Integration von generativer KI den Systemen nicht nur die Erkennung von Bildern, sondern auch die Erstellung detaillierter Textbeschreibungen, wodurch die Lücke zwischen Natural Language Processing (NLP) und Bildverarbeitung geschlossen wird.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten