Erfahren Sie, wie Bilderkennung mithilfe von KI und Deep Learning visuelle Daten identifiziert. Entdecken Sie reale Anwendungen und setzen Sie Ultralytics ein, um Ergebnisse auf dem neuesten Stand der Technik zu erzielen.
Die Bilderkennung ist eine grundlegende Technologie im weiteren Bereich der Computervision (CV), die es Softwaresystemen ermöglicht , Objekte, Personen, Orte und Texte in digitalen Bildern zu identifizieren. Durch die Analyse des Pixelgehalts eines Bildes oder Videobildes versucht diese Technologie, die visuellen Wahrnehmungsfähigkeiten des menschlichen Auges und Gehirns nachzuahmen. Unterstützt durch künstliche Intelligenz (KI) wandelt die Bilderkennung unstrukturierte visuelle Daten in strukturierte, verwertbare Informationen um und dient damit als Grundlage für die Automatisierung in Branchen, die vom Gesundheitswesen bis zum autonomen Transport reichen.
Moderne Bilderkennungssysteme haben sich über die traditionelle, regelbasierte Programmierung hinaus weiterentwickelt und stützen sich heute stark auf Deep-Learning-Algorithmen (DL). Die am häufigsten für diese Aufgaben verwendete Architektur ist das Convolutional Neural Network (CNN). Ein CNN verarbeitet Bilder als Raster von Werten – die typischerweise die Farbkanäle Rot, Grün und Blau (RGB) darstellen – und leitet sie durch mehrere Schichten mathematischer Operationen.
Während dieses Prozesses führt das Netzwerk eine Merkmalsextraktion durch. Die ersten Schichten detect möglicherweise detect geometrische Muster wie Kanten oder Ecken, während tiefere Schichten diese Muster aggregieren, um komplexe Strukturen wie Augen, Räder oder Blätter zu erkennen. Um eine hohe Genauigkeit zu erreichen, benötigen diese Modelle große Mengen an beschrifteten Trainingsdaten. Groß angelegte öffentliche Datensätze wie ImageNet ImageNet, helfen den Modellen dabei, die statistische Wahrscheinlichkeit zu lernen, mit der eine bestimmte visuelle Anordnung einem Konzept wie „Katze”, „Fahrrad” oder „Stoppschild” entspricht .
Der Begriff „Bilderkennung“ wird zwar oft als Sammelbegriff verwendet, unterscheidet sich jedoch von anderen spezifischen Computer-Vision-Aufgaben. Das Verständnis dieser Nuancen ist entscheidend für die Auswahl des richtigen Modells für ein Projekt:
Der Nutzen der Bilderkennung erstreckt sich praktisch auf alle Bereiche, in denen visuelle Daten generiert werden.
Für Entwickler und Forscher ist die Implementierung der Bilderkennung mit
modernsten Modellen wie YOLO26, das
Klassifizierung, Erkennung und Segmentierung nativ unterstützt. Das folgende Beispiel zeigt, wie die Erkennung
(insbesondere die Objekterkennung) auf einem Bild mit dem ultralytics Python .
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (n for nano, fastest speed)
model = YOLO("yolo26n.pt")
# Run inference on an image to recognize and locate objects
# The source can be a file path, URL, or webcam (source=0)
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes and labels
results[0].show()
Für Teams, die ihre eigenen Datensätze annotieren und benutzerdefinierte Modelle in der Cloud trainieren möchten, bietet die Ultralytics eine optimierte Umgebung zur Verwaltung des gesamten Lebenszyklus eines Bilderkennungsprojekts, von der Datenerfassung bis zur Bereitstellung.
Mit zunehmender Rechenleistung entwickelt sich die Bilderkennung zu einem Videoverständnis, bei dem Systeme den zeitlichen Kontext über mehrere Bilder hinweg analysieren. Darüber hinaus ermöglicht die Integration von generativer KI den Systemen nicht nur die Erkennung von Bildern, sondern auch die Erstellung detaillierter Textbeschreibungen, wodurch die Lücke zwischen Natural Language Processing (NLP) und Bildverarbeitung geschlossen wird.