Entdecken Sie, wie Bilderkennung KI in die Lage versetzt, Bilder classify und zu verstehen, und damit Innovationen im Gesundheitswesen, im Einzelhandel, in der Sicherheitsbranche und in anderen Bereichen vorantreibt.
Die Bilderkennung ist eine wichtige Technologie innerhalb des breiteren Feldes der Computer Vision (CV), die Software befähigt, Objekte Objekte, Personen, Orte und Schrift in Bildern zu identifizieren. Im Kern ermöglicht diese Technologie Computern, visuelle Daten zu "sehen" und visuelle Daten so zu interpretieren, dass sie die menschliche Wahrnehmung nachahmen. Durch die Analyse des Pixelinhalts von digitaler Bilder oder Videobilder, können Algorithmen des maschinellen Lernens (ML) aussagekräftige Muster extrahieren und den visuellen Eingaben übergeordnete Konzepte zuordnen. Diese Fähigkeit ist die Grundlage der modernen Künstliche Intelligenz (KI) und ermöglicht Sie ermöglicht es Systemen, Aufgaben zu automatisieren, für die früher menschliche Augen und Verständnis erforderlich waren.
Moderne Bilderkennungssysteme basieren überwiegend auf Deep Learning (DL) Architekturen. Genauer gesagt, Faltungsneuronale Netze (CNNs) sind aufgrund ihrer Fähigkeit, räumliche Beziehungen in Daten zu erhalten, zum Industriestandard geworden. Diese Netze verarbeiten Bilder durch Schichten von mathematischen Filtern und führen Merkmalsextraktion zur Erkennung einfacher Formen wie Kanten und Texturen, bevor sie diese kombinieren, um komplexe Objekte wie Gesichter oder Fahrzeuge zu erkennen.
Um effektiv zu funktionieren, benötigen diese Modelle umfangreiche Trainingsdaten. Riesige Sammlungen von beschrifteten Fotos, wie z. B. der berühmte ImageNet , ermöglichen es dem Modell, die statistische Wahrscheinlichkeit zu lernen, dass eine bestimmte Anordnung von Pixeln einer bestimmten Klasse entspricht, z. B. einem "Golden Retriever" oder eine "Ampel".
Der Begriff wird zwar häufig synonym mit anderen Begriffen verwendet, aber für Entwickler ist es wichtig, die Nuancen zu erkennen:
Der Nutzen der Bilderkennung erstreckt sich auf praktisch alle Bereiche. Unter Gesundheitswesen unterstützen Algorithmen Radiologen bei der automatischen Erkennung von Anomalien in Röntgenbildern und MRTs, was zu einer schnelleren Diagnose von Krankheiten wie Lungenentzündung oder Tumoren. Dies fällt unter das Spezialgebiet der medizinischen Bildanalyse.
Ein weiterer wichtiger Anwendungsfall ist die Automobilindustrie, insbesondere für autonome Fahrzeuge. Selbstfahrende Autos nutzen Algorithmen, um Fahrbahnmarkierungen zu erkennen, Geschwindigkeitsbegrenzungsschilder zu lesen und Fußgänger in Echtzeit detect , um sicherheitskritische Entscheidungen zu treffen. In ähnlicher Weise werden in Einzelhandelsumgebungen nutzen Systeme die Erkennung, um um den kassenlosen Checkout zu erleichtern, indem sie die Produkte erkennen, wenn die Kunden sie aus dem Regal nehmen.
Entwickler können Erkennungsfunktionen mit modernsten Modellen wie YOLO11. YOLO ist zwar für seine Erkennung bekannt, unterstützt aber auch Hochgeschwindigkeits-Klassifizierungsaufgaben. Die folgenden Python Schnipsel zeigt, wie ein vortrainiertes Modell geladen und das Hauptmotiv eines Bildes identifiziert wird.
from ultralytics import YOLO
# Load a pre-trained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")
# Perform inference on an external image URL
# The model will identify the most likely class (e.g., 'sportscar')
results = model("https://ultralytics.com/images/bus.jpg")
# Display the top predicted class name
print(f"Top Prediction: {results[0].names[results[0].probs.top1]}")
Da die Hardware immer besser wird, bewegt sich das Feld in Richtung Edge AI, wo die Erkennung direkt auf Geräten wie Smartphones und Kameras und nicht in der Cloud stattfindet. Diese Verlagerung verringert die Latenzzeit und verbessert den Datenschutz. Außerdem machen Fortschritte bei der Modellquantisierung machen diese leistungsstarken Tools leicht genug, um auf Mikrocontrollern zu laufen, was den Horizont der IoT-Anwendungen.