Entdecken Sie die Grundlagen der Bildklassifizierung, von CNNs bis hin zu realen KI-Anwendungen. Lernen Sie, mit Ultralytics modernste Klassifikatoren zu trainieren und einzusetzen.
Die Bildklassifizierung ist eine grundlegende Aufgabe im Bereich Computer Vision (CV), bei der ein maschinelles Lernmodell ein gesamtes Bild analysiert und ihm ein einzelnes Label aus einer vordefinierten Reihe von Kategorien zuweist. Im Wesentlichen beantwortet es die Frage: „Was ist das Hauptmotiv dieses Bildes?“ Als Kernkomponente der künstlichen Intelligenz (KI) ermöglicht dieser Prozess automatisierten Systemen, visuelle Daten in großem Umfang zu organisieren, zu kategorisieren und zu interpretieren. Auch wenn es für das menschliche Auge einfach erscheinen mag, erfordert die Fähigkeit von Computern, Muster zu erkennen, ausgefeilte Algorithmen des maschinellen Lernens (ML), um die Lücke zwischen rohen Pixeln und aussagekräftigen Konzepten zu schließen.
Die moderne Bildklassifizierung stützt sich stark auf Deep-Learning-Architekturen (DL), die als Convolutional Neural Networks (CNNs) bekannt sind. Diese Netzwerke sind so konzipiert, dass sie die Art und Weise nachahmen, wie der biologische visuelle Kortex Informationen verarbeitet. Durch einen Prozess der sogenannten Merkmalsextraktion lernt das Modell, in frühen Schichten Low-Level-Attribute wie Kanten und Texturen zu identifizieren und diese schließlich zu kombinieren, um komplexe Formen und Objekte in tieferen Schichten zu erkennen.
Um einen Klassifikator zu erstellen, verwenden Entwickler überwachtes Lernen und füttern das Modell mit riesigen Mengen an Trainingsdaten, die beschriftete Beispiele enthalten. Große öffentliche Datensätze wie ImageNet haben maßgeblich zur Verbesserung der Genauigkeit dieser Systeme beigetragen. Während der Inferenzphase gibt das Modell einen Wahrscheinlichkeitswert für jede Kategorie aus, wobei häufig eine Softmax-Funktion verwendet wird, um die wahrscheinlichste Klasse zu bestimmen.
Es ist wichtig, die Bildklassifizierung von verwandten Funktionen der Bildverarbeitung zu unterscheiden, da die Wahl der Technik vom jeweiligen Problem abhängt:
Die Bildklassifizierung ermöglicht eine Vielzahl von realen KI-Anwendungen in verschiedenen Branchen:
Im medizinischen Bereich unterstützen Klassifizierungsmodelle Radiologen bei der Analyse diagnostischer Scans. Medizinische Bildanalyse- Tools können Röntgenbilder oder MRT-Aufnahmen schnell als „normal“ oder „abnormal“ kategorisieren oder bestimmte Erkrankungen wie Tumore erkennen, was eine schnellere Triage und Diagnose der Patienten ermöglicht.
Fabriken nutzen automatisierte visuelle Inspektionen , um Produktstandards aufrechtzuerhalten. Kameras an Fertigungsstraßen nehmen Bilder von Komponenten auf, und Klassifizierungsmodelle kennzeichnen diese sofort als „bestanden“ oder „nicht bestanden“, basierend auf sichtbaren Mängeln. Diese automatisierte Qualitätskontrolle stellt sicher, dass nur einwandfreie Artikel die Verpackungsphase erreichen.
Landwirte nutzen KI in der Landwirtschaft, um den Gesundheitszustand ihrer Pflanzen zu überwachen. Durch die Klassifizierung von Bildern, die von Drohnen oder Smartphones aufgenommen wurden, können Systeme Anzeichen von Krankheiten, Nährstoffmangel oder Schädlingsbefall erkennen und so gezielte Maßnahmen im Rahmen der Präzisionslandwirtschaft ermöglichen.
Das Ultralytics Framework ist zwar für die Erkennung bekannt, bietet jedoch auch modernste Leistung für Bildklassifizierungsaufgaben. Seine Architektur ist auf Geschwindigkeit und Genauigkeit optimiert, wodurch es sich für Echtzeitanwendungen eignet.
Hier ist ein kurzes Beispiel dafür, wie man ein vortrainiertes Modell lädt und classify Bild mit dem
ultralytics Python :
from ultralytics import YOLO
# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")
# Run inference on an image source
results = model("https://ultralytics.com/images/bus.jpg")
# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")
Für Teams, die ihren Workflow optimieren möchten, vereinfacht Ultralytics die gesamte Pipeline. Sie ermöglicht es Benutzern, Klassifizierungsdatensätze zu verwalten, cloudbasiertes Training durchzuführen und Modelle in verschiedenen Formaten wie ONNX oder TensorRT , ohne dass eine umfangreiche Codierungsinfrastruktur erforderlich ist.