Entdecken Sie die Bildklassifizierung mit Ultralytics YOLO: Trainieren Sie benutzerdefinierte Modelle für das Gesundheitswesen, die Landwirtschaft, den Einzelhandel und mehr mit modernsten Tools.
Die Bildklassifizierung ist eine grundlegende Aufgabe im Bereich Computer Vision (CV), bei der einem gesamten Bild eine einzelne, spezifische Bezeichnung aus einem vordefinierten Satz von Kategorien zugewiesen wird. Das Hauptziel besteht darin, das Hauptobjekt eines Bildes zu identifizieren und es entsprechend zu kategorisieren. Beispielsweise würde ein Klassifizierungsmodell ein Bild analysieren und eine Bezeichnung wie „Katze“, „Hund“ oder „Auto“ ausgeben. Diese Aufgabe bildet die Grundlage für viele komplexere CV-Anwendungen und ist eine Kernkomponente des maschinellen Lernens (ML). Der Prozess stützt sich auf Algorithmen, insbesondere Convolutional Neural Networks (CNNs), um Unterscheidungsmerkmale aus großen, beschrifteten Datensätzen zu lernen.
Bildklassifizierungsmodelle werden mithilfe von überwachtem Lernen trainiert, wobei sie mit einer großen Anzahl von Bildern gefüttert werden, die bereits manuell mit der richtigen Klasse beschriftet wurden. Während des Trainings lernt das neuronale Netzwerk, Muster, Texturen, Formen und Farbkombinationen zu identifizieren, die mit jeder Kategorie verbunden sind. Dieses Lernen wird durch einen Prozess namens Backpropagation erreicht, der die internen Parameter des Modells oder Gewichte anpasst, um die Differenz zwischen seinen Vorhersagen und den tatsächlichen Bezeichnungen zu minimieren.
Moderne Klassifizierungsmodelle verwenden oft Deep-Learning-Architekturen mit vielen Schichten. Frühe Schichten lernen möglicherweise, einfache Merkmale wie Kanten und Ecken zu erkennen, während tiefere Schichten diese kombinieren, um komplexere Strukturen wie Augen, Räder oder Gesichter zu identifizieren. Die letzte Schicht des Netzwerks verwendet typischerweise eine Softmax-Funktion, um eine Wahrscheinlichkeitsbewertung für jede mögliche Klasse zu erzeugen. Die Klasse mit der höchsten Wahrscheinlichkeit wird als endgültige Vorhersage ausgewählt. Entscheidend für diesen Prozess ist die Feature Extraction, bei der das Modell automatisch die informativsten Merkmale für die Klassifizierungsaufgabe lernt.
Die Bildklassifizierung wird in zahlreichen Branchen eingesetzt, um visuelle Erkennungsaufgaben zu automatisieren und zu skalieren. Zwei prominente Beispiele sind:
Obwohl die Bildklassifizierung eng mit anderen Computer-Vision-Aufgaben verwandt ist, hat sie einen eigenen Zweck. Es ist wichtig, sie von Folgendem zu unterscheiden:
Zusammenfassend lässt sich sagen, dass die Klassifizierung Ihnen sagt, was sich in einem Bild befindet, die Erkennung sagt Ihnen was und wo, und die Segmentierung liefert eine detaillierte, pixelgenaue Karte von allem, was sich in der Szene befindet.
Obwohl Ultralytics YOLO-Modelle für die Objekterkennung bekannt sind, zeichnen sie sich auch bei Bildklassifizierungsaufgaben aus. Modernste Modelle wie YOLO11 können einfach mit dem intuitiven Ultralytics Python-Paket oder der No-Code-Plattform Ultralytics HUB auf benutzerdefinierten Datensätzen trainiert oder feinabgestimmt werden.
Unsere Dokumentation bietet umfangreiche Ressourcen, einschließlich Tipps zum Modelltraining und eine detaillierte Anleitung zur Verwendung von YOLO11 für die Bildklassifizierung. Entwickler können vortrainierte Modelle auf Benchmark-Datensätzen wie ImageNet, CIFAR-100 und Caltech-101 nutzen oder ein neues Modell von Grund auf trainieren. Für diejenigen, die an den neuesten Fortschritten interessiert sind, bieten Ressourcen wie Papers With Code einen umfassenden Überblick über die leistungsstärksten Modelle. Sie können auch die YOLO-Modellleistung auf Standard-Benchmarks vergleichen. Frameworks wie PyTorch und TensorFlow bilden die Grundlage für den Aufbau und das Training dieser Modelle.