Glossar

Genauigkeit

Erfahre, wie wichtig die Genauigkeit beim maschinellen Lernen ist, wie sie berechnet wird, wo die Grenzen bei unausgewogenen Datensätzen liegen und wie du die Modellleistung verbessern kannst.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Die Genauigkeit ist eine der grundlegendsten und intuitivsten Kennzahlen zur Bewertung der Leistung von Modellen des maschinellen Lernens (ML), insbesondere bei Klassifizierungsaufgaben in der Künstlichen Intelligenz (KI) und der Computer Vision (CV). Sie gibt den Anteil der richtigen Vorhersagen des KI-Modells an der Gesamtzahl der Vorhersagen an. Obwohl sie leicht zu verstehen und zu berechnen ist, kann es manchmal irreführend sein, sich nur auf die Genauigkeit zu verlassen, vor allem wenn es um bestimmte Arten von Datensätzen oder spezifische Problemstellungen geht.

Wie die Genauigkeit berechnet wird

Die Genauigkeit wird berechnet, indem die Anzahl der korrekten Vorhersagen (sowohl wahr-positive als auch wahr-negative) durch die Gesamtzahl der getroffenen Vorhersagen geteilt wird. Wenn ein Modell zum Beispiel 90 von 100 Bildern richtig identifiziert, beträgt seine Genauigkeit 90 %. Diese Einfachheit macht sie zu einem beliebten Ausgangspunkt für die Bewertung der Modellleistung.

Bedeutung für KI und maschinelles Lernen

Die Genauigkeit ist ein einfaches Maß dafür, wie oft ein Modell insgesamt richtig ist. Sie wird häufig in der Anfangsphase der Modellentwicklung und des Modelltrainings verwendet, um ein allgemeines Gefühl für die Leistung zu bekommen. Eine hohe Genauigkeit ist für viele Anwendungen ein wichtiges Ziel, denn sie zeigt an, dass das Modell gut auf neue, ungesehene Daten verallgemeinert. Viele moderne Modelle, wie z. B. Ultralytics YOLO für die Objekterkennung, streben eine hohe Genauigkeit an, während sie gleichzeitig andere Faktoren wie Geschwindigkeit berücksichtigen. Du kannst Vergleiche wie YOLO11 vs. YOLOv8 sehen, in denen oft die Genauigkeit verglichen wird.

Beschränkungen der Genauigkeit

Trotz ihrer Intuitivität hat die Genauigkeit erhebliche Einschränkungen:

  • Unausgewogene Datensätze: Die Genauigkeit kann ein schlechter Indikator für die Leistung sein, wenn es sich um unausgewogene Daten handelt, bei denen eine Klasse deutlich in der Überzahl ist. Bei der Erkennung einer seltenen Krankheit (z. B. mit einer Prävalenz von 1 %) erreicht ein Modell, das immer "keine Krankheit" vorhersagt, zwar eine Genauigkeit von 99 %, kann aber keine tatsächlichen Fälle erkennen und ist damit nutzlos. Das macht deutlich, wie wichtig es ist, mögliche Verzerrungen in den Daten zu berücksichtigen.
  • Fehlertypen ignorieren: Bei der Genauigkeit werden alle Fehler gleich behandelt. In vielen realen Szenarien sind die Kosten der verschiedenen Fehler jedoch unterschiedlich hoch. Wenn zum Beispiel ein bösartiger Tumor als gutartig eingestuft wird (falsch negativ), ist das oft viel kritischer als wenn ein gutartiger Tumor als bösartig eingestuft wird (falsch positiv).
  • Genauigkeits-Paradoxon: In manchen Situationen kann ein nach der Standarddefinition weniger genaues Modell in der Praxis sogar nützlicher sein. Dies wird als Genauigkeits-Paradoxon bezeichnet.

Unterscheidung zwischen Genauigkeit und anderen Metriken

Da die Genauigkeit vor allem bei unausgewogenen Daten oder schwankenden Fehlerkosten ihre Grenzen hat, werden oft andere Messgrößen bevorzugt oder neben ihr verwendet:

  • Präzision: Misst den Anteil der positiven Erkennungen, die tatsächlich richtig waren. Eine hohe Genauigkeit ist wichtig, wenn die Kosten für falsch-positive Erkennungen hoch sind (z. B. wenn Spamfilter wichtige E-Mails als Spam markieren).
  • Rückruf (Empfindlichkeit): Misst den Anteil der tatsächlich positiven Ergebnisse, die richtig erkannt wurden. Eine hohe Aufklärungsquote ist wichtig, wenn die Kosten für falsch-negative Ergebnisse hoch sind (z. B. wenn eine Diagnose übersehen wird).
  • F1-Score: Das harmonische Mittel aus Precision und Recall, das ein Gleichgewicht zwischen den beiden Werten herstellt. Er ist nützlich, wenn sowohl falsch-positive als auch falsch-negative Ergebnisse wichtig sind.
  • Mittlere durchschnittliche Präzision (mAP): Eine gängige Metrik in der Objekterkennung, die sowohl die Klassifizierungsgenauigkeit als auch die Lokalisierungsgenauigkeit (IoU) über verschiedene Recall-Stufen hinweg berücksichtigt.
  • Verwirrungsmatrix: Eine Tabelle, die die Leistung eines Klassifizierungsalgorithmus veranschaulicht, indem sie wahre positive, wahre negative, falsch positive und falsch negative Ergebnisse anzeigt und bei der Berechnung von Präzision, Recall und Genauigkeit hilft.
  • ROC-Kurven und AUC: Diese veranschaulichen den Kompromiss zwischen wahrer Positivrate (Recall) und Falsch-Positivrate bei verschiedenen Schwellenwerten.

Das Verständnis dieser verschiedenen YOLO ermöglicht eine differenziertere Bewertung der Modellleistung, die auf spezifische Bedürfnisse zugeschnitten ist.

Real-World AI/ML Anwendungen

  1. Medizinische Bildanalyse: Bei Aufgaben wie der Tumorerkennung mit YOLO11 wird zwar die Gesamtgenauigkeit berücksichtigt, aber Kennzahlen wie Recall (Sensitivität) haben oft Vorrang, um das Risiko zu minimieren, dass tatsächliche Tumore übersehen werden (falsch-negative Ergebnisse). Lösungen für KI im Gesundheitswesen müssen diese Metriken sorgfältig abwägen.
  2. Autonome Fahrzeuge: Für KI in der Automobilindustrie müssen Modelle zur Objekterkennung eine hohe Genauigkeit bei der Erkennung von Fußgängern, Fahrzeugen und Hindernissen aufweisen. Es reicht jedoch nicht aus, nur die Gesamtgenauigkeit zu messen. Messgrößen wie mAP sind entscheidend, um sowohl eine korrekte Klassifizierung als auch eine präzise Lokalisierung(Bounding-Box-Vorhersage ) für die Sicherheit zu gewährleisten.

Verbesserung der Modellgenauigkeit

Verschiedene Techniken können dazu beitragen, die Modellgenauigkeit zu verbessern, auch wenn dies oft mit Abstrichen bei anderen Messgrößen oder den Rechenkosten verbunden ist:

Beratungsressourcen wie "Model Training Tips" können praktische Anleitungen liefern. Plattformen wie Ultralytics HUB ermöglichen es Nutzern, Modelle zu trainieren und die Genauigkeit zusammen mit anderen wichtigen Kennzahlen zu verfolgen, die oft mit Tools wie TensorBoard visualisiert werden. Um den Fortschritt in diesem Bereich zu verfolgen, kannst du Ressourcen wie den Stanford AI Index Report nutzen oder die Datensätze auf Papers With Code durchsuchen. Frameworks wie PyTorch (siehe offizielle Seite) und TensorFlow (siehe offizielle Seite) werden häufig zum Erstellen und Trainieren dieser Modelle verwendet.

Zusammenfassend lässt sich sagen, dass die Genauigkeit zwar ein wertvoller und intuitiver Maßstab für die Bewertung der Leistung von KI-Modellen ist, aber nur selten isoliert verwendet werden sollte. Die Berücksichtigung der spezifischen Ziele der ML-Aufgabe und der Beschaffenheit der Daten, insbesondere potenzielle Ungleichgewichte oder unterschiedliche Fehlerkosten, ist für die Auswahl der am besten geeigneten Bewertungsmetriken wie Präzision, Recall, F1-Score oder mAP entscheidend. Der Einsatz von Techniken der erklärbaren KI (Explainable AI, XAI) kann auch tiefere Einblicke als nur einzelne Metrikwerte liefern.

Alles lesen