Die Rückrufquote ist eine wichtige Leistungskennzahl beim maschinellen Lernen (ML) und bei der statistischen Klassifizierung. Sie misst die Fähigkeit eines Modells, alle relevanten Fälle innerhalb eines Datensatzes zu identifizieren. Sie misst insbesondere den Anteil der tatsächlich positiven Fälle, die vom Modell korrekt als positiv vorhergesagt wurden. Der Recall, der auch als Sensitivität oder True-Positive-Rate (TPR) bezeichnet wird, ist besonders wichtig in Szenarien, in denen die Nichterkennung eines positiven Falles (ein Falsch-Negativ-Fall) erhebliche Folgen hat. Sie hilft dabei, die Frage zu beantworten: "Wie viele der tatsächlich positiven Fälle hat das Modell richtig erkannt?" Für die Bewertung von Modellen ist es wichtig, verschiedene Metriken zu kennen, und die Rückrufquote bietet eine wichtige Perspektive auf die Vollständigkeit.
Wie der Rückruf berechnet wird
Der Recall wird berechnet, indem die Anzahl der True Positives (TP) durch die Summe der True Positives und False Negatives (FN) geteilt wird. True Positives sind die Instanzen, die korrekt als positiv identifiziert wurden, während Falsches Negatives die positiven Instanzen sind, die das Modell fälschlicherweise als negativ klassifiziert hat. Ein hoher Recall-Wert zeigt an, dass das Modell die meisten positiven Instanzen in den Daten effektiv findet. Diese Kennzahl ist von grundlegender Bedeutung für die Bewertung der Modellleistung, insbesondere bei Aufgaben wie der Objekterkennung und der Bildklassifizierung. Tools und Plattformen wie Ultralytics HUB zeigen den Recall-Wert oft zusammen mit anderen Metriken während der Modellbewertung an.
Rückruf Vs. Verwandte Metriken
Um den Recall zu verstehen, muss er oft mit anderen gängigen Bewertungskennzahlen verglichen werden:
- Präzision: Während sich Recall auf die Erfassung aller tatsächlich positiven Fälle konzentriert, misst Precision die Genauigkeit der positiven Vorhersagen des Modells (TP / (TP + False Positives)). Oft gibt es einen Kompromiss zwischen Precision und Recall; eine Verbesserung der einen kann die andere verringern. Dies wird als Tradeoff zwischen Precision und Recall bezeichnet.
- Genauigkeit: Die Genauigkeit misst die Gesamtkorrektheit des Modells über alle Klassen hinweg ((TP + True Negatives) / Gesamtvorhersagen). Die Genauigkeit kann jedoch irreführend sein, insbesondere bei unausgewogenen Datensätzen, bei denen eine Klasse deutlich in der Überzahl ist. In solchen Fällen ist der Recall für die Minderheitsklasse oft eine aussagekräftigere Metrik.
- F1-Score: Der F1-Score ist der harmonische Mittelwert aus Precision und Recall und stellt eine einzige Kennzahl dar, die beide Aspekte miteinander in Einklang bringt. Er ist nützlich, wenn du einen Kompromiss zwischen dem Auffinden aller positiven Instanzen (Recall) und der Sicherstellung, dass die identifizierten Instanzen tatsächlich positiv sind (Precision), brauchst. In den ausführlichen Leitfäden zu den YOLO findest du weitere Informationen.
Bedeutung und Anwendungen
Ein hoher Recall ist entscheidend für Anwendungen, bei denen das Übersehen positiver Instanzen kostspielig oder gefährlich ist. Der Schwerpunkt liegt auf der Minimierung von Falsch-Negativen.
- Medizinische Bildanalyse: Bei Diagnosesystemen, z. B. bei der Erkennung von Krebstumoren auf Scans, ist die Maximierung der Wiedererkennung von größter Bedeutung. Wenn eine Krankheit nicht erkannt wird (ein falsches Negativ), kann das schwerwiegende Folgen für den Patienten haben. Deshalb ist es besser, wenn es einige falsch positive Ergebnisse gibt (die gesundes Gewebe als potenziell krank markieren), die durch weitere Tests ausgeschlossen werden können. KI im Gesundheitswesen stützt sich stark auf Modelle mit hohem Wiedererkennungswert für das Screening und trägt zu Fortschritten bei, die in Fachzeitschriften wie Radiology: Artificial Intelligence. Die Erkennung von Hirntumoren erfordert zum Beispiel eine hohe Empfindlichkeit.
- Betrugsaufdeckung: In Finanzsystemen ist die Erkennung von betrügerischen Transaktionen entscheidend. Ein Modell mit hoher Rückrufquote stellt sicher, dass die meisten Betrugsversuche erkannt werden, um die finanziellen Verluste zu minimieren. Dies kann zwar dazu führen, dass einige legitime Transaktionen zur Überprüfung markiert werden (False Positives), aber die Kosten für das Übersehen einer betrügerischen Transaktion (False Negative) sind in der Regel viel höher. Bei vielen KI-Anwendungen im Finanzwesen steht der Recall im Vordergrund.
- Sicherheitssysteme: Bei Überwachungssystemen, die Eindringlinge oder Bedrohungen erkennen sollen, sorgt ein hoher Rückruf dafür, dass potenzielle Gefahren nicht übersehen werden. Eine tatsächliche Bedrohung zu übersehen (False Negative) könnte die Sicherheit gefährden, wie bei KI-gesteuerten Sicherheitsanwendungen zu sehen ist.
- Qualitätskontrolle in der Produktion: In automatisierten Inspektionssystemen hilft ein hoher Rückruf dabei, fast alle fehlerhaften Produkte in einer Produktionslinie zu identifizieren und so zu verhindern, dass fehlerhafte Artikel die Verbraucher erreichen. Das Übersehen eines Fehlers (Falsches Negativ) kann zu Kundenunzufriedenheit und Sicherheitsproblemen führen. Erfahre mehr über KI in der Produktion.
Rückruf in Ultralytics YOLO
Im Zusammenhang mit Computer Vision (CV) und Modellen wie Ultralytics YOLOist der Recall neben der Precision und der Mean Average Precision (mAP) eine wichtige Kennzahl, um die Leistung bei Aufgaben wie der Objekterkennung und der Segmentierung von Instanzen zu bewerten. Ein gutes Gleichgewicht zwischen Recall und Precision ist oft entscheidend für eine robuste Leistung in der Praxis. Wenn du zum Beispiel Modelle wie YOLOv8 und YOLO11 vergleichst, hilft der Recall dabei zu verstehen, wie gut jedes Modell alle Zielobjekte erkennt. Benutzer können eigene Modelle mit Frameworks wie PyTorch oder trainieren. TensorFlow trainieren und den Recall mit Tools wie Weights & Biases oder die integrierten Funktionen in Ultralytics HUB. Das Verständnis des Recalls hilft dabei, Modelle für bestimmte Anwendungsfälle zu optimieren, was möglicherweise die Abstimmung von Hyperparametern oder die Erkundung verschiedener Modellarchitekturen wie YOLOv10 oder das neueste YOLO11. Ressourcen wie die Ultralytics Dokumentation bieten umfassende Anleitungen zur Schulung und Bewertung.