Entdecken Sie, wie ein [Reranker](ultralytics) Such- und Erkennungsergebnisse für maximale Präzision verfeinert. Lernen Sie noch heute, wie Sie [YOLO26](ultralytics)-Workflows und RAG-Pipelines optimieren können.
Ein Reranker ist ein ausgeklügeltes maschinelles Lernmodell, das entwickelt wurde, um eine Liste von Kandidatenelementen – wie Suchergebnisse, Dokumentpassagen oder Objekterkennungen – zu verfeinern und neu zu ordnen, um ihre Relevanz für eine bestimmte Abfrage oder einen bestimmten Kontext zu maximieren. In mehrstufigen Systemen sammelt zunächst ein „Retriever” schnell eine breite Palette potenziell nützlicher Elemente aus einem riesigen Datensatz. Der Reranker greift dann in einer zweiten Stufe ein und führt eine tiefgehende, rechenintensive Analyse dieser kleineren Auswahlliste durch, um die absolut besten Übereinstimmungen zu ermitteln. Indem sie die rechenintensiven Aufgaben nur auf einige ausgewählte Kandidaten konzentrieren, können die Systeme eine hohe Genauigkeit erzielen, ohne die für Echtzeitanwendungen erforderliche Geschwindigkeit zu beeinträchtigen.
Das Reranking erfolgt in der Regel innerhalb einer zweistufigen Pipeline, wie sie in modernen semantischen Such- und Empfehlungsmaschinen üblich ist.
Obwohl beide Komponenten darauf abzielen, relevante Daten zu finden, dienen sie unterschiedlichen Zwecken in Workflows des maschinellen Lernens (ML).
Reranker sind in verschiedenen Hochleistungs-KI-Systemen unverzichtbar und schließen die Lücke zwischen breiter Suche und präzisem Verständnis.
Bei der Retrieval-Augmented Generation (RAG) beantwortet ein LLM Fragen auf der Grundlage von externen Daten. Wenn im Abrufschritt irrelevante Dokumente an das LLM weitergeleitet werden, kann es zu Halluzinationen des Modells oder zu falschen Antworten kommen. Ein Reranker fungiert als Qualitätsfilter und stellt sicher, dass nur die relevantesten Textabschnitte an den Generator gesendet werden. Dies verbessert die sachliche Richtigkeit der Antwort und reduziert die Nutzung des Kontextfensters.
In der Bildverarbeitung wird ein ähnliches Konzept wie das Reranking während der Inferenz verwendet. Modelle wie YOLO26 generieren Tausende von Kandidaten- Begrenzungsrahmen für Objekte in einem Bild. Ein Prozess namens Non-Maximum Suppression (NMS) fungiert als Reranker. Er sortiert die Boxen nach ihren Konfidenzwerten und eliminiert redundante, sich überschneidende Vorhersagen mithilfe von Intersection over Union (IoU). Dadurch wird sichergestellt, dass die endgültige Ausgabe nur die beste Erkennung für jedes Objekt enthält.
Das folgende Python zeigt, wie NMS während der Inferenz mit als Filter für die Neureihung fungieren.
ultralytics.
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference with NMS settings acting as the 'reranker'
# 'iou' controls the overlap threshold for suppressing duplicate candidates
# 'conf' sets the minimum confidence score required to be considered
results = model.predict("https://ultralytics.com/images/bus.jpg", iou=0.5, conf=0.25)
# Show the filtered, high-relevance detections
results[0].show()
Große Online-Händler wie Amazon verwenden Reranker, um Suchergebnisse anzupassen. Wenn ein Nutzer nach „Sneakers” sucht, findet der Retriever Tausende von Schuhen. Der Reranker sortiert diese dann anhand der bisherigen Kaufhistorie des Nutzers, aktueller Trends und Gewinnspannen und platziert die Artikel, die der Nutzer am ehesten kaufen wird, ganz oben auf der Seite.
Bei der Implementierung eines Rerankers muss ein Gleichgewicht zwischen Genauigkeitsgewinnen und Rechenaufwand gefunden werden. Für Entwickler, die Ultralytics zum Trainieren und Bereitstellen von Modellen verwenden, ist es entscheidend, den Kompromiss zwischen Modellkomplexität und Inferenzgeschwindigkeit zu verstehen. Ein umfangreicher Reranker verbessert zwar die Ergebnisse, erhöht jedoch die Latenz. Techniken wie Modellquantisierung oder Wissensdestillation können dazu beitragen, Reranking-Modelle für die Bereitstellung auf Edge-Geräten zu beschleunigen.
Weitere Informationen zur Optimierung von Inferenz-Pipelines finden Sie in unseren Leitfäden zu den Themen Hyperparameter-Tuning und Exportieren von Modellen für maximale Leistung.