Entdecken Sie, wie KI-Denkmodelle über das Abgleichen von Mustern hinausgehen und zu logischen Schlussfolgerungen gelangen. Erfahren Sie, wie Ultralytics und die Ultralytics visuelles Denken ermöglichen.
Reasoning-Modelle stellen eine bedeutende Weiterentwicklung der künstlichen Intelligenz dar, die über das einfache Abgleichen von Mustern hinausgeht und mehrstufige logische Schlussfolgerungen, Problemlösungen und Entscheidungsfindungen ermöglicht. Im Gegensatz zu herkömmlichen Deep-Learning -Architekturen, die sich stark auf statistische Korrelationen in riesigen Datensätzen stützen, sind Reasoning-Modelle darauf ausgelegt, ein Problem zu „durchdenken”. Sie verwenden häufig Techniken wie Kettengedanken oder interne Notizblöcke, um komplexe Abfragen in Zwischenschritte zu zerlegen, bevor sie eine endgültige Antwort generieren. Diese Fähigkeit ermöglicht es ihnen, Aufgaben zu bewältigen, die Mathematik, Programmierung und wissenschaftliches Denken erfordern, und zwar mit einer viel höheren Genauigkeit als herkömmliche große Sprachmodelle (LLMs).
Die Verlagerung hin zum logischen Denken beinhaltet das Trainieren von Modellen, um ihren eigenen internen Monolog oder ihre eigene Argumentationskette zu generieren. Jüngste Entwicklungen in den Jahren 2024 und 2025, wie beispielsweise die OpenAI o1-Serie, haben gezeigt, dass die Zuweisung von mehr Rechenzeit für „Inferenzzeit-Argumentation” die Leistung erheblich steigert. Durch den Einsatz von Verstärkungslernstrategien lernen diese Modelle, ihre eigenen Schritte zu überprüfen, bei detect zurückzugehen und ihre Logik zu verfeinern, bevor sie eine Lösung präsentieren. Dies steht im Gegensatz zu älteren Modellen, die einfach das nächstwahrscheinlichste Token auf der Grundlage der Wahrscheinlichkeit vorhersagen.
Argumentationsmodelle finden zunehmend Eingang in komplexe Arbeitsabläufe, in denen Präzision von größter Bedeutung ist.
Es ist wichtig, „Reasoning Models“ von generischer generativer KI zu unterscheiden.
Während textbasiertes Schlussfolgern bereits weit verbreitet ist, stellt visuelles Schlussfolgern ein schnell wachsendes Gebiet dar. Dabei geht es darum, komplexe visuelle Szenen zu interpretieren, um „Warum”- oder „Wie”-Fragen zu beantworten, anstatt nur zu fragen, „Was” vorhanden ist. Durch die Kombination der schnellen Objekterkennung von Modellen wie Ultralytics mit einer Schlussfolgerungs-Engine können Systeme Ursache-Wirkungs-Beziehungen in Video-Feeds analysieren.
In autonomen Fahrzeugen muss ein System beispielsweise nicht nur detect Fußgänger detect , sondern auch zu dem Schluss kommen, dass „der Fußgänger auf sein Handy schaut und auf den Bordstein zugeht , sodass er möglicherweise auf die Fahrbahn tritt“.
Das folgende Beispiel zeigt, wie strukturierte Daten mit YOLO26 extrahiert werden können, die dann in ein Schlussfolgerungsmodell eingespeist werden können , um Erkenntnisse über eine Szene zu gewinnen.
from ultralytics import YOLO
# Load the YOLO26 model for high-accuracy detection
model = YOLO("yolo26n.pt")
# Run inference on an image containing multiple objects
results = model("https://ultralytics.com/images/bus.jpg")
# Extract class names and coordinates for logic processing
# A reasoning model could use this data to determine spatial relationships
detections = []
for r in results:
for box in r.boxes:
detections.append(
{"class": model.names[int(box.cls)], "confidence": float(box.conf), "bbox": box.xywh.tolist()}
)
print(f"Structured data for reasoning: {detections}")
Die Entwicklung der KI geht in Richtung künstlicher allgemeiner Intelligenz (AGI), bei der Denkfähigkeiten im Mittelpunkt stehen werden. Wir beobachten eine Konvergenz, bei der multimodales Lernen es Modellen ermöglicht, gleichzeitig über Text, Code, Audio und Video hinweg zu denken. Plattformen wie die Ultralytics entwickeln sich weiter, um diese komplexen Arbeitsabläufe zu unterstützen, sodass Benutzer Datensätze verwalten können, die sowohl die visuelle Wahrnehmung als auch das Training des logischen Denkens fördern.
Weitere Informationen zu den technischen Grundlagen finden Sie in Forschungsarbeiten zum Thema „Chain-of-Thought“, die einen tiefen Einblick darin geben, wie Prompts latente Denkfähigkeiten freisetzen können. Darüber hinaus hilft das Verständnis der neuro-symbolischenKI dabei, zu verstehen, wie Logik und neuronale Netze für robustere Systeme kombiniert werden.