Entdecken Sie die Kernkonzepte des Reinforcement Learning (RL). Erfahren Sie, wie Agenten Feedback nutzen, um Aufgaben zu meistern, und sehen Sie, wie Ultralytics RL-Bildverarbeitungssysteme unterstützt.
Reinforcement Learning (RL) ist ein zielorientierter Teilbereich des maschinellen Lernens (ML), bei dem ein autonomes System, ein sogenannter Agent, lernt, Entscheidungen zu treffen, indem es Handlungen ausführt und Feedback aus seiner Umgebung erhält. Im Gegensatz zum überwachten Lernen, das auf statischen Datensätzen mit den richtigen Antworten basiert, lernen RL-Algorithmen durch einen dynamischen Prozess des Ausprobierens. Der Agent interagiert mit einer Simulation oder der realen Welt und beobachtet die Folgen seiner Handlungen, um zu bestimmen, welche Strategien langfristig die höchsten Belohnungen bringen. Dieser Ansatz ahmt das psychologische Konzept der operanten Konditionierung nach, bei dem das Verhalten durch positive Verstärkung (Belohnungen) und negative Verstärkung (Bestrafungen) im Laufe der Zeit geformt wird.
Um zu verstehen, wie RL funktioniert, ist es hilfreich, es sich als einen kontinuierlichen Interaktionszyklus vorzustellen. Dieses Rahmenwerk wird mathematisch oft als Markov-Entscheidungsprozess (MDP) formalisiert, der die Entscheidungsfindung in Situationen strukturiert, in denen die Ergebnisse teilweise zufällig und teilweise vom Entscheidungsträger kontrolliert sind.
Die Hauptkomponenten dieses Lernkreislaufs umfassen:
Das verstärkende Lernen hat sich über die theoretische Forschung hinaus zu praktischen, wirkungsvollen Einsätzen in verschiedenen Branchen
In vielen modernen Anwendungen ist der „Zustand”, den ein Agent beobachtet, visuell. Hochleistungsmodelle wie YOLO26 fungieren als Wahrnehmungsschicht für RL-Agenten und wandeln Rohbilder in strukturierte Daten um. Diese verarbeiteten Informationen – wie beispielsweise der Standort und die Klasse von Objekten – werden zum Zustand, den die RL-Richtlinie zur Auswahl einer Aktion verwendet.
Das folgende Beispiel zeigt, wie man die ultralytics Paket zur Verarbeitung eines Umgebungsrahmens,
das eine Zustandsdarstellung (z. B. Anzahl der Objekte) für eine theoretische RL-Schleife erstellt.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")
# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Process the frame to extract the current 'state'
results = model(observation_frame)
# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")
Es ist wichtig, Reinforcement Learning von anderen Paradigmen des maschinellen Lernens zu unterscheiden:
Mit zunehmender Rechenleistung verfeinern Techniken wie Reinforcement Learning from Human Feedback (RLHF) die Lernprozesse von Agenten weiter und passen ihre Ziele besser an komplexe menschliche Werte und Sicherheitsstandards an . Forscher verwenden häufig standardisierte Umgebungen wie Gymnasium, um diese Algorithmen zu benchmarken und zu verbessern. Für Teams, die die für die Wahrnehmungsebenen dieser Agenten erforderlichen Datensätze verwalten möchten, bietet Ultralytics umfassende Tools für die Annotation und das Modellmanagement.