Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024
Glossar

Reinforcement Learning

Entdecken Sie Reinforcement Learning, bei dem Agenten Aktionen durch Versuch und Irrtum optimieren, um Belohnungen zu maximieren. Entdecken Sie Konzepte, Anwendungen und Vorteile!

Reinforcement Learning (RL) ist ein Bereich des maschinellen Lernens (ML), in dem ein intelligenter Agent lernt, durch Ausprobieren optimale Entscheidungen zu treffen. Im Gegensatz zu anderen Lernparadigmen wird dem Agenten nicht gesagt, welche Aktionen er ausführen soll. Stattdessen interagiert er mit einer Umgebung und erhält Feedback in Form von Belohnungen oder Strafen. Das grundlegende Ziel des Agenten ist es, eine Strategie zu erlernen, die als Policy bezeichnet wird und die seine kumulative Belohnung im Laufe der Zeit maximiert. Dieser Ansatz ist von der Verhaltenspsychologie inspiriert und eignet sich besonders gut zur Lösung sequenzieller Entscheidungsprobleme, wie im grundlegenden Text von Sutton und Barto dargelegt.

Wie Reinforcement Learning funktioniert

Der RL-Prozess wird als kontinuierlicher Feedback-Loop modelliert, der mehrere Schlüsselkomponenten umfasst:

  • Agent: Der Lernende und Entscheidungsträger, wie z. B. ein Roboter oder ein spielendes Programm.
  • Umgebung: Die äußere Welt, mit der der Agent interagiert.
  • Zustand: Eine Momentaufnahme der Umgebung zu einem bestimmten Zeitpunkt, die dem Agenten die Informationen liefert, die er für eine Entscheidung benötigt.
  • Aktion: Ein Zug, der vom Agenten aus einer Reihe möglicher Optionen ausgewählt wird.
  • Belohnung: Ein numerisches Signal, das die Umgebung nach jeder Aktion an den Agenten sendet und angibt, wie wünschenswert die Aktion war.

Der Agent beobachtet den aktuellen Zustand der Umgebung, führt eine Aktion aus und erhält eine Belohnung zusammen mit dem nächsten Zustand. Dieser Zyklus wiederholt sich, und durch diese Erfahrung verfeinert der Agent schrittweise seine Strategie, um Aktionen zu bevorzugen, die zu höheren langfristigen Belohnungen führen. Der formale Rahmen für dieses Problem wird oft durch einen Markov-Entscheidungsprozess (Markov Decision Process, MDP) beschrieben. Zu den gängigen RL-Algorithmen gehören Q-Learning und Policy Gradients.

Vergleich mit anderen Lernparadigmen

RL unterscheidet sich von den anderen Haupttypen des maschinellen Lernens:

Anwendungsfälle in der Praxis

RL hat in einer Vielzahl komplexer Bereiche bemerkenswerte Erfolge erzielt:

  • Game Playing (Spiele spielen): RL-Agenten haben in komplexen Spielen übermenschliche Leistungen erzielt. Ein prominentes Beispiel ist DeepMinds AlphaGo, das lernte, die weltbesten Go-Spieler zu besiegen. Ein weiteres Beispiel ist OpenAIs Arbeit an Dota 2, wo ein Agent komplexe Teamstrategien erlernte.
  • Robotik: RL wird verwendet, um Roboter für die Ausführung komplexer Aufgaben wie Objektmanipulation, Montage und Fortbewegung zu trainieren. Anstatt explizit programmiert zu werden, kann ein Roboter lernen, zu laufen oder Objekte zu greifen, indem er für erfolgreiche Versuche in einer simulierten oder realen Umgebung belohnt wird. Dies ist ein wichtiger Forschungsbereich an Institutionen wie dem Berkeley Artificial Intelligence Research (BAIR) Lab.
  • Ressourcenmanagement: Optimierung von Abläufen in komplexen Systemen, wie z. B. die Steuerung des Verkehrsflusses in Städten, die Lastverteilung in Energienetzen und die Optimierung chemischer Reaktionen.
  • Recommendation Systems: RL kann verwendet werden, um die Reihenfolge der einem Benutzer empfohlenen Elemente zu optimieren, um das langfristige Engagement und die Zufriedenheit zu maximieren, anstatt nur die unmittelbaren Klicks.

Relevanz im KI-Ökosystem

Reinforcement Learning ist eine entscheidende Komponente der breiteren künstlichen Intelligenz (KI), insbesondere für die Entwicklung autonomer Systeme. Während Unternehmen wie Ultralytics sich auf Vision-KI-Modelle wie Ultralytics YOLO für Aufgaben wie Objekterkennung und Instanzsegmentierung mithilfe von überwachtem Lernen spezialisiert haben, sind die Wahrnehmungsfähigkeiten dieser Modelle wesentliche Inputs für RL-Agenten.

Beispielsweise könnte ein Roboter ein YOLO-Modell zur Wahrnehmung verwenden, das über Ultralytics HUB bereitgestellt wird, um seine Umgebung zu verstehen (den "Zustand"). Eine RL-Policy verwendet diese Informationen dann, um seinen nächsten Zug zu entscheiden. Diese Synergie zwischen Computer Vision (CV) für die Wahrnehmung und RL für die Entscheidungsfindung ist grundlegend für den Aufbau intelligenter Systeme. Diese Systeme werden oft mit Frameworks wie PyTorch und TensorFlow entwickelt und häufig in standardisierten Simulationsumgebungen wie Gymnasium (ehemals OpenAI Gym) getestet. Um die Modellausrichtung an menschlichen Präferenzen zu verbessern, werden Techniken wie Reinforcement Learning from Human Feedback (RLHF) im Bereich ebenfalls immer wichtiger. Fortschritte im Bereich RL werden kontinuierlich von Organisationen wie DeepMind und akademischen Konferenzen wie NeurIPS vorangetrieben.

Treten Sie der Ultralytics-Community bei

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert