Entdecken Sie Reinforcement Learning, bei dem Agenten Aktionen durch Versuch und Irrtum optimieren, um Belohnungen zu maximieren. Entdecken Sie Konzepte, Anwendungen und Vorteile!
Reinforcement Learning (RL) ist ein Bereich des maschinellen Lernens (ML), in dem ein intelligenter Agent lernt, durch Ausprobieren optimale Entscheidungen zu treffen. Im Gegensatz zu anderen Lernparadigmen wird dem Agenten nicht gesagt, welche Aktionen er ausführen soll. Stattdessen interagiert er mit einer Umgebung und erhält Feedback in Form von Belohnungen oder Strafen. Das grundlegende Ziel des Agenten ist es, eine Strategie zu erlernen, die als Policy bezeichnet wird und die seine kumulative Belohnung im Laufe der Zeit maximiert. Dieser Ansatz ist von der Verhaltenspsychologie inspiriert und eignet sich besonders gut zur Lösung sequenzieller Entscheidungsprobleme, wie im grundlegenden Text von Sutton und Barto dargelegt.
Der RL-Prozess wird als kontinuierlicher Feedback-Loop modelliert, der mehrere Schlüsselkomponenten umfasst:
Der Agent beobachtet den aktuellen Zustand der Umgebung, führt eine Aktion aus und erhält eine Belohnung zusammen mit dem nächsten Zustand. Dieser Zyklus wiederholt sich, und durch diese Erfahrung verfeinert der Agent schrittweise seine Strategie, um Aktionen zu bevorzugen, die zu höheren langfristigen Belohnungen führen. Der formale Rahmen für dieses Problem wird oft durch einen Markov-Entscheidungsprozess (Markov Decision Process, MDP) beschrieben. Zu den gängigen RL-Algorithmen gehören Q-Learning und Policy Gradients.
RL unterscheidet sich von den anderen Haupttypen des maschinellen Lernens:
RL hat in einer Vielzahl komplexer Bereiche bemerkenswerte Erfolge erzielt:
Reinforcement Learning ist eine entscheidende Komponente der breiteren künstlichen Intelligenz (KI), insbesondere für die Entwicklung autonomer Systeme. Während Unternehmen wie Ultralytics sich auf Vision-KI-Modelle wie Ultralytics YOLO für Aufgaben wie Objekterkennung und Instanzsegmentierung mithilfe von überwachtem Lernen spezialisiert haben, sind die Wahrnehmungsfähigkeiten dieser Modelle wesentliche Inputs für RL-Agenten.
Beispielsweise könnte ein Roboter ein YOLO-Modell zur Wahrnehmung verwenden, das über Ultralytics HUB bereitgestellt wird, um seine Umgebung zu verstehen (den "Zustand"). Eine RL-Policy verwendet diese Informationen dann, um seinen nächsten Zug zu entscheiden. Diese Synergie zwischen Computer Vision (CV) für die Wahrnehmung und RL für die Entscheidungsfindung ist grundlegend für den Aufbau intelligenter Systeme. Diese Systeme werden oft mit Frameworks wie PyTorch und TensorFlow entwickelt und häufig in standardisierten Simulationsumgebungen wie Gymnasium (ehemals OpenAI Gym) getestet. Um die Modellausrichtung an menschlichen Präferenzen zu verbessern, werden Techniken wie Reinforcement Learning from Human Feedback (RLHF) im Bereich ebenfalls immer wichtiger. Fortschritte im Bereich RL werden kontinuierlich von Organisationen wie DeepMind und akademischen Konferenzen wie NeurIPS vorangetrieben.