Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Reinforcement Learning

Entdecken Sie Reinforcement Learning, bei dem Agenten Aktionen durch Versuch und Irrtum optimieren, um Belohnungen zu maximieren. Entdecken Sie Konzepte, Anwendungen und Vorteile!

Reinforcement Learning (RL) ist ein dynamischer und zielorientierter Teilbereich des maschinellen Lernens (ML), bei dem ein autonomes System lernt, Entscheidungen zu treffen, indem es Aktionen ausführt und Feedback erhält. Im Gegensatz zu traditionellen Methoden, die aus statischen Datensätzen lernen, basiert RL auf einem kontinuierlichen Prozess des Ausprobierens. Ein KI-Agent interagiert mit einer Umgebung und beobachtet die Konsequenzen seiner Handlungen, um die beste Strategie zur Erreichung eines bestimmten Ziels zu ermitteln. Dieses Lernparadigma ahmt das psychologische Konzept der operanten Konditionierung nach, bei dem das Verhalten im Laufe der Zeit durch Belohnungen und Bestrafungen geprägt wird.

Kernkonzepte des verstärkenden Lernens

Um zu verstehen, wie RL funktioniert, ist es hilfreich, das Problem als einen Interaktionszyklus zu betrachten. Dieses Rahmenwerk wird oft mathematisch als Markov-Entscheidungsprozess (MDP) formalisiert, der eine Struktur für die Entscheidungsfindung in Situationen bietet, in denen die Ergebnisse teilweise zufällig und teilweise unter der Kontrolle eines Entscheidungsträgers

Die Hauptkomponenten dieses Kreislaufs umfassen:

  • KI-Agent: Die Einheit, die das Lernen und die Entscheidungsfindung durchführt. Sie nimmt die Umgebung wahr und ergreift Maßnahmen, um ihren kumulativen Erfolg zu maximieren.
  • Umgebung: Die Welt, in der der Agent agiert. Dies kann eine Simulation, ein Videospiellevel oder im Falle von KI in der Robotik die physische Welt sein.
  • Zustand: Eine Darstellung der aktuellen Situation oder Konfiguration der Umgebung. In visuellen Anwendungen beinhaltet dies häufig die Verarbeitung von Bildern mithilfe von Computer-Vision-Techniken (CV).
  • Aktion: Die spezifische Handlung oder Entscheidung des Agenten. Die Gesamtheit aller möglichen Handlungen, die dem Agenten zur Verfügung stehen, wird als Aktionsraum bezeichnet.
  • Belohnung: Ein numerisches Signal, das nach jeder Aktion von der Umgebung an den Agenten gesendet wird. Eine Belohnungsfunktion definiert positive Werte für vorteilhafte Aktionen und negative Werte (Strafen) für nachteilige Aktionen.
  • Richtlinie: Die Strategie oder der Regelsatz, den der Agent verwendet, um die nächste Aktion basierend auf dem aktuellen Zustand zu bestimmen. Algorithmen wie Q-Learning helfen bei der Optimierung dieser Richtlinie.

Anwendungsfälle in der Praxis

Das verstärkende Lernen hat den Übergang von der theoretischen Forschung zur praktischen Anwendung geschafft und treibt komplexe Systeme an, die eine adaptive Entscheidungsfindung erfordern.

  • Autonome Fahrzeuge: Selbstfahrende Autos nutzen RL, um komplexe Verkehrssituationen zu bewältigen. Während Wahrnehmungssysteme Fußgänger und Verkehrszeichen identifizieren, helfen RL-Algorithmen dem Auto zu entscheiden, wann es einfädeln, bremsen oder beschleunigen muss, um Sicherheit und Effizienz zu gewährleisten.
  • Strategisches Gaming: RL erlangte weltweite Anerkennung, als DeepMinds AlphaGo menschliche Weltmeister im Go-Spiel besiegte. Diese Agenten spielen Millionen von Spielen gegeneinander, um neuartige Strategien zu entdecken, die oft die menschliche Intuition übertreffen.
  • Industrielle Automatisierung: In der intelligenten Fertigung nutzen Roboter RL, um Manipulationsaufgaben zu erlernen, wie das Greifen unregelmäßiger Objekte oder das Zusammenbauen von Teilen. Dies ermöglicht eine flexible Automatisierung, die sich ohne umfangreiche Neuprogrammierung an neue Produkte anpassen kann.
  • Verkehrssteuerung: Kommunen setzen KI im Verkehrsmanagementein , um die Ampelschaltung dynamisch zu optimieren. Indem sie den Verkehrsfluss als Belohnungssignal behandeln, können RL-Agenten Staus effektiver reduzieren als feste Zeitgeber.

Verstärkungslernen vs. Verwandte Begriffe

Es ist wichtig, RL von anderen Lernstilen zu unterscheiden, da sich die Datenanforderungen und Ziele erheblich unterscheiden.

  • Überwachtes Lernen: Bei diesem Ansatz werden Modelle anhand eines gekennzeichneten Trainingsdatensatzes trainiert, bei dem die richtige Antwort angegeben ist. Das Modell lernt, Eingaben den entsprechenden Ausgaben zuzuordnen. Im Gegensatz dazu haben RL-Agenten keinen vorherigen Zugriff auf die „richtige“ Aktion; sie müssen diese durch Interaktion herausfinden.
  • Unüberwachtes Lernen: Diese Methode findet versteckte Muster oder Strukturen in unbeschrifteten Daten, beispielsweise durch die Gruppierung ähnlicher Elemente mittels k-Means-Clustering. RL unterscheidet sich davon, da sein primäres Ziel darin besteht, ein Belohnungssignal zu maximieren, anstatt nur die Datenverteilung zu analysieren.
  • Deep Reinforcement Learning (DRL): Während RL die Lernstruktur definiert, integriert DRL Deep Learning (DL) und neuronale Netze, um hochdimensionale Zustände wie beispielsweise Rohvideopixel zu verarbeiten, wodurch Agenten komplexere Probleme lösen können.

Integration von Vision mit RL

In vielen modernen Anwendungen ist der „Zustand“, den ein Agent beobachtet, visuell. Hochleistungsmodelle wie YOLO26 fungieren als Wahrnehmungsschicht für RL-Agenten und wandeln Rohbilder in strukturierte Objekterkennungsdaten um. Diese verarbeiteten Informationen werden zu dem Zustand, den die RL-Richtlinie zur Auswahl einer Aktion verwendet.

Das folgende Beispiel zeigt, wie man die ultralytics Paket zur Verarbeitung eines Umgebungsrahmens, das eine Zustandsdarstellung (z. B. Anzahl der Objekte) für eine theoretische RL-Schleife erstellt.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

Mit zunehmender Rechenleistung verfeinern Techniken wie Reinforcement Learning from Human Feedback (RLHF) die Lernprozesse von Agenten weiter und passen ihre Ziele besser an komplexe menschliche Werte und Sicherheitsstandards an . Forscher verwenden häufig standardisierte Umgebungen wie Gymnasium, um diese Algorithmen zu benchmarken und zu verbessern.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten