Glossar

Tiefes Reinforcement Learning

Entdecke die Macht des Deep Reinforcement Learning, bei dem KI komplexe Verhaltensweisen erlernt, um Herausforderungen in den Bereichen Gaming, Robotik, Gesundheitswesen und mehr zu lösen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Deep Reinforcement Learning (DRL) kombiniert die Prinzipien des Reinforcement Learning (RL) mit den Möglichkeiten des Deep Learning (DL). Es ermöglicht Software-Agenten, durch Versuch und Irrtum optimale Verhaltensweisen in komplexen, oft hochdimensionalen Umgebungen zu erlernen. Im Gegensatz zum traditionellen RL, das mit riesigen Zustandsräumen (wie z. B. rohen Pixeldaten einer Kamera) zu kämpfen hat, nutzt DRL tiefe neuronale Netze (NNs), um die für das Lernen benötigten Funktionen zu approximieren, z. B. die Wertfunktion (Vorhersage zukünftiger Belohnungen) oder die Strategie (Zuordnung von Zuständen zu Aktionen). So können DRL-Agenten Probleme lösen, die bisher nur schwer lösbar waren, indem sie direkt aus komplexen sensorischen Eingaben wie Bildern oder Sensorwerten lernen.

Wie Deep Reinforcement Learning funktioniert

Im Kern geht es bei DRL darum, dass ein Agent in diskreten Zeitschritten mit einer Umgebung interagiert. Der Prozess läuft in der Regel folgendermaßen ab:

  1. Beobachtung: Der Agent beobachtet den aktuellen Zustand der Umgebung. In DRL kann dieser Zustand durch hochdimensionale Daten dargestellt werden, wie z. B. Bildpixel, die von einem Convolutional Neural Network (CNN) verarbeitet werden.
  2. Aktionsauswahl: Auf der Grundlage des beobachteten Zustands wählt der Agent eine Aktion mithilfe seiner Strategie aus, die durch ein tiefes neuronales Netz dargestellt wird.
  3. Interaktion: Der Agent führt die gewählte Aktion aus, wodurch die Umgebung in einen neuen Zustand übergeht.
  4. Rückmeldung (Belohnung): Die Umwelt liefert ein skalares Belohnungssignal, das angibt, wie gut oder schlecht die Aktion im vorherigen Zustand war.
  5. Lernen: Der Agent nutzt das Belohnungssignal und den Zustandsübergang, um sein neuronales Netzwerk (Strategie oder Wertfunktion) mithilfe von Algorithmen wie Backpropagation und Gradientenabstieg zu aktualisieren. Das Ziel ist es, die Gewichte des Netzwerks so anzupassen, dass die kumulierte zukünftige Belohnung im Laufe der Zeit maximiert wird. Diese Lernschleife wiederholt sich und ermöglicht es dem Agenten, seine Entscheidungsstrategie schrittweise zu verbessern.

Schlüsselkonzepte in DRL

Um DRL zu verstehen, musst du mit einigen Kernideen des Reinforcement Learning vertraut sein, die jetzt mit Deep Learning-Techniken erweitert wurden:

  • Agent: Der Algorithmus oder das Modell, das lernt, Entscheidungen zu treffen.
  • Umgebung: Die Welt oder das System, mit dem der Agent interagiert (z. B. eine Spielsimulation oder die Umgebung eines Roboters). Standardisierte Umgebungen für die Forschung werden oft von Toolkits wie Gymnasium (früher OpenAI Gym) bereitgestellt.
  • Zustand: Eine Darstellung der Umgebung zu einem bestimmten Zeitpunkt. DRL eignet sich hervorragend für die Verarbeitung von Zuständen, die durch große Datenmengen repräsentiert werden, z. B. Bilder oder Sensor-Arrays.
  • Aktion: Eine vom Agenten getroffene Entscheidung, die die Umwelt beeinflusst.
  • Belohnung: Eine numerische Rückmeldung aus der Umwelt, die anzeigt, dass eine Handlung in einem bestimmten Zustand besonders wünschenswert ist.
  • Politik: Die Strategie des Agenten, die Zustände auf Aktionen abbildet. Bei DRL ist dies in der Regel ein tiefes neuronales Netz.
  • Wertfunktion: Schätzt die erwartete langfristige kumulative Belohnung für einen bestimmten Zustand oder ein bestimmtes Zustands-Aktionspaar. Auch diese Funktion wird oft durch ein tiefes neuronales Netz dargestellt.
  • Erkundung vs. Ausbeutung: Ein grundlegender Kompromiss, bei dem der Agent abwägen muss zwischen dem Ausprobieren neuer Aktionen, um bessere Strategien zu entdecken (Exploration), und dem Festhalten an bekannten guten Aktionen (Exploitation).

DRL im Vergleich zu anderen Paradigmen des maschinellen Lernens

DRL unterscheidet sich deutlich von anderen primären Machine Learning (ML) Ansätzen:

  • Überwachtes Lernen: Lernt aus einem Datensatz mit markierten Beispielen (Input-Output-Paaren). Aufgaben wie Bildklassifizierung oder Objekterkennung mit Modellen wie Ultralytics YOLO fallen unter diese Kategorie. DRL hingegen lernt von Belohnungssignalen ohne explizite richtige Antworten für jeden Zustand.
  • Unüberwachtes Lernen: Lernt Muster und Strukturen aus unbeschrifteten Daten (z. B. Clustering). DRL konzentriert sich auf das Erlernen zielgerichteten Verhaltens durch Interaktion und Feedback.
  • Reinforcement Learning (RL): DRL ist eine spezielle Art von RL, bei der tiefe neuronale Netze eingesetzt werden. Herkömmliches RL verwendet oft einfachere Darstellungen wie Tabellen (Q-Tabellen), die für Probleme mit sehr großen oder kontinuierlichen Zustandsräumen, in denen DRL glänzt, nicht praktikabel sind.

Anwendungen in der realen Welt

DRL hat in verschiedenen komplexen Bereichen zu Durchbrüchen geführt:

  • Robotik: Das Training von Robotern, die komplizierte Aufgaben wie die Manipulation von Objekten, die Fortbewegung und die Montage ausführen und dabei oft direkt von Kamera- oder Sensordaten lernen. Dies wird in Ressourcen wie " AI's Role in Robotics" erforscht.
  • Spiele spielen: Übermenschliche Leistungen in komplexen Spielen wie Go(DeepMinds AlphaGo) und verschiedenen Videospielen(OpenAI Five für Dota 2).
  • Autonome Fahrzeuge: Entwicklung ausgeklügelter Steuerungsstrategien für Navigation, Wegplanung und Entscheidungsfindung in dynamischen Verkehrsszenarien, wie in KI in selbstfahrenden Autos diskutiert.
  • Ressourcen-Optimierung: Verwaltung komplexer Systeme wie Energienetze(KI im Bereich erneuerbare Energien), Verkehrssignalsteuerung(KI im Verkehrsmanagement) und Optimierung chemischer Reaktionen.
  • Empfehlungssysteme: Die Optimierung von Empfehlungssequenzen, um das langfristige Engagement oder die Zufriedenheit der Nutzer/innen zu maximieren.
  • Gesundheitswesen: Ermittlung optimaler Behandlungsstrategien oder Medikamentendosierungen auf der Grundlage von Patientenzuständen und -ergebnissen, was zu Bereichen wie KI im Gesundheitswesen beiträgt.

Relevanz im KI-Ökosystem

Deep Reinforcement Learning ist ein bedeutender Forschungsbereich der Künstlichen Intelligenz (KI), der die Grenzen der maschinellen Autonomie und Entscheidungsfindung verschiebt. Während sich Unternehmen wie Ultralytics in erster Linie auf hochmoderne Bildverarbeitungsmodelle wie Ultralytics YOLO für Aufgaben wie Objekterkennung und Bildsegmentierung mit überwachtem Lernen konzentrieren, sind die Ergebnisse solcher Wahrnehmungssysteme oft entscheidende Inputs für DRL-Agenten. Ein Roboter könnte zum Beispiel ein Ultralytics YOLO verwenden, das über Ultralytics HUB eingesetzt wird, um seine Umgebung wahrzunehmen (Zustandsdarstellung), bevor eine DRL-Richtlinie über die nächste Aktion entscheidet. Das Verständnis von DRL gibt Aufschluss darüber, wie sich fortschrittliche Wahrnehmung in umfassendere autonome Systeme und komplexe Steuerungsprobleme einfügt, die von der KI-Gemeinschaft mit Toolkits wie Gymnasium und Frameworks wie PyTorchPyTorch Homepage) und TensorFlowTensorFlow ). Forschungsorganisationen wie DeepMind und akademische Einrichtungen wie die Association for the Advancement of Artificial Intelligence (AAAI) treiben den Fortschritt in diesem spannenden Bereich weiter voran.

Alles lesen