Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

Reinforcement Learning

Erforsche die Kernkonzepte des Reinforcement Learning (RL). Lerne, wie Agenten Feedback nutzen, um Aufgaben zu meistern, und sehe, wie Ultralytics YOLO26 RL-Vision-Systeme antreibt.

Reinforcement Learning (RL) is a goal-oriented subset of machine learning (ML) where an autonomous system, known as an agent, learns to make decisions by performing actions and receiving feedback from its environment. Unlike supervised learning, which relies on static datasets labeled with the correct answers, RL algorithms learn through a dynamic process of trial and error. The agent interacts with a simulation or the real world, observing the consequences of its actions to determine which strategies yield the highest long-term rewards. This approach closely mimics the psychological concept of operant conditioning, where behavior is shaped by positive reinforcement (rewards) and negative reinforcement (punishments) over time.

Link to this sectionKernkonzepte des RL-Zyklus#

Um zu verstehen, wie RL funktioniert, ist es hilfreich, es als einen kontinuierlichen Interaktionszyklus zu betrachten. Dieser Rahmen wird häufig mathematisch als ein Markov Decision Process (MDP) formalisiert, das die Entscheidungsfindung in Situationen strukturiert, in denen Ergebnisse teilweise zufällig und teilweise vom Entscheidungsträger gesteuert sind.

Die Hauptkomponenten dieses Lernzyklus umfassen:

  • AI Agent: Die Entität, die für das Lernen und Treffen von Entscheidungen verantwortlich ist. Sie nimmt die Umgebung wahr und führt Aktionen aus, um ihren kumulativen Erfolg zu maximieren.
  • Umgebung: Die Außenwelt, in der der Agent agiert. Dies könnte ein komplexes Videospiel, eine Simulation des Finanzmarktes oder ein physisches Lagerhaus im Bereich KI in der Logistik sein.
  • Zustand: Ein Schnappschuss oder eine Darstellung der aktuellen Situation. Bei visuellen Anwendungen beinhaltet dies oft die Verarbeitung von Kamera-Feeds mittels Computer Vision (CV), um Objekte und Hindernisse zu erkennen.
  • Aktion: Der spezifische Schritt oder die Wahl, die der Agent trifft. Die vollständige Menge aller möglichen Schritte wird als Aktionsraum bezeichnet.
  • Belohnung: Ein numerisches Signal, das nach einer Aktion von der Umgebung an den Agenten gesendet wird. Eine gut konzipierte Belohnungsfunktion weist positive Werte für vorteilhafte Aktionen und Strafen für nachteilige Aktionen zu.
  • Richtlinie (Policy): Die Strategie oder das Regelsystem, das der Agent verwendet, um basierend auf dem aktuellen Zustand die nächste Aktion zu bestimmen. Algorithmen wie Q-Learning definieren, wie diese Richtlinie aktualisiert und optimiert wird.

Link to this sectionPraxisanwendungen#

Reinforcement Learning hat sich von der theoretischen Forschung hin zu praktischen, wirkungsvollen Implementierungen in verschiedenen Branchen entwickelt.

  • Fortgeschrittene Robotik: Im Bereich KI in der Robotik ermöglicht RL Maschinen, komplexe motorische Fähigkeiten zu meistern, die schwer zu programmieren sind. Roboter können lernen, unregelmäßige Objekte zu greifen oder sich auf unebenem Gelände zu bewegen, indem sie in Physik-Engines wie NVIDIA Isaac Sim trainieren, bevor sie in der realen Welt eingesetzt werden.
  • Autonome Systeme: Autonome Fahrzeuge nutzen RL, um Echtzeitentscheidungen in unvorhersehbaren Verkehrsszenarien zu treffen. Während Objekterkennungsmodelle Fußgänger und Schilder identifizieren, helfen RL-Algorithmen dabei, sichere Fahrrichtlinien für das Einfädeln auf Spuren und das Navigieren an Kreuzungen festzulegen.
  • Strategische Optimierung: RL erlangte weltweite Aufmerksamkeit, als Systeme wie Google DeepMinds AlphaGo menschliche Weltmeister in komplexen Brettspielen besiegten. Über Spiele hinaus optimieren diese Agenten industrielle Logistikprozesse, wie zum Beispiel die Steuerung von Kühlsystemen in Rechenzentren, um den Energieverbrauch zu senken.

Link to this sectionIntegration von Vision mit RL#

In vielen modernen Anwendungen ist der "Zustand", den ein Agent beobachtet, visuell. Hochleistungsmodelle wie YOLO26 fungieren als Wahrnehmungsschicht für RL-Agenten und wandeln Rohbilder in strukturierte Daten um. Diese verarbeiteten Informationen – wie der Ort und die Klasse von Objekten – werden zum Zustand, den die RL-Richtlinie zur Auswahl einer Aktion verwendet.

Das folgende Beispiel zeigt, wie man das ultralytics-Paket verwendet, um einen Umgebungs-Frame zu verarbeiten und eine Zustandsrepräsentation (z. B. die Anzahl der Objekte) für einen theoretischen RL-Zyklus zu erstellen.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

Link to this sectionUnterscheidung verwandter Begriffe#

Es ist wichtig, Reinforcement Learning von anderen Machine-Learning-Paradigmen zu unterscheiden:

  • vs. Supervised Learning: Supervised Learning erfordert einen sachkundigen externen Vorgesetzten, der markierte Trainingsdaten bereitstellt (z. B. "dieses Bild enthält eine Katze"). Im Gegensatz dazu lernt RL aus den Konsequenzen seines eigenen Handelns ohne explizite Labels und entdeckt durch Erkundung optimale Wege.
  • vs. Unsupervised Learning: Unsupervised Learning konzentriert sich darauf, versteckte Strukturen oder Muster in unmarkierten Daten zu finden (wie das Clustering von Kunden). RL unterscheidet sich dadurch, dass es explizit zielorientiert ist und sich auf die Maximierung eines Belohnungssignals konzentriert, anstatt nur die Datenstruktur zu beschreiben.

Mit zunehmender Rechenleistung verfeinern Techniken wie Reinforcement Learning from Human Feedback (RLHF) weiter, wie Agenten lernen, und bringen ihre Ziele enger mit komplexen menschlichen Werten und Sicherheitsstandards in Einklang. Forscher verwenden oft standardisierte Umgebungen wie Gymnasium, um diese Algorithmen zu benchmarken und zu verbessern. Für Teams, die die Datensätze verwalten müssen, die für die Wahrnehmungsschichten dieser Agenten erforderlich sind, bietet die Ultralytics Platform umfassende Tools für Annotation und Modellmanagement.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens