Entdecken Sie Deep Reinforcement Learning (DRL) und wie es KI-Entscheidungsfindung mit Deep Learning kombiniert. Lernen Sie noch heute, Ultralytics als Wahrnehmungsschicht zu verwenden.
Deep Reinforcement Learning (DRL) ist ein fortgeschrittener Teilbereich der künstlichen Intelligenz (KI), der die Entscheidungsfähigkeiten des Reinforcement Learning mit der Wahrnehmungsfähigkeit des Deep Learning (DL) kombiniert. Während das traditionelle Reinforcement Learning auf tabellarischen Methoden basiert, um Situationen auf Handlungen abzubilden, stoßen diese Methoden an ihre Grenzen, wenn die Umgebung komplex oder visuell ist. DRL überwindet dies durch den Einsatz neuronaler Netze zur Interpretation hochdimensionaler Eingabedaten wie Videobilder oder Sensorwerte, wodurch Maschinen in die Lage versetzt werden, effektive Strategien direkt aus rohen Erfahrungen ohne explizite menschliche Anweisungen zu lernen.
In einem DRL-System interagiert ein KI-Agent in diskreten Zeitschritten mit einer Umgebung . Bei jedem Schritt beobachtet der Agent den aktuellen „Zustand“, wählt auf der Grundlage einer Richtlinie eine Aktion aus und erhält ein Belohnungssignal, das den Erfolg oder Misserfolg dieser Aktion anzeigt. Das primäre Ziel besteht darin, die kumulative Belohnung im Laufe der Zeit zu maximieren.
Die „tiefe“ Komponente bezieht sich auf die Verwendung tiefer neuronaler Netze zur Annäherung an die Politik (die Strategie für das Handeln) oder die Wertfunktion (die geschätzte zukünftige Belohnung). Dies ermöglicht es dem Agenten, unstrukturierte Daten zu verarbeiten und mithilfe von Computer Vision (CV) die Umgebung ähnlich wie ein Mensch zu „sehen“. Diese Fähigkeit wird durch Frameworks wie PyTorch PyTorch oder TensorFlow, die das Training dieser komplexen Netzwerke erleichtern.
DRL hat sich über die theoretische Forschung hinaus zu praktischen, wirkungsvollen Anwendungen in verschiedenen Branchen entwickelt:
Bei vielen DRL-Anwendungen ist der „Zustand“ visuell. Hochgeschwindigkeitsmodelle fungieren als die Augen des Agenten und wandeln Rohbilder in strukturierte Daten um, auf die das Policy-Netzwerk reagieren kann. Das folgende Beispiel veranschaulicht, wie das YOLO26-Modell als Wahrnehmungsschicht für einen Agenten dient und Beobachtungen (z. B. Hinderniszählungen) aus der Umgebung extrahiert.
from ultralytics import YOLO
# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects)
results = model(observation_frame)
# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")
Es ist hilfreich, Deep Reinforcement Learning von ähnlichen Begriffen abzugrenzen, um seine einzigartige Position in der KI-Landschaft zu verstehen. KI-Landschaft zu verstehen:
Entwickler, die die für die Wahrnehmungsebenen von DRL-Systemen erforderlichen Datensätze verwalten möchten, können die Ultralytics nutzen, die Annotations- und Cloud-Trainings-Workflows vereinfacht . Darüber hinaus verwenden Forscher häufig standardisierte Umgebungen wie Gymnasium, um ihre DRL-Algorithmen anhand etablierter Baselines zu benchmarken.