Esplora il Deep Reinforcement Learning (DRL) e scopri come combina il processo decisionale dell'IA con il deep learning. Impara oggi stesso a utilizzare Ultralytics come livello di percezione.
Il Deep Reinforcement Learning (DRL) è un sottoinsieme avanzato dell' intelligenza artificiale (AI) che combina le capacità decisionali dell' apprendimento per rinforzo con il potere percettivo del deep learning (DL). Mentre l'apprendimento per rinforzo tradizionale si basa su metodi tabulari per mappare le situazioni alle azioni, questi metodi incontrano difficoltà quando l' ambiente è complesso o visivo. Il DRL supera questo ostacolo utilizzando reti neurali per interpretare dati di input ad alta dimensionalità , come fotogrammi video o letture di sensori, consentendo alle macchine di apprendere strategie efficaci direttamente dall'esperienza grezza senza istruzioni umane esplicite.
In un sistema DRL, un agente AI interagisce con un ambiente in fasi temporali discrete. Ad ogni fase, l'agente osserva lo "stato" attuale, seleziona un'azione basata su una politica e riceve un segnale di ricompensa che indica il successo o il fallimento di tale azione. L'obiettivo principale è massimizzare la ricompensa cumulativa nel tempo.
Il componente "profondo" si riferisce all'uso di reti neurali profonde per approssimare la politica (la strategia di azione) o la funzione di valore (la ricompensa futura stimata). Ciò consente all'agente di elaborare dati non strutturati, utilizzando la visione artificiale (CV) per "vedere" l'ambiente proprio come fa un essere umano. Questa capacità è alimentata da framework come PyTorch o TensorFlow, che facilitano l' addestramento di queste reti complesse.
DRL è passata dalla ricerca teorica ad applicazioni pratiche e di grande impatto in vari settori industriali:
Per molte applicazioni DRL, lo "stato" è visivo. I modelli ad alta velocità fungono da occhi dell'agente, convertendo le immagini grezze in dati strutturati su cui la rete di policy può agire. L'esempio seguente illustra come il modello YOLO26 funga da livello di percezione per un agente, estragendo osservazioni (ad esempio, il numero di ostacoli) dall'ambiente.
from ultralytics import YOLO
# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects)
results = model(observation_frame)
# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")
È utile differenziare il Deep Reinforcement Learning da termini simili per comprendere la sua posizione unica nel panorama dell'IA. panorama dell'intelligenza artificiale:
Gli sviluppatori che desiderano gestire i set di dati necessari per i livelli di percezione dei sistemi DRL possono utilizzare Ultralytics , che semplifica i flussi di lavoro di annotazione e formazione cloud . Inoltre, i ricercatori utilizzano spesso ambienti standardizzati come Gymnasium per confrontare i loro algoritmi DRL con linee di base consolidate.