Deep Reinforcement Learning
Esplora il deep reinforcement learning (DRL) e come combina il processo decisionale dell'AI con il deep learning. Impara a usare Ultralytics YOLO26 come livello di percezione oggi.
Il Deep Reinforcement Learning (DRL) è un sottoinsieme avanzato dell'intelligenza artificiale (AI) che combina le capacità decisionali del reinforcement learning con la potenza percettiva del deep learning (DL). Mentre il reinforcement learning tradizionale si affida a metodi tabellari per mappare situazioni ad azioni, questi metodi faticano quando l'ambiente è complesso o visivo. Il DRL supera questo problema utilizzando reti neurali per interpretare dati di input ad alta dimensione, come fotogrammi video o letture di sensori, consentendo alle macchine di apprendere strategie efficaci direttamente dall'esperienza grezza senza istruzioni umane esplicite.
Link to this sectionIl meccanismo centrale del DRL#
In un sistema DRL, un agente AI interagisce con un ambiente in passaggi temporali discreti. A ogni passaggio, l'agente osserva lo "stato" attuale, seleziona un'azione basata su una policy e riceve un segnale di ricompensa che indica il successo o il fallimento di tale azione. L'obiettivo principale è massimizzare la ricompensa cumulativa nel tempo.
La componente "deep" si riferisce all'uso di reti neurali profonde per approssimare la policy (la strategia per agire) o la funzione di valore (la ricompensa futura stimata). Ciò consente all'agente di elaborare dati non strutturati, utilizzando la computer vision (CV) per "vedere" l'ambiente proprio come farebbe un essere umano. Questa capacità è alimentata da framework come PyTorch o TensorFlow, che facilitano l'addestramento di queste reti complesse.
Link to this sectionApplicazioni nel mondo reale#
Il DRL si è spostato oltre la ricerca teorica verso applicazioni pratiche e ad alto impatto in vari settori:
- Robotica avanzata: Nel campo dell'AI nella robotica, il DRL consente alle macchine di padroneggiare abilità motorie complesse difficili da programmare manualmente. I robot possono imparare ad afferrare oggetti irregolari o attraversare terreni irregolari perfezionando i loro movimenti all'interno di motori fisici come NVIDIA Isaac Sim. Questo spesso comporta l'addestramento su dati sintetici prima di distribuire la policy su hardware fisico.
- Guida autonoma: I veicoli autonomi sfruttano il DRL per prendere decisioni in tempo reale in scenari di traffico imprevedibili. Mentre i modelli di object detection identificano pedoni e segnali, gli algoritmi DRL utilizzano tali informazioni per determinare policy di guida sicure per l'immissione in corsia, la navigazione agli incroci e il controllo della velocità, gestendo efficacemente la latenza di inferenza richiesta per la sicurezza.
Link to this sectionLa visione come osservatore di stato#
Per molte applicazioni DRL, lo "stato" è visivo. Modelli ad alta velocità fungono da occhi dell'agente, convertendo le immagini grezze in dati strutturati su cui la rete di policy può agire. L'esempio seguente illustra come il modello YOLO26 funga da livello di percezione per un agente, estraendo osservazioni (es. conteggio degli ostacoli) dall'ambiente.
from ultralytics import YOLO
# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects)
results = model(observation_frame)
# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")Link to this sectionDistinguere il DRL da concetti correlati#
È utile differenziare il Deep Reinforcement Learning da termini simili per comprendere la sua posizione unica nel panorama dell'AI:
- Reinforcement Learning (RL): Il RL standard è il concetto fondamentale ma si affida tipicamente a tabelle di ricerca (come le Q-table) che diventano impraticabili per grandi spazi di stato. Il DRL risolve questo problema usando il deep learning per approssimare le funzioni, consentendogli di gestire input complessi come le immagini.
- Reinforcement Learning from Human Feedback (RLHF): Mentre il DRL solitamente ottimizza per una funzione di ricompensa definita matematicamente (es. punti in un gioco), l'RLHF perfeziona i modelli—nello specifico Large Language Models (LLMs)—utilizzando preferenze umane soggettive per allineare il comportamento dell'AI ai valori umani, una tecnica resa popolare da gruppi di ricerca come OpenAI.
- Unsupervised Learning: I metodi non supervisionati cercano schemi nascosti nei dati senza un feedback esplicito. Al contrario, il DRL è orientato agli obiettivi, guidato da un segnale di ricompensa che orienta attivamente l'agente verso un obiettivo specifico, come discusso nei testi fondamentali di Sutton and Barto.
Gli sviluppatori che desiderano gestire i dataset richiesti per i livelli di percezione dei sistemi DRL possono utilizzare la Ultralytics Platform, che semplifica le annotazioni e i flussi di lavoro di addestramento in cloud. Inoltre, i ricercatori utilizzano spesso ambienti standardizzati come Gymnasium per confrontare i propri algoritmi DRL rispetto a baseline consolidate.






