Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Deep Reinforcement Learning

Esplora il Deep Reinforcement Learning (DRL) e scopri come combina il processo decisionale dell'IA con il deep learning. Impara oggi stesso a utilizzare Ultralytics come livello di percezione.

Il Deep Reinforcement Learning (DRL) è un sottoinsieme avanzato dell' intelligenza artificiale (AI) che combina le capacità decisionali dell' apprendimento per rinforzo con il potere percettivo del deep learning (DL). Mentre l'apprendimento per rinforzo tradizionale si basa su metodi tabulari per mappare le situazioni alle azioni, questi metodi incontrano difficoltà quando l' ambiente è complesso o visivo. Il DRL supera questo ostacolo utilizzando reti neurali per interpretare dati di input ad alta dimensionalità , come fotogrammi video o letture di sensori, consentendo alle macchine di apprendere strategie efficaci direttamente dall'esperienza grezza senza istruzioni umane esplicite.

Il meccanismo fondamentale del DRL

In un sistema DRL, un agente AI interagisce con un ambiente in fasi temporali discrete. Ad ogni fase, l'agente osserva lo "stato" attuale, seleziona un'azione basata su una politica e riceve un segnale di ricompensa che indica il successo o il fallimento di tale azione. L'obiettivo principale è massimizzare la ricompensa cumulativa nel tempo.

Il componente "profondo" si riferisce all'uso di reti neurali profonde per approssimare la politica (la strategia di azione) o la funzione di valore (la ricompensa futura stimata). Ciò consente all'agente di elaborare dati non strutturati, utilizzando la visione artificiale (CV) per "vedere" l'ambiente proprio come fa un essere umano. Questa capacità è alimentata da framework come PyTorch o TensorFlow, che facilitano l' addestramento di queste reti complesse.

Applicazioni nel mondo reale

DRL è passata dalla ricerca teorica ad applicazioni pratiche e di grande impatto in vari settori industriali:

  • Robotica avanzata: nel campo dell' intelligenza artificiale applicata alla robotica, il DRL consente alle macchine di padroneggiare abilità motorie complesse difficili da codificare in modo rigido. I robot possono imparare ad afferrare oggetti irregolari o ad attraversare terreni irregolari perfezionando i propri movimenti all'interno di motori fisici come NVIDIA Sim. Ciò comporta spesso l'addestramento su dati sintetici prima di implementare la politica sull' hardware fisico.
  • Guida autonoma: I veicoli autonomi sfruttano il DRL per prendere decisioni in tempo reale in scenari di traffico imprevedibili. Mentre i modelli di rilevamento degli oggetti identificano i pedoni e i segnali stradali, gli algoritmi DRL utilizzano tali informazioni per determinare politiche di guida sicure per l'immissione in corsia, la navigazione agli incroci e il controllo della velocità, gestendo in modo efficace la latenza di inferenza necessaria per la sicurezza.

La visione come osservatore dello Stato

Per molte applicazioni DRL, lo "stato" è visivo. I modelli ad alta velocità fungono da occhi dell'agente, convertendo le immagini grezze in dati strutturati su cui la rete di policy può agire. L'esempio seguente illustra come il modello YOLO26 funga da livello di percezione per un agente, estragendo osservazioni (ad esempio, il numero di ostacoli) dall'ambiente.

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

Distinguere il DRL dai concetti correlati

È utile differenziare il Deep Reinforcement Learning da termini simili per comprendere la sua posizione unica nel panorama dell'IA. panorama dell'intelligenza artificiale:

  • Apprendimento per rinforzo (RL): L'RL standard è il concetto fondamentale, ma in genere si basa su tabelle di ricerca (come le tabelle Q) che diventano impraticabili per spazi di stato di grandi dimensioni. Il DRL risolve questo problema utilizzando il deep learning per approssimare le funzioni, consentendogli di gestire input complessi come le immagini.
  • Apprendimento rinforzato dal feedback umano (RLHF): Mentre il DRL in genere ottimizza una funzione di ricompensa definita matematicamente (ad esempio, i punti in un gioco), l'RLHF perfeziona i modelli, in particolare i modelli linguistici di grandi dimensioni (LLM), utilizzando le preferenze soggettive umane per allineare il comportamento dell'IA ai valori umani, una tecnica resa popolare da gruppi di ricerca come OpenAI.
  • Apprendimento non supervisionato: I metodi non supervisionati cercano modelli nascosti nei dati senza un feedback esplicito. Al contrario, il DRL è orientato agli obiettivi, guidato da un segnale di ricompensa che indirizza attivamente l'agente verso un obiettivo specifico, come discusso nei testi fondamentali di Sutton e Barto.

Gli sviluppatori che desiderano gestire i set di dati necessari per i livelli di percezione dei sistemi DRL possono utilizzare Ultralytics , che semplifica i flussi di lavoro di annotazione e formazione cloud . Inoltre, i ricercatori utilizzano spesso ambienti standardizzati come Gymnasium per confrontare i loro algoritmi DRL con linee di base consolidate.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora