Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Reinforcement Learning

Esplora i concetti fondamentali dell'apprendimento per rinforzo (RL). Scopri come gli agenti usano il feedback per padroneggiare i compiti e vedi come Ultralytics YOLO26 alimenta i sistemi di visione RL.

L'apprendimento per rinforzo (RL, Reinforcement Learning) è un sottoinsieme del machine learning (ML) orientato agli obiettivi, in cui un sistema autonomo, noto come agente, impara a prendere decisioni eseguendo azioni e ricevendo feedback dal proprio ambiente. A differenza dell'apprendimento supervisionato, che si basa su dataset statici etichettati con le risposte corrette, gli algoritmi di RL imparano attraverso un processo dinamico di tentativi ed errori. L'agente interagisce con una simulazione o con il mondo reale, osservando le conseguenze delle sue azioni per determinare quali strategie producano i massimi premi a lungo termine. Questo approccio imita da vicino il concetto psicologico di condizionamento operante, in cui il comportamento viene modellato nel tempo da rinforzi positivi (premi) e rinforzi negativi (punizioni).

Link to this sectionConcetti chiave del ciclo di RL#

Per capire come funziona l'RL, è utile visualizzarlo come un ciclo continuo di interazione. Questo framework è spesso formalizzato matematicamente come un Processo Decisionale di Markov (MDP), che struttura il processo decisionale in situazioni in cui i risultati sono in parte casuali e in parte controllati dal decisore.

Le componenti principali di questo ciclo di apprendimento includono:

  • Agente IA: L'entità responsabile dell'apprendimento e del processo decisionale. Percepisce l'ambiente e intraprende azioni per massimizzare il proprio successo cumulativo.
  • Ambiente: Il mondo esterno in cui opera l'agente. Potrebbe trattarsi di un videogioco complesso, di una simulazione di mercato finanziario o di un magazzino fisico nell'IA nella logistica.
  • Stato: Un'istantanea o una rappresentazione della situazione attuale. Nelle applicazioni visive, ciò comporta spesso l'elaborazione di feed della fotocamera tramite computer vision (CV) per rilevare oggetti e ostacoli.
  • Azione: La mossa o la scelta specifica effettuata dall'agente. L'insieme completo di tutte le mosse possibili è indicato come spazio d'azione.
  • Premio: Un segnale numerico inviato dall'ambiente all'agente dopo un'azione. Una funzione di premio ben progettata assegna valori positivi per le azioni vantaggiose e penalità per quelle dannose.
  • Policy: La strategia o l'insieme di regole che l'agente utilizza per determinare l'azione successiva in base allo stato attuale. Algoritmi come il Q-learning definiscono come questa policy venga aggiornata e ottimizzata.

Link to this sectionApplicazioni nel mondo reale#

L'apprendimento per rinforzo è passato dalla ricerca teorica a implementazioni pratiche ad alto impatto in diversi settori.

  • Robotica avanzata: Nel campo dell'IA nella robotica, l'RL consente alle macchine di padroneggiare complesse abilità motorie difficili da programmare manualmente. I robot possono imparare ad afferrare oggetti irregolari o a navigare su terreni sconnessi allenandosi all'interno di motori fisici come NVIDIA Isaac Sim prima di essere distribuiti nel mondo reale.
  • Sistemi autonomi: I veicoli autonomi utilizzano l'RL per prendere decisioni in tempo reale in scenari di traffico imprevedibili. Mentre i modelli di rilevamento oggetti identificano pedoni e segnali, gli algoritmi di RL aiutano a determinare policy di guida sicure per l'immissione in corsia e la navigazione agli incroci.
  • Ottimizzazione strategica: L'RL ha ottenuto attenzione globale quando sistemi come AlphaGo di Google DeepMind hanno sconfitto i campioni del mondo umani in complessi giochi da tavolo. Oltre al gioco, questi agenti ottimizzano la logistica industriale, ad esempio controllando i sistemi di raffreddamento nei data center per ridurre il consumo energetico.

Link to this sectionIntegrare la visione con l'RL#

In molte applicazioni moderne, lo "stato" che un agente osserva è visivo. Modelli ad alte prestazioni come YOLO26 fungono da livello di percezione per gli agenti RL, convertendo immagini grezze in dati strutturati. Queste informazioni elaborate, come la posizione e la classe degli oggetti, diventano lo stato che la policy di RL utilizza per scegliere un'azione.

Il seguente esempio mostra come utilizzare il pacchetto ultralytics per elaborare un frame di un ambiente, creando una rappresentazione dello stato (ad esempio, il numero di oggetti) per un ciclo di RL teorico.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

Link to this sectionDifferenziazione dei termini correlati#

È importante distinguere l'apprendimento per rinforzo da altri paradigmi di machine learning:

  • vs. Apprendimento supervisionato: L'apprendimento supervisionato richiede un supervisore esterno esperto che fornisca dati di addestramento etichettati (ad esempio, "questa immagine contiene un gatto"). Al contrario, l'RL impara dalle conseguenze delle proprie azioni senza etichette esplicite, scoprendo percorsi ottimali attraverso l'esplorazione.
  • vs. Apprendimento non supervisionato: L'apprendimento non supervisionato si concentra sulla ricerca di strutture o modelli nascosti all'interno di dati non etichettati (come il clustering dei clienti). L'RL differisce perché è esplicitamente orientato agli obiettivi, concentrandosi sulla massimizzazione di un segnale di premio piuttosto che sulla semplice descrizione della struttura dei dati.

Man mano che la potenza computazionale aumenta, tecniche come l'Apprendimento per rinforzo da feedback umano (RLHF) stanno perfezionando ulteriormente il modo in cui gli agenti imparano, allineando i loro obiettivi più da vicino a valori umani complessi e standard di sicurezza. I ricercatori utilizzano spesso ambienti standardizzati come Gymnasium per confrontare e migliorare questi algoritmi. Per i team che cercano di gestire i dataset necessari per i livelli di percezione di questi agenti, la Piattaforma Ultralytics offre strumenti completi per l'annotazione e la gestione dei modelli.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning