Esplora i concetti fondamentali dell'apprendimento per rinforzo (RL). Scopri come gli agenti utilizzano il feedback per padroneggiare le attività e osserva come Ultralytics potenzia i sistemi di visione RL.
L'apprendimento per rinforzo (RL) è un sottoinsieme orientato agli obiettivi dell' apprendimento automatico (ML) in cui un sistema autonomo, noto come agente, impara a prendere decisioni eseguendo azioni e ricevendo feedback dal proprio ambiente. A differenza dell'apprendimento supervisionato, che si basa su set di dati statici etichettati con le risposte corrette, gli algoritmi RL apprendono attraverso un processo dinamico di tentativi ed errori. L'agente interagisce con una simulazione o con il mondo reale, osservando le conseguenze delle proprie azioni per determinare quali strategie producono i maggiori benefici a lungo termine. Questo approccio riproduce fedelmente il concetto psicologico di condizionamento operante, in cui il comportamento è modellato dal rinforzo positivo (ricompense) e dal rinforzo negativo (punizioni) nel corso del tempo.
Per comprendere come funziona l'RL, è utile visualizzarlo come un ciclo continuo di interazione. Questo quadro è spesso formalizzato matematicamente come un processo decisionale markoviano (MDP), che struttura il processo decisionale in situazioni in cui i risultati sono in parte casuali e in parte controllati dal decisore.
I componenti principali di questo ciclo di apprendimento includono:
L'apprendimento per rinforzo è andato oltre la ricerca teorica per arrivare a implementazioni pratiche e di grande impatto in vari settori industriali.
In molte applicazioni moderne, lo "stato" osservato da un agente è visivo. Modelli ad alte prestazioni come YOLO26 fungono da livello di percezione per gli agenti RL, convertendo le immagini grezze in dati strutturati. Queste informazioni elaborate, come la posizione e la classe degli oggetti, diventano lo stato che la politica RL utilizza per scegliere un'azione.
L'esempio seguente mostra come utilizzare l'opzione ultralytics pacchetto per elaborare un frame ambientale,
creando una rappresentazione dello stato (ad esempio, numero di oggetti) per un ciclo RL teorico.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")
# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Process the frame to extract the current 'state'
results = model(observation_frame)
# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")
È importante distinguere il Reinforcement Learning dagli altri paradigmi di machine learning:
Con l'aumentare della potenza di calcolo, tecniche come il Reinforcement Learning from Human Feedback (RLHF) stanno perfezionando ulteriormente il modo in cui gli agenti apprendono, allineando i loro obiettivi in modo più stretto ai complessi valori umani e agli standard di sicurezza . I ricercatori utilizzano spesso ambienti standardizzati come Gymnasium per valutare e migliorare questi algoritmi. Per i team che desiderano gestire i set di dati necessari per i livelli di percezione di questi agenti, Ultralytics offre strumenti completi per l'annotazione e la gestione dei modelli.