Aprendizado por Reforço
Descubra o aprendizado por reforço, onde os agentes otimizam as ações por meio de tentativa e erro para maximizar as recompensas. Explore conceitos, aplicações e benefícios!
A aprendizagem por reforço (RL) é um subconjunto dinâmico da
aprendizagem automática (AM) centrada no ensino de um
agente autónomo de IA como tomar decisões óptimas através de
tentativa e erro. Ao contrário de outros paradigmas de aprendizagem que se baseiam em conjuntos de dados estáticos, a RL envolve um agente que interage com um
ambiente dinâmico para atingir um objetivo específico. O agente recebe feedback sob a forma de prémios ou penalizações com base nas suas
O agente recebe feedback sob a forma de recompensas ou penalizações com base nas suas acções, aperfeiçoando gradualmente a sua estratégia para maximizar a recompensa acumulada ao longo do tempo. Este processo reflecte o
conceito de
condicionamento operante da psicologia comportamental, em que os comportamentos são reforçados pelas consequências.
Conceitos fundamentais e mecânica
A estrutura da Aprendizagem por Reforço é frequentemente descrita matematicamente como um
Processo de Decisão de Markov (MDP). Para
Para compreender o funcionamento deste ciclo, é útil decompor os principais componentes envolvidos no ciclo de aprendizagem:
-
Agente de IA: O aprendiz ou decisor
que percebe o ambiente e executa acções.
-
Ambiente: O mundo físico ou virtual em que o agente actua. No contexto da
IA nos jogos de vídeo,
este é o mundo do jogo; na robótica, é o espaço físico.
-
Estado: Uma imagem instantânea da situação atual fornecida ao agente. Isto envolve frequentemente
sensoriais, tais como dados de
sistemas de visão por computador (CV).
-
Ação: O movimento específico ou decisão tomada pelo agente. O conjunto de todos os movimentos possíveis é designado por
o espaço de ação.
-
Recompensa: Um sinal numérico recebido do ambiente após a realização de uma ação. As recompensas positivas
encorajam o comportamento, enquanto as recompensas negativas (penalizações) o desencorajam.
-
Política: A estratégia ou conjunto de regras que o agente emprega para determinar a próxima ação com base no
estado atual.
Aplicações reais da aprendizagem por reforço
A RL ultrapassou a investigação teórica e está agora a alimentar sistemas complexos do mundo real em várias indústrias.
-
IA na robótica: No fabrico
e na logística, os robôs utilizam a RL para aprender tarefas de manipulação complexas, como agarrar objectos de formas variadas.
Em vez de codificar todos os movimentos, o robô aprende a ajustar a sua preensão com base no feedback físico, melhorando significativamente a eficiência nos processos de fabrico e logística.
melhorando significativamente a eficiência em
ambientes de fabrico inteligentes.
-
Veículos autónomos:
Os veículos autónomos utilizam a RL para tomar decisões de condução de alto nível. Enquanto os
modelos de deteção de objectos identificam peões e
sinais, os algoritmos de RL ajudam a determinar as manobras mais seguras e eficientes, tais como quando entrar no trânsito ou
como navegar num cruzamento movimentado.
-
Controlo de tráfego: Os planeadores urbanos utilizam a RL para otimizar a temporização dos sinais de trânsito. Ao tratar o fluxo de tráfego
Ao tratar o fluxo de tráfego como uma função de recompensa, os sistemas podem adaptar-se dinamicamente para reduzir o congestionamento, uma componente chave da
IA na gestão do tráfego.
Aprendizagem por reforço vs. termos relacionados
É importante distinguir a RL de outras abordagens de aprendizagem automática, uma vez que as suas metodologias de formação diferem
significativamente.
-
Aprendizagem supervisionada: Este método
método baseia-se num conjunto de dados de treino que contém
inputs emparelhados com outputs corretos (etiquetas). O modelo aprende minimizando o erro entre a sua previsão e o rótulo
rótulo conhecido. Em contraste, a RL não tem acesso a respostas "corretas" de antemão; tem de as descobrir
através da interação.
-
Aprendizagem não supervisionada:
Trata-se de encontrar padrões ou estruturas ocultas em dados não rotulados, como o agrupamento de clientes através de
k-means clustering. A RL difere porque o seu
objetivo é maximizar um sinal de recompensa e não apenas analisar a distribuição de dados.
-
Aprendizagem por reforço profundo (DRL):
Enquanto a RL define o paradigma de aprendizagem, a DRL combina-o com a
aprendizagem profunda. Na DRL,
redes neurais são utilizadas para aproximar a
política ou função de valor, permitindo ao agente lidar com entradas de elevada dimensão, como pixéis de imagens em bruto.
Integração da visão computacional com RL
Em muitas aplicações, o "estado" que um agente observa é visual. Modelos de visão de alto desempenho como
YOLO11 são frequentemente utilizados como camada de perceção para agentes de RL
para agentes de RL. O modelo de visão processa a cena para detect objectos, e esta informação estruturada é transmitida ao agente de RL
para decidir a próxima ação.
O exemplo seguinte demonstra como utilizar um modelo YOLO para gerar o estado (objectos detectados) que pode ser introduzido
num ciclo de decisão de RL.
from ultralytics import YOLO
# Load the YOLO11 model to serve as the perception system
model = YOLO("yolo11n.pt")
# The agent observes the environment (an image frame)
# In a real RL loop, this frame comes from a simulation or camera
observation_frame = "https://docs.ultralytics.com/modes/predict/"
# Process the frame to get the current 'state' (detected objects)
results = model(observation_frame)
# The detections (boxes, classes) act as the state for the RL agent
for result in results:
print(f"Detected {len(result.boxes)} objects for the agent to analyze.")
# This state data would next be passed to the RL policy network
Para explorar a escala destes conceitos, os investigadores utilizam frequentemente ambientes como o
OpenAI Gym (agora Gymnasium) para padronizar o teste de algoritmos de RL. À medida que
poder computacional aumenta, técnicas como a
Aprendizagem por reforço a partir de feedback humano (RLHF)
estão a aperfeiçoar ainda mais a forma como os agentes se alinham com os valores humanos.