Descubra como o Aprendizado por Reforço a partir de Feedback Humano (RLHF) refina o desempenho da IA, alinhando os modelos com os valores humanos para uma IA mais segura e inteligente.
A Aprendizagem por Reforço a partir do Feedback Humano (RLHF) é um quadro sofisticado de aprendizagem automática (ML) que alinha sistemas de inteligência artificial (IA) com os valores, as preferências e as intenções humanas. Ao contrário da tradicional aprendizagem supervisionada tradicional, que treina modelos para modelos para replicar conjuntos de dados estáticos, a RLHF introduz um ciclo de feedback dinâmico em que os avaliadores humanos classificam os resultados dos modelos. Estes Estes dados de classificação são utilizados para treinar um "modelo de recompensa", que subsequentemente orienta a IA para gerar respostas mais úteis, seguras e exactas, respostas mais úteis, seguras e precisas. Esta técnica revelou-se essencial para o desenvolvimento de modelos modernos de modelos de linguagem de grande porte (LLMs) e e da IA generativa, garantindo que os modelos modelos de base poderosos actuem de acordo com as expectativas do utilizador, em vez de se limitarem a prever estatisticamente a palavra ou o pixel seguinte.
O processo de alinhamento de um modelo através de RLHF segue geralmente uma cadeia de três passos que faz a ponte entre a capacidade de previsão capacidade de previsão e a interação humana.
Embora ambas as abordagens se baseiem na maximização de uma recompensa, a fonte dessa recompensa diferencia-as significativamente.
A RLHF transformou a forma como os sistemas de IA interagem com o mundo, particularmente em domínios que exigem elevados padrões de segurança e uma compreensão diferenciada.
Nas aplicações visuais, os agentes RLHF recorrem frequentemente à visão computacional (CV) para perceber o estado do do seu ambiente. Um detetor robusto, como o YOLO11pode funcionar como os "olhos" do sistema, fornecendo observações estruturadas (por exemplo, "peão detectado à esquerda") que a rede de políticas utiliza para selecionar uma ação.
O exemplo seguinte ilustra um conceito simplificado em que um modelo YOLO fornece o estado ambiental de um agente. Num ciclo completo de RLHF, a "recompensa" seria determinada por um modelo treinado com base nas preferências humanas em relação à confiança ou exatidão do agente.
from ultralytics import YOLO
# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)
print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")
Ao combinar modelos de perceção poderosos com políticas alinhadas através de feedback humano, os programadores podem criar sistemas que não são apenas inteligentes, mas também rigorosamente verificados quanto à segurança da IA. A investigação sobre supervisão escalável, como a IA constitucional, continua a fazer evoluir este domínio, com o objetivo de reduzir a forte dependência da anotação humana em grande escala.