Khám phá cách Học tăng cường từ phản hồi của con người (RLHF) tinh chỉnh hiệu suất AI bằng cách điều chỉnh các mô hình phù hợp với các giá trị của con người để có một AI an toàn hơn, thông minh hơn.
Học Tăng cường từ Phản hồi của Con người (RLHF) là một khuôn khổ tinh vi trong học máy (ML), giúp điều chỉnh các hệ thống trí tuệ nhân tạo (AI) phù hợp với các giá trị, sở thích và ý định của con người. Không giống như học có giám sát truyền thống, vốn huấn luyện các mô hình để sao chép các tập dữ liệu tĩnh, RLHF giới thiệu một vòng phản hồi động, trong đó người đánh giá xếp hạng đầu ra của mô hình. Dữ liệu xếp hạng này được sử dụng để huấn luyện một "mô hình khen thưởng", sau đó hướng dẫn AI tạo ra các phản hồi hữu ích, an toàn và chính xác hơn. Kỹ thuật này đã được chứng minh là thiết yếu cho sự phát triển của các mô hình ngôn ngữ lớn (LLM) hiện đại và AI tạo sinh , đảm bảo rằng các mô hình nền tảng mạnh mẽ hoạt động theo kỳ vọng của người dùng thay vì chỉ dự đoán từ hoặc pixel tiếp theo về mặt thống kê.
Quá trình căn chỉnh mô hình thông qua RLHF thường tuân theo quy trình ba bước giúp thu hẹp khoảng cách giữa khả năng dự đoán thô và tương tác tinh tế của con người.
Mặc dù cả hai cách đều dựa vào mục đích tối đa hóa phần thưởng, nhưng nguồn gốc của phần thưởng lại tạo nên sự khác biệt đáng kể.
RLHF đã thay đổi cách các hệ thống AI tương tác với thế giới, đặc biệt là trong các lĩnh vực đòi hỏi tiêu chuẩn an toàn cao và hiểu biết sâu sắc.
Trong các ứng dụng trực quan, các tác nhân RLHF thường dựa vào thị giác máy tính (CV) để nhận biết trạng thái môi trường. Một bộ phát hiện mạnh mẽ, chẳng hạn như YOLO11 , có thể hoạt động như "đôi mắt" của hệ thống, cung cấp các quan sát có cấu trúc (ví dụ: "phát hiện người đi bộ bên trái") mà mạng chính sách sử dụng để lựa chọn hành động.
Ví dụ sau đây minh họa một khái niệm đơn giản hóa trong đó YOLO Mô hình cung cấp trạng thái môi trường cho một tác nhân. Trong một vòng lặp RLHF đầy đủ, "phần thưởng" sẽ được xác định bởi một mô hình được đào tạo dựa trên sở thích của con người về độ tin cậy hoặc độ chính xác của tác nhân.
from ultralytics import YOLO
# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)
print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")
Bằng cách kết hợp các mô hình nhận thức mạnh mẽ với các chính sách được điều chỉnh thông qua phản hồi của con người, các nhà phát triển có thể xây dựng các hệ thống không chỉ thông minh mà còn được kiểm tra nghiêm ngặt về tính an toàn của AI . Nghiên cứu về giám sát có thể mở rộng, chẳng hạn như AI Hiến pháp , tiếp tục phát triển lĩnh vực này, nhằm mục đích giảm sự phụ thuộc quá mức vào chú thích của con người trên quy mô lớn.