Reinforcement Learning from Human Feedback (RLHF)
Tìm hiểu cách Học tăng cường từ phản hồi của con người (RLHF) căn chỉnh AI với các giá trị con người. Khám phá các thành phần cốt lõi và sự tích hợp với Ultralytics YOLO26.
Học tăng cường từ phản hồi của con người (RLHF) là một kỹ thuật học máy tiên tiến giúp tinh chỉnh các model trí tuệ nhân tạo bằng cách kết hợp đầu vào trực tiếp từ con người vào vòng lặp huấn luyện. Không giống như supervised learning tiêu chuẩn vốn chỉ dựa vào các tập dữ liệu được dán nhãn tĩnh, RLHF giới thiệu một cơ chế phản hồi động, nơi các đánh giá viên là con người sẽ xếp hạng hoặc chấm điểm các đầu ra của model. Quá trình này cho phép AI nắm bắt được các mục tiêu phức tạp, chủ quan hoặc tinh tế—như "sự hữu ích", "tính an toàn" hoặc "tính sáng tạo"—vốn khó xác định bằng một hàm mất mát toán học đơn giản. RLHF đã trở thành nền tảng trong việc phát triển các large language models (LLMs) hiện đại và AI tạo sinh, đảm bảo rằng các foundation model mạnh mẽ có thể căn chỉnh hiệu quả với các giá trị của con người và ý định của người dùng.
Link to this sectionCác thành phần cốt lõi của RLHF#
Quy trình RLHF thường tuân theo một pipeline gồm ba bước được thiết kế để thu hẹp khoảng cách giữa các khả năng dự đoán thô và hành vi căn chỉnh với con người.
-
Supervised Fine-Tuning (SFT): Quy trình làm việc thường bắt đầu với một foundation model đã được huấn luyện trước. Các nhà phát triển thực hiện fine-tuning ban đầu bằng cách sử dụng một tập dữ liệu nhỏ hơn, chất lượng cao gồm các bản trình diễn (ví dụ: các cặp câu hỏi-trả lời do chuyên gia viết). Bước này thiết lập một policy cơ sở, dạy cho model định dạng và tông giọng chung được mong đợi cho tác vụ đó.
-
Huấn luyện Reward Model: Giai đoạn này là tính năng đặc trưng của RLHF. Các chuyên gia dán nhãn con người sẽ xem xét nhiều đầu ra do model tạo ra cho cùng một đầu vào và xếp hạng chúng từ tốt nhất đến tệ nhất. Nỗ lực data labeling này tạo ra một tập dữ liệu về các tùy chọn ưu tiên. Một neural network riêng biệt, được gọi là reward model, sẽ được huấn luyện trên dữ liệu so sánh này để dự đoán một điểm số vô hướng phản ánh đánh giá của con người. Các công cụ có sẵn trên Ultralytics Platform có thể tối ưu hóa việc quản lý các quy trình dán nhãn như vậy.
-
Tối ưu hóa học tăng cường: Cuối cùng, model gốc đóng vai trò là một AI agent trong môi trường học tăng cường. Sử dụng reward model làm kim chỉ nam, các thuật toán tối ưu hóa như Proximal Policy Optimization (PPO) sẽ điều chỉnh các tham số của model để tối đa hóa phần thưởng kỳ vọng. Bước này căn chỉnh policy của model với các tùy chọn ưu tiên của con người đã học được, khuyến khích các hành vi hữu ích và an toàn đồng thời hạn chế các đầu ra độc hại hoặc vô nghĩa.
Link to this sectionCác ứng dụng trong thực tế#
RLHF đã chứng minh được tầm quan trọng trong việc triển khai các hệ thống AI đòi hỏi tiêu chuẩn an toàn cao và sự hiểu biết tinh tế về tương tác của con người.
- AI đàm thoại và Chatbot: Ứng dụng nổi bật nhất của RLHF là căn chỉnh các chatbot để trở nên hữu ích, vô hại và trung thực. Bằng cách phạt các đầu ra mang tính thiên kiến, sai lệch về thực tế hoặc nguy hiểm, RLHF giúp giảm thiểu hallucination in LLMs và giảm rủi ro về algorithmic bias. Điều này đảm bảo các trợ lý ảo có thể từ chối các hướng dẫn có hại trong khi vẫn duy trì sự hữu ích cho các truy vấn hợp lệ.
- Robot học và điều khiển vật lý: RLHF mở rộng ra ngoài văn bản đến AI in robotics, nơi việc xác định một hàm phần thưởng hoàn hảo cho các tác vụ vật lý phức tạp là một thách thức. Ví dụ, một robot học cách di chuyển trong nhà kho đông đúc có thể nhận phản hồi từ người giám sát là con người về việc lộ trình nào là an toàn so với những lộ trình gây gián đoạn. Phản hồi này tinh chỉnh policy điều khiển của robot hiệu quả hơn so với deep reinforcement learning đơn thuần chỉ dựa trên việc hoàn thành mục tiêu.
Link to this sectionRLHF so với học tăng cường tiêu chuẩn#
Việc phân biệt RLHF với reinforcement learning (RL) truyền thống rất hữu ích để hiểu rõ mục đích sử dụng cụ thể của nó.
- RL tiêu chuẩn: Trong các thiết lập truyền thống, hàm phần thưởng thường được mã hóa cứng bởi môi trường. Ví dụ, trong một trò chơi điện tử, môi trường cung cấp một tín hiệu rõ ràng (+1 cho chiến thắng, -1 cho thất bại). Tác nhân tối ưu hóa các hành động của mình trong Markov Decision Process (MDP) đã xác định này.
- RLHF: Trong nhiều kịch bản thực tế, chẳng hạn như viết một câu chuyện sáng tạo hoặc lái xe lịch sự, "sự thành công" mang tính chủ quan. RLHF giải quyết vấn đề này bằng cách thay thế phần thưởng được mã hóa cứng bằng một reward model đã học được, bắt nguồn từ các tùy chọn ưu tiên của con người. Điều này cho phép tối ưu hóa các khái niệm trừu tượng như "chất lượng" hoặc "sự phù hợp" vốn không thể lập trình một cách rõ ràng.
Link to this sectionTích hợp nhận thức với các vòng lặp phản hồi#
Trong các ứng dụng thị giác, các tác nhân được căn chỉnh bằng RLHF thường dựa vào computer vision (CV) để nhận thức trạng thái môi trường trước khi hành động. Một bộ dò mạnh mẽ, chẳng hạn như YOLO26, đóng vai trò là lớp nhận thức, cung cấp các quan sát có cấu trúc (ví dụ: "phát hiện vật cản ở khoảng cách 3 mét") mà mạng policy sử dụng để chọn hành động.
Ví dụ Python sau đây minh họa một khái niệm đơn giản hóa nơi một model YOLO cung cấp trạng thái môi trường. Trong một vòng lặp RLHF đầy đủ, tín hiệu "phần thưởng" sẽ đến từ một model được huấn luyện trên phản hồi của con người liên quan đến các quyết định của tác nhân dựa trên dữ liệu phát hiện này.
from ultralytics import YOLO
# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)
print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.Bằng cách kết hợp các model nhận thức mạnh mẽ với các policy được tinh chỉnh thông qua phản hồi của con người, các nhà phát triển có thể xây dựng các hệ thống không chỉ thông minh mà còn được căn chỉnh nghiêm ngặt với các nguyên tắc AI safety. Nghiên cứu đang diễn ra về giám sát có thể mở rộng, chẳng hạn như Constitutional AI, tiếp tục phát triển lĩnh vực này với mục tiêu giảm bớt nút thắt của việc dán nhãn quy mô lớn bởi con người trong khi vẫn duy trì hiệu suất model cao.






