Học tăng cường từ phản hồi của con người (RLHF)
Khám phá cách Học tăng cường từ phản hồi của con người (RLHF) tinh chỉnh hiệu suất AI bằng cách điều chỉnh các mô hình phù hợp với các giá trị của con người để có một AI an toàn hơn, thông minh hơn.
Học tăng cường từ phản hồi của con người (RLHF) là một kỹ thuật học máy tiên tiến giúp tinh chỉnh các mô hình trí tuệ nhân tạo bằng cách kết hợp đầu vào trực tiếp của con người vào quá trình huấn luyện. Không giống như học có giám sát tiêu chuẩn, chỉ dựa vào các tập dữ liệu được gắn nhãn tĩnh, RLHF giới thiệu một vòng phản hồi động, trong đó người đánh giá xếp hạng hoặc đánh giá đầu ra của mô hình. Quá trình này cho phép AI nắm bắt các mục tiêu phức tạp, chủ quan hoặc tinh tế—chẳng hạn như "sự hữu ích", "sự an toàn" hoặc "phong cách"—những mục tiêu khó xác định bằng một hàm mất mát toán học đơn giản. RLHF đã trở thành nền tảng trong sự phát triển của các mô hình ngôn ngữ lớn (LLM) hiện đại và AI tạo sinh, đảm bảo rằng các mô hình nền tảng mạnh mẽ phù hợp hiệu quả với các giá trị của con người và ý định của người dùng.
Các thành phần cốt lõi của RLHF
Quy trình RLHF thường tuân theo một chuỗi ba bước được thiết kế để thu hẹp khoảng cách giữa khả năng dự đoán thô và hành vi phù hợp với con người.
-
Tinh chỉnh có giám sát (Supervised Fine-Tuning - SFT): Quy trình thường bắt đầu với một mô hình nền tảng được huấn luyện trước. Các nhà phát triển thực hiện tinh chỉnh ban đầu bằng cách sử dụng một tập dữ liệu nhỏ hơn, chất lượng cao gồm các ví dụ minh họa (ví dụ: các cặp câu hỏi-câu trả lời do chuyên gia viết). Bước này thiết lập một chính sách cơ bản, dạy cho mô hình định dạng và giọng điệu chung được mong đợi cho nhiệm vụ.
-
Huấn luyện mô hình phần thưởng: Giai đoạn này là đặc điểm nổi bật của RLHF. Người đánh giá sẽ xem xét nhiều kết quả đầu ra do mô hình tạo ra cho cùng một dữ liệu đầu vào và xếp hạng chúng từ tốt nhất đến tệ nhất. Quá trình gắn nhãn dữ liệu này tạo ra một tập dữ liệu về các ưu tiên. Một mạng nơ-ron riêng biệt, được gọi là mô hình phần thưởng, được huấn luyện trên dữ liệu so sánh này để dự đoán một điểm số phản ánh đánh giá của con người.
-
Tối ưu hóa học tăng cường: Cuối cùng, mô hình ban đầu hoạt động như một tác nhân AI trong môi trường học tăng cường. Sử dụng mô hình phần thưởng làm hướng dẫn, các thuật toán tối ưu hóa như Tối ưu hóa chính sách gần đúng (PPO) điều chỉnh các tham số của mô hình để tối đa hóa phần thưởng dự kiến. Bước này giúp điều chỉnh chính sách của mô hình phù hợp với sở thích của con người đã học được, khuyến khích các hành vi hữu ích và an toàn đồng thời ngăn chặn các kết quả độc hại hoặc vô nghĩa.
Các Ứng dụng Thực tế
RLHF đã chứng minh vai trò quan trọng trong việc triển khai các hệ thống AI đòi hỏi tiêu chuẩn an toàn cao và sự hiểu biết sâu sắc về tương tác giữa con người.
-
Trí tuệ nhân tạo đàm thoại và Chatbot: Ứng dụng nổi bật nhất của RLHF là giúp chatbot trở nên hữu ích, vô hại và trung thực. Bằng cách phạt các kết quả đầu ra mang tính thiên vị, không chính xác về mặt thực tế hoặc nguy hiểm, RLHF giúp giảm thiểu ảo giác trong mô hình ngôn ngữ lập trình tuyến tính (LLM) và giảm nguy cơ thiên vị thuật toán . Điều này đảm bảo các trợ lý ảo có thể từ chối các chỉ thị có hại trong khi vẫn hữu ích đối với các truy vấn hợp lệ.
-
Robot và Điều khiển Vật lý: RLHF mở rộng phạm vi ứng dụng từ văn bản sang trí tuệ nhân tạo trong robot , nơi việc định nghĩa một hàm thưởng hoàn hảo cho các nhiệm vụ vật lý phức tạp là một thách thức. Ví dụ, một robot học cách điều hướng trong một nhà kho đông đúc có thể nhận được phản hồi từ người giám sát về những quỹ đạo nào an toàn so với những quỹ đạo gây ra sự gián đoạn. Phản hồi này giúp tinh chỉnh chính sách điều khiển của robot hiệu quả hơn so với học tăng cường sâu đơn giản chỉ dựa trên việc hoàn thành mục tiêu.
RLHF so với Học tăng cường tiêu chuẩn
Việc phân biệt RLHF với học tăng cường truyền thống (RL) là rất hữu ích để hiểu được công dụng cụ thể của nó.
-
Học tăng cường tiêu chuẩn: Trong các thiết lập truyền thống, hàm thưởng thường được mã hóa cứng bởi môi trường. Ví dụ, trong một trò chơi điện tử, môi trường cung cấp một tín hiệu rõ ràng (+1 cho chiến thắng, -1 cho thất bại). Tác nhân tối ưu hóa hành động của mình trong Quy trình Quyết định Markov (MDP) được xác định này.
-
RLHF: Trong nhiều tình huống thực tế, chẳng hạn như viết một câu chuyện sáng tạo hoặc lái xe lịch sự, "thành công" mang tính chủ quan. RLHF giải quyết vấn đề này bằng cách thay thế phần thưởng được lập trình sẵn bằng mô hình phần thưởng được học hỏi từ sở thích của con người. Điều này cho phép tối ưu hóa các khái niệm trừu tượng như "chất lượng" hoặc "sự phù hợp" mà không thể lập trình một cách rõ ràng.
Tích hợp nhận thức với các vòng phản hồi
Trong các ứng dụng trực quan, các tác nhân được căn chỉnh theo RLHF thường dựa vào thị giác máy tính (CV) để nhận biết trạng thái môi trường trước khi hành động. Một bộ phát hiện mạnh mẽ, chẳng hạn như YOLO26 , hoạt động như lớp nhận thức, cung cấp các quan sát có cấu trúc (ví dụ: "phát hiện vật cản ở khoảng cách 3 mét") mà mạng chính sách sử dụng để lựa chọn hành động.
Sau đây Python Ví dụ này minh họa một khái niệm đơn giản, trong đó... YOLO Mô hình cung cấp trạng thái môi trường. Trong một vòng lặp RLHF hoàn chỉnh, tín hiệu "phần thưởng" sẽ đến từ một mô hình được huấn luyện dựa trên phản hồi của con người về các quyết định của tác nhân.
from ultralytics import YOLO
# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)
print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.
Bằng cách kết hợp các mô hình nhận thức mạnh mẽ với các chính sách được tinh chỉnh thông qua phản hồi của con người, các nhà phát triển có thể xây dựng các hệ thống không chỉ thông minh mà còn tuân thủ nghiêm ngặt các nguyên tắc an toàn của AI . Nghiên cứu đang diễn ra về giám sát có khả năng mở rộng, chẳng hạn như AI Hiến pháp , tiếp tục phát triển lĩnh vực này, nhằm mục đích giảm thiểu nút thắt cổ chai của việc chú thích thủ công quy mô lớn trong khi vẫn duy trì hiệu suất cao của mô hình.