Học tăng cường từ phản hồi của con người (RLHF)
Khám phá cách Học tăng cường từ phản hồi của con người (RLHF) cải thiện hiệu suất AI bằng cách liên kết các mô hình với các giá trị của con người để có AI an toàn hơn và thông minh hơn.
Học Tăng cường từ Phản hồi của Con người (RLHF) là một kỹ thuật học máy tiên tiến được thiết kế để điều chỉnh các mô hình trí tuệ nhân tạo (AI) với các giá trị chủ quan, phức tạp của con người. Thay vì dựa vào một hàm thưởng được xác định trước, RLHF sử dụng sở thích của con người để huấn luyện một "mô hình thưởng" dẫn dắt quá trình học của AI. Phương pháp này đặc biệt hiệu quả đối với các nhiệm vụ mà định nghĩa về hiệu suất "tốt" mang tính sắc thái, chủ quan hoặc khó xác định bằng một thước đo đơn giản, chẳng hạn như tạo ra cuộc đối thoại an toàn, hữu ích và mạch lạc.
RLHF hoạt động như thế nào?
Quy trình RLHF thường bao gồm ba bước chính:
- Tiền huấn luyện Mô hình Ngôn ngữ: Quá trình này bắt đầu với một mô hình ngôn ngữ lớn (LLM) cơ sở đã được tiền huấn luyện trên một kho dữ liệu văn bản khổng lồ. Mô hình ban đầu này, tương tự như mô hình nền tảng , có hiểu biết rộng về ngôn ngữ nhưng chưa chuyên biệt cho một phong cách hoặc tác vụ cụ thể. Bước này có thể được tiếp nối bằng việc tinh chỉnh có giám sát trên một tập dữ liệu chất lượng cao.
- Huấn luyện Mô hình Khen thưởng: Đây là cốt lõi của RLHF. Người dán nhãn được cung cấp một số kết quả đầu ra do mô hình được huấn luyện trước tạo ra để đáp ứng một lời nhắc. Họ xếp hạng các kết quả này từ tốt nhất đến tệ nhất dựa trên các tiêu chí như tính hữu ích, tính trung thực và tính an toàn. Dữ liệu sở thích này sau đó được sử dụng để huấn luyện một mô hình khen thưởng riêng biệt. Mô hình khen thưởng học cách dự đoán kết quả đầu ra nào mà con người ưa thích, từ đó nắm bắt hiệu quả phán đoán của con người.
- Tinh chỉnh bằng Học Tăng cường: Mô hình đã được huấn luyện trước được tinh chỉnh thêm bằng học tăng cường (RL) . Ở giai đoạn này, mô hình (đóng vai trò là tác nhân) tạo ra các đầu ra, và mô hình phần thưởng cung cấp điểm "phần thưởng" cho mỗi đầu ra. Quá trình này, thường được quản lý bằng các thuật toán như Tối ưu hóa Chính sách Gần (PPO), khuyến khích mô hình AI điều chỉnh các tham số để tạo ra các phản hồi tối đa hóa phần thưởng, từ đó điều chỉnh hành vi của nó phù hợp với sở thích đã học được của con người. Các công trình tiên phong từ các tổ chức như OpenAI và DeepMind đã chứng minh được tính hiệu quả của nó.
Ứng dụng trong thế giới thực
RLHF đóng vai trò quan trọng trong việc phát triển các hệ thống AI hiện đại.
- Chatbot tiên tiến: Các chatbot AI hàng đầu như ChatGPT của OpenAI và Claude của Anthropic sử dụng RLHF để đảm bảo phản hồi của họ không chỉ chính xác mà còn vô hại, có đạo đức và phù hợp với ý định của người dùng. Điều này giúp giảm thiểu các vấn đề như tạo ra nội dung thiên vị hoặc độc hại, một thách thức phổ biến trong AI tạo sinh quy mô lớn.
- Sở thích lái xe tự động: Trong quá trình phát triển AI cho xe tự lái , RLHF có thể kết hợp phản hồi từ người lái về các hành vi mô phỏng, chẳng hạn như sự thoải mái khi chuyển làn đường hoặc ra quyết định trong các tình huống mơ hồ. Điều này giúp AI học các phong cách lái xe trực quan và đáng tin cậy đối với con người, bổ sung cho các tác vụ thị giác máy tính truyền thống như phát hiện vật thể được thực hiện bởi các mô hình như Ultralytics YOLO .
RLHF so với các khái niệm liên quan
Điều quan trọng là phải phân biệt RLHF với các kỹ thuật học AI khác.
- Học Tăng cường: Học Tăng cường (RLHF) tiêu chuẩn yêu cầu các nhà phát triển phải tự tay thiết kế một hàm phần thưởng để xác định hành vi mong muốn. Điều này dễ dàng đối với các trò chơi có điểm số rõ ràng nhưng lại khó khăn đối với các nhiệm vụ phức tạp, thực tế. RLHF giải quyết vấn đề này bằng cách học hàm phần thưởng từ phản hồi của con người, giúp nó phù hợp với các bài toán không có thước đo thành công rõ ràng.
- Học có giám sát: Học có giám sát huấn luyện các mô hình trên các tập dữ liệu với các câu trả lời "đúng" duy nhất. Phương pháp này kém hiệu quả hơn đối với các nhiệm vụ sáng tạo hoặc chủ quan, trong đó có nhiều câu trả lời đúng. Việc RLHF sử dụng xếp hạng ưu tiên (ví dụ: "A tốt hơn B") cho phép nó vượt qua sự mơ hồ và học các hành vi tinh tế.
Thách thức và hướng đi trong tương lai
Mặc dù có sức mạnh vượt trội, RLHF vẫn phải đối mặt với nhiều thách thức. Việc thu thập phản hồi chất lượng cao của con người rất tốn kém và có thể gây ra sai lệch dữ liệu nếu người dán nhãn không đa dạng. Ngoài ra, AI có thể tìm ra cách "chơi khăm" mô hình phần thưởng, một hiện tượng được gọi là "hack phần thưởng".
Nghiên cứu trong tương lai đang khám phá các phương pháp phản hồi và giải pháp thay thế hiệu quả hơn như Constitutional AI , sử dụng các nguyên tắc do AI tạo ra để định hướng mô hình. Việc triển khai RLHF đòi hỏi chuyên môn trong nhiều lĩnh vực học máy , nhưng các công cụ như thư viện TRL của Hugging Face đang giúp việc này dễ tiếp cận hơn. Các nền tảng như Ultralytics HUB cung cấp cơ sở hạ tầng để quản lý tập dữ liệu và mô hình đào tạo , là nền tảng cho các tác vụ căn chỉnh nâng cao và các Hoạt động Học máy (MLOps) mạnh mẽ.