Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Học tăng cường từ phản hồi của con người (RLHF)

Khám phá cách Học tăng cường từ phản hồi của con người (RLHF) tinh chỉnh hiệu suất AI bằng cách điều chỉnh các mô hình phù hợp với các giá trị của con người để có một AI an toàn hơn, thông minh hơn.

Học tăng cường từ phản hồi của con người (Reinforcement Learning from Human Feedback - RLHF) là một kỹ thuật học máy tiên tiến được thiết kế để điều chỉnh các mô hình trí tuệ nhân tạo (AI) phù hợp với các giá trị chủ quan, phức tạp của con người. Thay vì dựa vào một hàm phần thưởng được xác định trước, RLHF sử dụng các ưu tiên của con người để huấn luyện một "mô hình phần thưởng" hướng dẫn quá trình học tập của AI. Cách tiếp cận này đặc biệt hiệu quả đối với các tác vụ mà định nghĩa về hiệu suất "tốt" là sắc thái, chủ quan hoặc khó chỉ định bằng một số liệu đơn giản, chẳng hạn như tạo ra các đoạn hội thoại an toàn, hữu ích và mạch lạc.

RLHF hoạt động như thế nào?

Quy trình RLHF thường bao gồm ba bước chính:

  1. Huấn luyện trước Mô hình ngôn ngữ: Nó bắt đầu với một mô hình ngôn ngữ lớn (LLM) cơ bản đã được huấn luyện trước trên một kho dữ liệu văn bản khổng lồ. Mô hình ban đầu này, tương tự như một mô hình nền tảng, có hiểu biết rộng về ngôn ngữ nhưng chưa được chuyên biệt hóa cho một kiểu hoặc tác vụ cụ thể. Bước này có thể tùy chọn được theo sau bởi tinh chỉnh có giám sát trên một bộ dữ liệu chất lượng cao.
  2. Huấn luyện Mô hình Phần thưởng: Đây là cốt lõi của RLHF. Người gán nhãn là con người được cung cấp một số đầu ra được tạo bởi mô hình được huấn luyện trước để phản hồi một lời nhắc. Họ xếp hạng các đầu ra này từ tốt nhất đến tệ nhất dựa trên các tiêu chí như tính hữu ích, tính trung thực và độ an toàn. Dữ liệu ưu tiên này sau đó được sử dụng để huấn luyện một mô hình phần thưởng riêng biệt. Mô hình phần thưởng học cách dự đoán đầu ra nào mà con người sẽ thích hơn, nắm bắt hiệu quả phán đoán của con người.
  3. Tinh chỉnh bằng học tăng cường: Mô hình được đào tạo trước được tinh chỉnh thêm bằng cách sử dụng học tăng cường (RL). Trong giai đoạn này, mô hình (đóng vai trò là tác nhân) tạo ra các đầu ra và mô hình phần thưởng cung cấp điểm "phần thưởng" cho mỗi đầu ra. Quá trình này, thường được quản lý bằng các thuật toán như Tối ưu hóa chính sách gần (PPO), khuyến khích mô hình AI điều chỉnh các tham số của nó để tạo ra các phản hồi tối đa hóa phần thưởng, do đó điều chỉnh hành vi của nó phù hợp với các tùy chọn của con người đã học được. Công trình tiên phong từ các tổ chức như OpenAIDeepMind đã chứng minh tính hiệu quả của nó.

Các Ứng dụng Thực tế

Học tăng cường từ phản hồi của con người (RLHF) đóng vai trò quan trọng trong sự phát triển của các hệ thống AI hiện đại.

  • Chatbot Nâng cao: Các chatbot AI hàng đầu như ChatGPT của OpenAI và Claude của Anthropic sử dụng RLHF để đảm bảo rằng các phản hồi của chúng không chỉ chính xác mà còn vô hại, đạo đức và phù hợp với ý định của người dùng. Điều này giúp giảm thiểu các vấn đề như tạo ra nội dung thiên vị hoặc độc hại, một thách thức phổ biến trong AI tạo sinh quy mô lớn.
  • Tùy chọn lái xe tự động: Trong việc phát triển AI cho xe tự lái, RLHF có thể kết hợp phản hồi từ người lái xe về các hành vi mô phỏng, chẳng hạn như sự thoải mái trong quá trình chuyển làn hoặc ra quyết định trong các tình huống mơ hồ. Điều này giúp AI học các phong cách lái xe mà con người cảm thấy trực quan và đáng tin cậy, bổ sung cho các tác vụ thị giác máy tính truyền thống như phát hiện đối tượng được thực hiện bởi các mô hình như Ultralytics YOLO.

So sánh RLHF với các khái niệm liên quan

Điều quan trọng là phải phân biệt RLHF với các kỹ thuật học AI khác.

  • Học Tăng Cường (Reinforcement Learning): RL tiêu chuẩn yêu cầu các nhà phát triển tự thiết kế một hàm phần thưởng để xác định hành vi mong muốn. Điều này rất đơn giản đối với các trò chơi có điểm số rõ ràng nhưng khó khăn đối với các tác vụ phức tạp trong thế giới thực. RLHF giải quyết vấn đề này bằng cách học hàm phần thưởng từ phản hồi của con người, làm cho nó phù hợp với các vấn đề không có số liệu rõ ràng để thành công.
  • Học có giám sát: Học có giám sát huấn luyện các mô hình trên tập dữ liệu với các câu trả lời "chính xác" duy nhất. Phương pháp này kém hiệu quả hơn đối với các tác vụ sáng tạo hoặc chủ quan, nơi có nhiều câu trả lời hay. Việc sử dụng xếp hạng ưu tiên của RLHF (ví dụ: "A tốt hơn B") cho phép nó điều hướng sự mơ hồ và học các hành vi sắc thái.

Thách thức và Định hướng Tương lai

Mặc dù mạnh mẽ, RLHF phải đối mặt với những thách thức. Việc thu thập phản hồi chất lượng cao từ con người tốn kém và có thể đưa vào sai lệch tập dữ liệu nếu người gán nhãn không đa dạng. Ngoài ra, AI có thể khám phá ra những cách để "qua mặt" mô hình phần thưởng, một hiện tượng được gọi là hack phần thưởng.

Nghiên cứu trong tương lai đang khám phá các phương pháp phản hồi hiệu quả hơn và các giải pháp thay thế như Constitutional AI, sử dụng các nguyên tắc do AI tạo ra để hướng dẫn mô hình. Việc triển khai RLHF đòi hỏi chuyên môn trong nhiều lĩnh vực học máy, nhưng các công cụ như thư viện TRL của Hugging Face đang giúp nó dễ tiếp cận hơn. Các nền tảng như Ultralytics HUB cung cấp cơ sở hạ tầng để quản lý bộ dữ liệu và huấn luyện mô hình, đây là nền tảng cho các tác vụ căn chỉnh nâng cao và Hoạt động học máy (MLOps) mạnh mẽ.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard