Thuật ngữ

Học tăng cường từ phản hồi của con người (RLHF)

Khám phá cách Học tăng cường từ phản hồi của con người (RLHF) cải thiện hiệu suất AI bằng cách liên kết các mô hình với các giá trị của con người để có AI an toàn hơn và thông minh hơn.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Học tăng cường từ phản hồi của con người (RLHF) là một kỹ thuật học máy (ML) tiên tiến được thiết kế để liên kết các mô hình AI, đặc biệt là các mô hình ngôn ngữ lớn (LLM) và các hệ thống tạo sinh khác, chặt chẽ hơn với ý định và sở thích của con người. Nó tinh chỉnh mô hình Học tăng cường (RL) tiêu chuẩn bằng cách kết hợp phản hồi của con người trực tiếp vào vòng lặp đào tạo, hướng dẫn Trí tuệ nhân tạo (AI) học các hành vi hữu ích, vô hại và trung thực, ngay cả khi những phẩm chất này khó xác định thông qua các hàm phần thưởng truyền thống. Cách tiếp cận này rất quan trọng để phát triển các hệ thống AI an toàn hơn và hữu ích hơn, vượt ra ngoài các số liệu chính xác đơn giản để hướng tới hiệu suất sắc thái phù hợp với các giá trị của con người.

RLHF hoạt động như thế nào

RLHF thường bao gồm một quy trình nhiều bước tích hợp phán đoán của con người để đào tạo mô hình phần thưởng, sau đó hướng dẫn tinh chỉnh mô hình AI chính:

  1. Đào tạo trước một mô hình: Một mô hình ban đầu (ví dụ: LLM) được đào tạo bằng các phương pháp chuẩn, thường là học có giám sát , trên một tập dữ liệu lớn. Mô hình này có thể tạo ra nội dung có liên quan nhưng có thể thiếu sự liên kết cụ thể.
  2. Thu thập phản hồi của con người: Mô hình được đào tạo trước tạo ra nhiều đầu ra cho nhiều lời nhắc khác nhau. Người đánh giá con người xếp hạng các đầu ra này dựa trên chất lượng, tính hữu ích, tính vô hại hoặc các tiêu chí mong muốn khác. Phản hồi so sánh này thường đáng tin cậy hơn và dễ cung cấp hơn đối với con người so với điểm tuyệt đối. Dữ liệu này tạo thành một tập dữ liệu sở thích.
  3. Đào tạo mô hình phần thưởng: Một mô hình riêng biệt, được gọi là mô hình phần thưởng, được đào tạo trên dữ liệu sở thích của con người. Mục tiêu của nó là dự đoán đầu ra nào mà con người sẽ thích, về cơ bản là học cách bắt chước phán đoán của con người và chỉ định tín hiệu phần thưởng vô hướng.
  4. Tinh chỉnh bằng Học tăng cường: Mô hình AI ban đầu sau đó được tinh chỉnh bằng RL (cụ thể là các thuật toán như Tối ưu hóa chính sách gần đúng (PPO) ). Mô hình phần thưởng cung cấp tín hiệu phần thưởng trong giai đoạn này. Mô hình AI khám phá các đầu ra khác nhau và những đầu ra được mô hình phần thưởng ưa chuộng sẽ được tăng cường, hướng dẫn hành vi của mô hình theo sở thích của con người. Các khái niệm cơ bản của RL được trình bày chi tiết trong các tài nguyên như giới thiệu của Sutton & Barto .

Chu trình lặp này giúp mô hình AI học các mục tiêu phức tạp, chủ quan, khó có thể xác định theo chương trình, tăng cường các khía cạnh như đạo đức AI và giảm sự thiên vị của thuật toán .

RLHF so với các khái niệm liên quan

  • Standard Reinforcement Learning (RL): RL truyền thống dựa trên các hàm phần thưởng được lập trình rõ ràng dựa trên các trạng thái và hành động của môi trường. RLHF thay thế hoặc bổ sung điều này bằng một mô hình phần thưởng đã học dựa trên sở thích của con người, cho phép nó nắm bắt các mục tiêu sắc thái hoặc chủ quan hơn. Khám phá deep reinforcement learning để biết các kỹ thuật RL nâng cao hơn.
  • Constitutional AI (CAI) : Được phát triển bởi Anthropic , CAI là một kỹ thuật căn chỉnh thay thế. Trong khi RLHF sử dụng phản hồi của con người để huấn luyện mô hình phần thưởng cho cả tính hữu ích và vô hại, CAI sử dụng phản hồi của AI được hướng dẫn bởi một "hiến pháp" được xác định trước (một bộ quy tắc hoặc nguyên tắc) để giám sát mô hình cho tính vô hại, thường vẫn sử dụng phản hồi của con người cho tính hữu ích. Đọc thêm về CAI trong nghiên cứu của Anthropic .

Các ứng dụng chính của RLHF

RLHF ngày càng trở nên quan trọng trong các ứng dụng mà hành vi của AI cần phải phù hợp chặt chẽ với các giá trị và kỳ vọng của con người:

  • Cải thiện Chatbot và Trợ lý ảo: Làm cho AI đàm thoại hấp dẫn hơn, hữu ích hơn và ít có khả năng tạo ra các phản hồi có hại, thiên vị hoặc vô nghĩa. Điều này liên quan đến việc tinh chỉnh các mô hình như GPT-4 .
  • Tạo nội dung: Tinh chỉnh các mô hình cho các tác vụ như tóm tắt văn bản hoặc tạo văn bản để tạo ra đầu ra phù hợp hơn với phong cách mong muốn hoặc tiêu chuẩn chất lượng.
  • Cá nhân hóa hệ thống đề xuất : Điều chỉnh công cụ đề xuất để gợi ý nội dung mà người dùng thực sự thấy thú vị hoặc hữu ích, vượt ra ngoài tỷ lệ nhấp chuột đơn thuần.
  • Phát triển xe tự hành an toàn hơn: Kết hợp sở thích của con người về phong cách lái xe (ví dụ: sự mượt mà, quyết đoán) cùng với các quy tắc an toàn.

Ví dụ thực tế

Căn chỉnh Chatbot

Các công ty như OpenAIAnthropic sử dụng rộng rãi RLHF để đào tạo các mô hình ngôn ngữ lớn của họ (ví dụ: ChatGPT , Claude ). Bằng cách để con người xếp hạng các phản hồi khác nhau do AI tạo ra dựa trên mức độ hữu ích và vô hại, họ đào tạo các mô hình phần thưởng hướng dẫn LLM tạo ra văn bản an toàn hơn, đạo đức hơn và hữu ích hơn. Điều này giúp giảm thiểu rủi ro liên quan đến đầu ra có hại hoặc thiên vị và tuân thủ các nguyên tắc phát triển AI có trách nhiệm .

Sở thích lái xe tự động

Trong quá trình phát triển AI cho xe tự lái , RLHF có thể kết hợp phản hồi từ tài xế hoặc hành khách về các hành vi lái xe được mô phỏng (ví dụ: sự thoải mái khi chuyển làn, độ mượt khi tăng tốc, ra quyết định trong các tình huống mơ hồ). Điều này giúp AI học các phong cách lái xe không chỉ an toàn theo các số liệu khách quan như giới hạn khoảng cách hoặc tốc độ mà còn tạo cảm giác thoải mái và trực quan cho con người, tăng cường sự tin tưởng và chấp nhận của người dùng. Điều này bổ sung cho các tác vụ thị giác máy tính truyền thống như phát hiện vật thể được thực hiện bởi các mô hình như Ultralytics YOLO .

Lợi ích của RLHF

  • Cải thiện sự liên kết: Kết hợp trực tiếp sở thích của con người, tạo ra các hệ thống AI phù hợp hơn với ý định và giá trị của người dùng.
  • Xử lý tính chủ quan: Hiệu quả đối với các nhiệm vụ mà chất lượng mang tính chủ quan và khó xác định bằng thước đo đơn giản (ví dụ: tính sáng tạo, tính lịch sự, tính an toàn).
  • Nâng cao tính an toàn: Giúp giảm khả năng AI tạo ra nội dung có hại, phi đạo đức hoặc thiên vị bằng cách học hỏi từ đánh giá của con người về các kết quả không mong muốn.
  • Khả năng thích ứng: Cho phép điều chỉnh mô hình cho các miền hoặc nhóm người dùng cụ thể dựa trên phản hồi có mục tiêu.

Thách thức và định hướng tương lai

Mặc dù có nhiều điểm mạnh, RLHF vẫn phải đối mặt với những thách thức:

  • Khả năng mở rộng và chi phí: Việc thu thập phản hồi chất lượng cao từ con người có thể tốn kém và mất thời gian.
  • Chất lượng phản hồi và sự thiên vị: Sở thích của con người có thể không nhất quán, thiên vị hoặc thiếu chuyên môn, có khả năng dẫn đến sự thiên vị của tập dữ liệu trong mô hình phần thưởng. Đảm bảo phản hồi đa dạng và mang tính đại diện là rất quan trọng.
  • Bẻ khóa phần thưởng: AI có thể tìm ra cách để tối đa hóa phần thưởng được dự đoán bởi mô hình phần thưởng mà không thực sự đáp ứng sở thích của con người (được gọi là bẻ khóa phần thưởng hoặc trò chơi thông số kỹ thuật).
  • Độ phức tạp: Việc triển khai toàn bộ quy trình RLHF đòi hỏi chuyên môn trong nhiều lĩnh vực của ML, bao gồm học có giám sát , học tăng cường và quản lý đào tạo mô hình quy mô lớn.

Nghiên cứu trong tương lai tập trung vào các phương pháp phản hồi hiệu quả hơn (ví dụ: sử dụng hỗ trợ AI để dán nhãn), giảm thiểu sự thiên vị, cải thiện tính mạnh mẽ của các mô hình phần thưởng và áp dụng RLHF vào nhiều tác vụ AI hơn. Các công cụ như thư viện TRL của Hugging Face tạo điều kiện thuận lợi cho việc triển khai RLHF. Các nền tảng như Ultralytics HUB cung cấp cơ sở hạ tầng để quản lý các tập dữ liệu và mô hình đào tạo, có khả năng tích hợp các cơ chế phản hồi của con người trong tương lai cho các tác vụ căn chỉnh chuyên biệt trong các lĩnh vực như thị giác máy tính . Để biết thêm chi tiết về cách bắt đầu với các nền tảng như vậy, hãy xem hướng dẫn Bắt đầu nhanh Ultralytics HUB . Việc hiểu RLHF ngày càng quan trọng đối với các Hoạt động học máy (MLOps) hiệu quả và đảm bảo tính minh bạch trong AI .

Đọc tất cả