Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Học tăng cường từ phản hồi của con người (RLHF)

Khám phá cách Học tăng cường từ phản hồi của con người (RLHF) tinh chỉnh hiệu suất AI bằng cách điều chỉnh các mô hình phù hợp với các giá trị của con người để có một AI an toàn hơn, thông minh hơn.

Học Tăng cường từ Phản hồi của Con người (RLHF) là một khuôn khổ tinh vi trong học máy (ML), giúp điều chỉnh các hệ thống trí tuệ nhân tạo (AI) phù hợp với các giá trị, sở thích và ý định của con người. Không giống như học có giám sát truyền thống, vốn huấn luyện các mô hình để sao chép các tập dữ liệu tĩnh, RLHF giới thiệu một vòng phản hồi động, trong đó người đánh giá xếp hạng đầu ra của mô hình. Dữ liệu xếp hạng này được sử dụng để huấn luyện một "mô hình khen thưởng", sau đó hướng dẫn AI tạo ra các phản hồi hữu ích, an toàn và chính xác hơn. Kỹ thuật này đã được chứng minh là thiết yếu cho sự phát triển của các mô hình ngôn ngữ lớn (LLM) hiện đại và AI tạo sinh , đảm bảo rằng các mô hình nền tảng mạnh mẽ hoạt động theo kỳ vọng của người dùng thay vì chỉ dự đoán từ hoặc pixel tiếp theo về mặt thống kê.

Quy trình làm việc RLHF

Quá trình căn chỉnh mô hình thông qua RLHF thường tuân theo quy trình ba bước giúp thu hẹp khoảng cách giữa khả năng dự đoán thô và tương tác tinh tế của con người.

  1. Tinh chỉnh có giám sát (SFT): Quy trình này thường bắt đầu với một mô hình nền tảng được đào tạo trước. Các nhà phát triển sử dụng tinh chỉnh trên một tập dữ liệu nhỏ hơn, chất lượng cao gồm các ví dụ được chọn lọc (chẳng hạn như hộp thoại hoặc trình diễn) để dạy cho mô hình định dạng cơ bản của tác vụ mong muốn.
  2. Huấn luyện Mô hình Phần thưởng: Đây là cốt lõi của RLHF. Người chú thích sẽ xem xét nhiều kết quả đầu ra do mô hình tạo ra cho cùng một đầu vào và xếp hạng chúng từ tốt nhất đến tệ nhất. Quá trình gắn nhãn dữ liệu này tạo ra một tập dữ liệu về các sở thích. Một mạng nơ-ron riêng biệt, được gọi là mô hình phần thưởng, được huấn luyện trên dữ liệu so sánh này để dự đoán điểm thưởng vô hướng mô phỏng đánh giá của con người.
  3. Tối ưu hóa Học Tăng cường: Mô hình ban đầu thực sự trở thành một tác nhân AI trong môi trường học tăng cường . Sử dụng mô hình phần thưởng làm hướng dẫn, các thuật toán như Tối ưu hóa Chính sách Gần (PPO) điều chỉnh các tham số của tác nhân để tối đa hóa phần thưởng mong đợi. Bước này về cơ bản thay đổi chính sách của mô hình để ưu tiên các hành động - chẳng hạn như từ chối lịch sự các truy vấn có hại - phù hợp với sở thích đã học của con người.

RLHF so với Học tăng cường tiêu chuẩn

Mặc dù cả hai cách đều dựa vào mục đích tối đa hóa phần thưởng, nhưng nguồn gốc của phần thưởng lại tạo nên sự khác biệt đáng kể.

  • Học Tăng cường Tiêu chuẩn (RL): Trong RL truyền thống, hàm phần thưởng thường được mã hóa cứng hoặc được xác định bằng toán học bởi môi trường. Ví dụ, trong một ván cờ vua, môi trường cung cấp một tín hiệu rõ ràng: +1 nếu thắng, -1 nếu thua. Tác nhân học thông qua thử nghiệm và sai sót trong Quy trình Quyết định Markov (MDP) được xác định này.
  • RLHF: Trong nhiều nhiệm vụ thực tế, chẳng hạn như viết tóm tắt hoặc lái xe lịch sự, công thức toán học cho "thành công" là không thể định nghĩa rõ ràng. RLHF giải quyết vấn đề này bằng cách thay thế phần thưởng được mã hóa cứng bằng một mô hình phần thưởng đã học được, được rút ra từ phản hồi của con người. Điều này cho phép tối ưu hóa các khái niệm trừu tượng như "sự hữu ích" hoặc "sự an toàn" vốn khó lập trình trực tiếp.

Các Ứng dụng Thực tế

RLHF đã thay đổi cách các hệ thống AI tương tác với thế giới, đặc biệt là trong các lĩnh vực đòi hỏi tiêu chuẩn an toàn cao và hiểu biết sâu sắc.

  • Trí tuệ nhân tạo hội thoại và Chatbot: Ứng dụng nổi bật nhất của RLHF là sắp xếp các chatbot sao cho vừa hữu ích vừa vô hại. Bằng cách xử phạt các kết quả đầu ra độc hại, thiên vị hoặc sai lệch thực tế, RLHF giúp giảm thiểu ảo giác trong các chương trình LLM và giảm thiểu sai lệch thuật toán . Nó đảm bảo rằng trợ lý có thể từ chối các hướng dẫn nguy hiểm trong khi vẫn hữu ích cho các truy vấn hợp lệ.
  • Robot và Tác nhân Tự động: Không chỉ dừng lại ở văn bản, RLHF còn được ứng dụng trong robot để dạy các tác nhân thực hiện các nhiệm vụ vật lý phức tạp. Ví dụ, một cánh tay robot học cách cầm nắm các vật dễ vỡ có thể nhận được phản hồi từ người giám sát về những lần cầm nắm nào là an toàn so với những lần thất bại riêng biệt. Phản hồi này tinh chỉnh chính sách điều khiển hiệu quả hơn so với phương pháp học tăng cường sâu đơn giản chỉ dựa trên việc hoàn thành nhiệm vụ. Các phương pháp tương tự hỗ trợ xe tự hành học các hành vi lái xe mà hành khách cảm thấy tự nhiên.

Tích hợp nhận thức với RLHF

Trong các ứng dụng trực quan, các tác nhân RLHF thường dựa vào thị giác máy tính (CV) để nhận biết trạng thái môi trường. Một bộ phát hiện mạnh mẽ, chẳng hạn như YOLO11 , có thể hoạt động như "đôi mắt" của hệ thống, cung cấp các quan sát có cấu trúc (ví dụ: "phát hiện người đi bộ bên trái") mà mạng chính sách sử dụng để lựa chọn hành động.

Ví dụ sau đây minh họa một khái niệm đơn giản hóa trong đó YOLO Mô hình cung cấp trạng thái môi trường cho một tác nhân. Trong một vòng lặp RLHF đầy đủ, "phần thưởng" sẽ được xác định bởi một mô hình được đào tạo dựa trên sở thích của con người về độ tin cậy hoặc độ chính xác của tác nhân.

from ultralytics import YOLO

# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)

print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")

Bằng cách kết hợp các mô hình nhận thức mạnh mẽ với các chính sách được điều chỉnh thông qua phản hồi của con người, các nhà phát triển có thể xây dựng các hệ thống không chỉ thông minh mà còn được kiểm tra nghiêm ngặt về tính an toàn của AI . Nghiên cứu về giám sát có thể mở rộng, chẳng hạn như AI Hiến pháp , tiếp tục phát triển lĩnh vực này, nhằm mục đích giảm sự phụ thuộc quá mức vào chú thích của con người trên quy mô lớn.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay