Direct Preference Optimization

Tìm hiểu cách Direct Preference Optimization (DPO) đơn giản hóa việc căn chỉnh AI. Khám phá cách cải thiện độ an toàn và hiệu suất mô hình hiệu quả hơn so với RLHF truyền thống.

Direct Preference Optimization (DPO) là một kỹ thuật thuật toán ổn định và hiệu quả được sử dụng để tinh chỉnh các model trí tuệ nhân tạo, cụ thể là đảm bảo chúng phù hợp với mong muốn của con người và các tiêu chuẩn an toàn. Không giống như các phương pháp học tăng cường truyền thống đòi hỏi việc xây dựng mô hình phần thưởng phức tạp, DPO đơn giản hóa quy trình căn chỉnh bằng cách coi vấn đề học ưu tiên là một tác vụ phân loại. Bằng cách tối ưu hóa trực tiếp model dựa trên một tập dữ liệu về sở thích của con người—nơi các nhà chú giải chọn phản hồi "thắng" thay cho phản hồi "thua"—các lập trình viên có thể cải thiện đáng kể tính hữu ích, tính trung thực và độ an toàn của các foundation models và các hệ thống generative AI. Phương pháp này đã đạt được sự phổ biến rộng rãi trong năm 2024 và 2025 nhờ khả năng đạt được kết quả hiện đại với chi phí tính toán thấp hơn nhiều.

Link to this sectionDPO đơn giản hóa việc căn chỉnh model như thế nào#

Sự đổi mới chính của Direct Preference Optimization nằm ở việc loại bỏ "trung gian" thường thấy trong các pipeline căn chỉnh cũ. Trong lịch sử, việc căn chỉnh một Large Language Model (LLM) hoặc một Vision-Language Model bao gồm một quy trình nhiều bước được gọi là Reinforcement Learning from Human Feedback (RLHF). RLHF yêu cầu huấn luyện một model phần thưởng riêng biệt để ước tính điểm số của con người, sau đó sử dụng một thuật toán dễ mất ổn định như PPO (Proximal Policy Optimization) để cập nhật model chính.

DPO loại bỏ về mặt toán học nhu cầu về mô hình phần thưởng riêng biệt này. Thay vào đó, nó sử dụng một loss function dẫn xuất giúp tăng khả năng tạo ra các đầu ra "được ưu tiên" trong khi giảm khả năng của các đầu ra "bị từ chối". Điều này dựa vào một model tham chiếu để đảm bảo model đã cập nhật không trôi quá xa so với phân phối training data gốc của nó. Sự đơn giản hóa toán học này làm cho quy trình hoạt động gần giống với supervised learning tiêu chuẩn, dẫn đến khả năng hội tụ nhanh hơn và sử dụng bộ nhớ thấp hơn trên GPU hardware.

Link to this sectionPhân biệt với RLHF#

Mặc dù cả DPO và RLHF đều có chung mục tiêu là AI Safety và sự căn chỉnh, việc triển khai chúng khác nhau đáng kể:

Độ phức tạp: RLHF liên quan đến việc duy trì nhiều model (actor, critic, reward model, reference model) đồng thời trong quá trình huấn luyện. DPO chỉ yêu cầu model đang được huấn luyện và một model tham chiếu cố định.
Tính ổn định: Học tăng cường vốn nổi tiếng là nhạy cảm với hyperparameter tuning. DPO thường chạy với sự ổn định của một tác vụ phân loại tiêu chuẩn, làm giảm nguy cơ model collapse.
Hiệu quả: Bằng cách loại bỏ các bước suy luận của model phần thưởng, DPO giảm gánh nặng tính toán, cho phép các tổ chức căn chỉnh các model lớn hơn trên các cụm nhỏ hơn.

Link to this sectionCác ứng dụng trong thực tế#

Direct Preference Optimization hiện đang định hình lại cách các hệ thống AI tương tác được xây dựng trên nhiều ngành công nghiệp.

Link to this sectionnâng cao các tác nhân hội thoại#

Trong lĩnh vực chatbots và trợ lý ảo, DPO được sử dụng để giảm tính độc hại và cải thiện độ chính xác về thông tin. Các lập trình viên quản lý các tập dữ liệu nơi một người chú giải đánh giá hai câu trả lời cho một lời nhắc—một câu trả lời bị ảo giác hoặc thô lỗ, và một câu trả lời chính xác và lịch sự. Con người đánh dấu câu trả lời lịch sự là "được chọn". Sau đó, DPO cập nhật model weights để ưu tiên phong cách đã chọn. Điều này rất quan trọng để triển khai các tác nhân dịch vụ khách hàng tuân thủ các hướng dẫn AI Ethics nghiêm ngặt.

Link to this sectionTinh chỉnh các Vision-Language Models#

Khi computer vision phát triển, các model ngày càng được yêu cầu phải giải thích những gì chúng nhìn thấy. Đối với các ứng dụng như image captioning hoặc trả lời câu hỏi bằng hình ảnh, DPO cho phép các nhà nghiên cứu căn chỉnh đầu ra văn bản của model với các sở thích chi tiết của con người. Ví dụ, nếu người dùng yêu cầu một security system "mô tả kẻ xâm nhập," DPO có thể huấn luyện model ưu tiên các mô tả thực tế (ví dụ: "áo đỏ, mũ xanh") hơn là các mô tả mang tính văn chương hoặc mơ hồ, giúp tăng cường tính hữu ích của computer vision system.

Link to this sectionDPO trong quy trình làm việc AI hiện đại#

Việc triển khai DPO yêu cầu dữ liệu cặp chất lượng cao. Các quy trình làm việc hiện đại thường sử dụng các công cụ như Ultralytics Platform để quản lý tập dữ liệu, đảm bảo rằng quá trình data annotation mang lại các ví dụ "người chiến thắng" và "kẻ thua cuộc" rõ ràng. Mặc dù DPO được tiên phong cho văn bản, các nguyên tắc của nó ngày càng được áp dụng để tối ưu hóa các object detection architectures và các phương thức khác bằng cách đóng khung các số liệu chất lượng thành các cặp sở thích.

Đoạn mã Python sau sử dụng torch minh họa cấu trúc dữ liệu nền tảng cần thiết cho việc tính toán loss theo phong cách DPO. Nó cho thấy cách các phản hồi "được chọn" và "bị từ chối" được chuẩn bị theo từng lô, một khái niệm quan trọng đối với model optimization hiện đại.

import torch
import torch.nn.functional as F

# Simulate log probabilities for 'chosen' and 'rejected' responses
# In a real scenario, these come from your model (e.g., a VLM or LLM)
chosen_log_probs = torch.tensor([-0.5, -0.8, -0.2], requires_grad=True)
rejected_log_probs = torch.tensor([-2.5, -3.0, -1.5], requires_grad=True)

# DPO aims to maximize the margin between chosen and rejected
# This is a simplified conceptual look at the margin calculation
beta = 0.1  # A hyperparameter controlling deviation from the reference model
logits = beta * (chosen_log_probs - rejected_log_probs)

# The loss minimizes the negative log sigmoid of this margin
loss = -F.logsigmoid(logits).mean()

print(f"DPO Loss: {loss.item()}")
# Output demonstrates the penalty applied if the model doesn't prefer the chosen data

Bằng cách tận dụng các kỹ thuật như DPO, các lập trình viên có thể vượt qua các giới hạn về hiệu suất trong các model như Ultralytics YOLO26, đảm bảo rằng các quyết định tự động không chỉ chính xác mà còn phù hợp với ý định của con người. Điều này rất quan trọng đối với các môi trường có tính rủi ro cao như autonomous vehicles và medical image analysis, nơi độ tin cậy là yếu tố tối quan trọng.

Link to this sectionTài nguyên bên ngoài#

Bài báo gốc: Đọc nghiên cứu nền tảng về Direct Preference Optimization: Your Language Model is Secretly a Reward Model bởi Rafailov et al. (2023).
Stanford HAI: Khám phá những thông tin chi tiết về Alignment and Human Preferences từ Đại học Stanford.
Tài liệu PyTorch: Xem lại các chi tiết kỹ thuật về việc triển khai các hàm loss cụ thể trong PyTorch API reference.

Explore solutions

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Direct Preference Optimization

Link to this sectionDPO đơn giản hóa việc căn chỉnh model như thế nào#

Link to this sectionPhân biệt với RLHF#

Link to this sectionCác ứng dụng trong thực tế#

Link to this sectionnâng cao các tác nhân hội thoại#

Link to this sectionTinh chỉnh các Vision-Language Models#

Link to this sectionDPO trong quy trình làm việc AI hiện đại#

Link to this sectionTài nguyên bên ngoài#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!