Direct Preference Optimization
Tìm hiểu cách Direct Preference Optimization (DPO) đơn giản hóa việc căn chỉnh AI. Khám phá cách cải thiện độ an toàn và hiệu suất của model một cách hiệu quả hơn so với RLHF truyền thống.
Direct Preference Optimization (DPO) là một kỹ thuật thuật toán ổn định và hiệu quả được sử dụng để tinh chỉnh các model trí tuệ nhân tạo, đặc biệt là đảm bảo chúng tuân thủ mong muốn của con người và các tiêu chuẩn an toàn. Không giống như các phương pháp học tăng cường truyền thống đòi hỏi việc tạo lập reward model phức tạp, DPO đơn giản hóa quy trình căn chỉnh bằng cách xử lý bài toán học ưu tiên như một tác vụ phân loại. Bằng cách tối ưu hóa trực tiếp model dựa trên tập dữ liệu về sở thích của con người—nơi những người chú giải chọn câu trả lời "thắng" thay vì câu trả lời "thua"—các nhà phát triển có thể cải thiện đáng kể tính hữu ích, độ trung thực và sự an toàn của các foundation models và các hệ thống generative AI. Cách tiếp cận này đã đạt được sự phổ biến to lớn trong năm 2024 và 2025 nhờ khả năng đạt được kết quả hiện đại với chi phí tính toán thấp hơn nhiều.
Link to this sectionCách DPO đơn giản hóa việc căn chỉnh model#
Sự đổi mới chính của Direct Preference Optimization nằm ở việc loại bỏ "trung gian" thường thấy trong các quy trình căn chỉnh cũ. Trong lịch sử, việc căn chỉnh một Large Language Model (LLM) hoặc Vision-Language Model liên quan đến một quy trình nhiều bước được gọi là Reinforcement Learning from Human Feedback (RLHF). RLHF yêu cầu đào tạo một reward model riêng biệt để ước tính điểm số của con người, sau đó sử dụng một thuật toán dễ mất ổn định như PPO (Proximal Policy Optimization) để cập nhật model chính.
DPO loại bỏ về mặt toán học nhu cầu sử dụng reward model riêng biệt này. Thay vào đó, nó sử dụng một loss function dẫn xuất giúp tăng xác suất tạo ra các kết quả đầu ra "được ưu tiên" trong khi giảm xác suất cho các kết quả "bị từ chối". Điều này dựa vào một model tham chiếu để đảm bảo model đã cập nhật không đi quá xa khỏi phân phối training data gốc của nó. Sự đơn giản hóa toán học này làm cho quy trình hoạt động gần giống với supervised learning tiêu chuẩn, dẫn đến tốc độ hội tụ nhanh hơn và sử dụng bộ nhớ thấp hơn trên GPU hardware.
Link to this sectionSự khác biệt so với RLHF#
Mặc dù cả DPO và RLHF đều chia sẻ mục tiêu là AI Safety và căn chỉnh, cách triển khai của chúng khác nhau đáng kể:
- Độ phức tạp: RLHF đòi hỏi việc duy trì nhiều model (actor, critic, reward model, reference model) cùng lúc trong quá trình huấn luyện. DPO chỉ yêu cầu model đang được huấn luyện và một model tham chiếu cố định.
- Độ ổn định: Học tăng cường nổi tiếng là nhạy cảm với việc hyperparameter tuning. DPO thường chạy với sự ổn định của một tác vụ phân loại tiêu chuẩn, làm giảm nguy cơ model collapse.
- Hiệu quả: Bằng cách loại bỏ các bước suy luận của reward model, DPO giảm bớt gánh nặng tính toán, cho phép các tổ chức căn chỉnh các model lớn hơn trên các cụm máy chủ nhỏ hơn.
Link to this sectionCác ứng dụng thực tế#
Direct Preference Optimization hiện đang định hình lại cách các hệ thống AI tương tác được xây dựng trên nhiều ngành công nghiệp khác nhau.
Link to this sectiontăng cường các Conversational Agents#
Trong lĩnh vực chatbots và trợ lý ảo, DPO được sử dụng để giảm tính độc hại và cải thiện độ chính xác về thông tin. Các nhà phát triển quản lý các tập dữ liệu nơi một người chú giải con người xem xét hai câu trả lời cho một lời nhắc—một câu trả lời bị ảo tưởng hoặc thô lỗ, và một câu trả lời chính xác và lịch sự. Người đó đánh dấu câu trả lời lịch sự là "được chọn". Sau đó, DPO cập nhật các model weights để ưu tiên phong cách được chọn. Điều này rất quan trọng để triển khai các đại lý dịch vụ khách hàng tuân thủ các hướng dẫn nghiêm ngặt về AI Ethics.
Link to this sectionTinh chỉnh các Vision-Language Models#
Khi thị giác máy tính phát triển, các model ngày càng được yêu cầu giải thích những gì chúng nhìn thấy. Đối với các ứng dụng như image captioning hoặc trả lời câu hỏi bằng hình ảnh, DPO cho phép các nhà nghiên cứu căn chỉnh đầu ra văn bản của model với sở thích chi tiết của con người. Ví dụ, nếu người dùng yêu cầu một security system "mô tả kẻ xâm nhập", DPO có thể huấn luyện model ưu tiên các mô tả thực tế (ví dụ: "áo đỏ, mũ xanh") thay vì các mô tả mang tính văn chương hoặc mơ hồ, từ đó nâng cao tính hữu ích của computer vision system.
Link to this sectionDPO trong quy trình làm việc AI hiện đại#
Việc triển khai DPO đòi hỏi dữ liệu cặp chất lượng cao. Các quy trình làm việc hiện đại thường sử dụng các công cụ như Ultralytics Platform để quản lý tập dữ liệu, đảm bảo rằng quy trình data annotation tạo ra các ví dụ "thắng" và "thua" rõ ràng. Mặc dù DPO ban đầu được phát triển cho văn bản, các nguyên tắc của nó ngày càng được áp dụng để tối ưu hóa các object detection architectures và các phương thức khác bằng cách đóng khung các chỉ số chất lượng thành các cặp ưu tiên.
Đoạn mã Python sau đây sử dụng torch minh họa cấu trúc dữ liệu nền tảng cần thiết cho việc tính toán loss kiểu DPO. Nó cho thấy cách các phản hồi "được chọn" và "bị từ chối" được chuẩn bị theo lô, một khái niệm quan trọng đối với model optimization hiện đại.
import torch
import torch.nn.functional as F
# Simulate log probabilities for 'chosen' and 'rejected' responses
# In a real scenario, these come from your model (e.g., a VLM or LLM)
chosen_log_probs = torch.tensor([-0.5, -0.8, -0.2], requires_grad=True)
rejected_log_probs = torch.tensor([-2.5, -3.0, -1.5], requires_grad=True)
# DPO aims to maximize the margin between chosen and rejected
# This is a simplified conceptual look at the margin calculation
beta = 0.1 # A hyperparameter controlling deviation from the reference model
logits = beta * (chosen_log_probs - rejected_log_probs)
# The loss minimizes the negative log sigmoid of this margin
loss = -F.logsigmoid(logits).mean()
print(f"DPO Loss: {loss.item()}")
# Output demonstrates the penalty applied if the model doesn't prefer the chosen dataBằng cách tận dụng các kỹ thuật như DPO, các nhà phát triển có thể vượt qua các ranh giới về hiệu suất trong các model như Ultralytics YOLO26, đảm bảo rằng các quyết định tự động không chỉ chính xác mà còn phù hợp với ý định của con người. Điều này rất quan trọng đối với các môi trường có rủi ro cao như autonomous vehicles và medical image analysis, nơi độ tin cậy là tối quan trọng.
Link to this sectionTài nguyên bên ngoài#
- Bài báo gốc: Đọc nghiên cứu nền tảng về Direct Preference Optimization: Your Language Model is Secretly a Reward Model của Rafailov và cộng sự (2023).
- Stanford HAI: Khám phá những thông tin chi tiết về Alignment and Human Preferences từ Đại học Stanford.
- Tài liệu PyTorch: Xem lại các chi tiết kỹ thuật về việc triển khai các hàm loss cụ thể trong PyTorch API reference.






