Direct Preference Optimization (DPO)

Tìm hiểu cách Direct Preference Optimization (DPO) đơn giản hóa việc căn chỉnh AI. Khám phá cách phương pháp hiệu quả này thay thế RLHF để cải thiện độ an toàn và hiệu suất mô hình.

Direct Preference Optimization (DPO) là một kỹ thuật thuật toán ổn định và hiệu quả được sử dụng để tinh chỉnh các model trí tuệ nhân tạo, đảm bảo chúng phù hợp với mong muốn của con người, các tiêu chuẩn an toàn và hướng dẫn đạo đức. Không giống như các phương pháp truyền thống yêu cầu các pipeline phức tạp, đa giai đoạn để nắm bắt phản hồi của con người, DPO đơn giản hóa quy trình căn chỉnh về mặt toán học bằng cách coi việc học ưu tiên trực tiếp như một tác vụ phân loại trong machine learning tiêu chuẩn. Bằng cách tối ưu hóa trực tiếp model dựa trên tập dữ liệu về ưu tiên của con người—nơi các nhà chú thích chọn phản hồi "thắng" thay vì "thua"—các nhà phát triển có thể cải thiện đáng kể tính hữu ích, trung thực và an toàn của các foundation models quy mô lớn và các hệ thống AI tạo sinh hiện đại.

Link to this sectionDPO đơn giản hóa việc căn chỉnh model như thế nào#

Đổi mới chính của Direct Preference Optimization nằm ở việc loại bỏ "trung gian" kiến trúc. Trong lịch sử, việc căn chỉnh một Large Language Model (LLM) hoặc một Vision-Language Model đòi hỏi một quy trình phức tạp được gọi là Reinforcement Learning from Human Feedback (RLHF). RLHF yêu cầu huấn luyện một reward model riêng biệt để ước tính điểm số của con người, sau đó sử dụng một thuật toán học tăng cường dễ gây mất ổn định như Proximal Policy Optimization để cập nhật model chính.

DPO loại bỏ về mặt toán học nhu cầu cho reward model riêng biệt này. Thay vào đó, nó dựa vào một loss function dẫn xuất giúp tăng khả năng tạo ra các đầu ra "được ưu tiên" đồng thời giảm khả năng của các đầu ra "bị từ chối". Nó sử dụng một model tham chiếu để giới hạn Kullback-Leibler divergence, đảm bảo model được cập nhật không lệch quá xa so với phân phối training data gốc của nó. Sự đơn giản hóa toán học này khiến quy trình hoạt động gần giống với supervised learning tiêu chuẩn, dẫn đến khả năng hội tụ nhanh hơn và sử dụng bộ nhớ thấp hơn trên GPU hardware. Điều này vốn dĩ làm giảm nguy cơ model collapse và loại bỏ việc hyperparameter tuning trên diện rộng.

Link to this sectionCác ứng dụng trong thực tế#

Direct Preference Optimization đang định hình lại căn bản cách các hệ thống AI tương tác được xây dựng và triển khai trên nhiều ngành công nghiệp quan trọng để theo đuổi AI Safety mạnh mẽ.

Nâng cao các tác nhân hội thoại: Trong lĩnh vực chatbots và trợ lý ảo, DPO được sử dụng để giảm tính độc hại và căn chỉnh các phản hồi với các OpenAI safety best practices nghiêm ngặt và nghiên cứu của Anthropic về căn chỉnh AI. Các nhà chú thích con người xem xét hai câu trả lời cho một lời nhắc, đánh dấu câu trả lời lịch sự, thực tế là "đã chọn". DPO sau đó cập nhật trọng số model để ủng hộ phong cách hội thoại cụ thể này đồng thời phạt các trường hợp ảo tưởng (hallucinations).
Tinh chỉnh các Vision-Language Models: Khi image recognition phát triển, các model ngày càng được yêu cầu giải thích những gì chúng thấy cho người vận hành. Đối với các ứng dụng như trả lời câu hỏi bằng hình ảnh, DPO cho phép các nhà nghiên cứu căn chỉnh đầu ra văn bản của model với các ưu tiên chi tiết của con người. Ví dụ: nếu người dùng yêu cầu một hệ thống robot được hỗ trợ bởi Ultralytics YOLO26 mô tả một đối tượng, DPO huấn luyện model ưu tiên các mô tả thực tế, ngắn gọn hơn là các giải thích mơ hồ, tuân thủ chặt chẽ các hướng dẫn AI Ethics nghiêm ngặt.

Link to this sectionDPO trong thực tiễn#

Việc triển khai DPO yêu cầu dữ liệu cặp chất lượng cao. Các quy trình làm việc hiện đại sử dụng các công cụ toàn diện như Ultralytics Platform để quản lý các tập dữ liệu này một cách liền mạch, đảm bảo rằng quy trình data annotation mang lại các ví dụ "người thắng" và "kẻ thua" rõ ràng. Bạn có thể khám phá nghiên cứu nền tảng đằng sau điều này trong bài báo Direct Preference Optimization: Your Language Model is Secretly a Reward Model hoặc đọc về Alignment and Human Preferences từ Stanford HAI.

Đoạn mã Python sau đây minh họa cấu trúc dữ liệu nền tảng cần thiết cho tính toán loss theo kiểu DPO sử dụng các hàm được tìm thấy trong PyTorch API reference.

import torch
import torch.nn.functional as F


def dpo_loss(chosen_logps, rejected_logps, beta=0.1):
    # DPO maximizes the margin between chosen and rejected log probabilities
    logits = beta * (chosen_logps - rejected_logps)
    # The loss minimizes the negative log sigmoid of this margin
    return -F.logsigmoid(logits).mean()


print(f"DPO Loss: {dpo_loss(torch.tensor([-0.5]), torch.tensor([-2.5])):.4f}")

Direct Preference Optimization (DPO)

Link to this sectionDPO đơn giản hóa việc căn chỉnh model như thế nào#

Link to this sectionCác ứng dụng trong thực tế#

Link to this sectionDPO trong thực tiễn#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!