Bảng chú giải thuật ngữ

AI Hiến pháp

Khám phá cách AI Hiến pháp đảm bảo các kết quả AI an toàn, đạo đức và không thiên vị bằng cách điều chỉnh các mô hình theo các nguyên tắc xác định trước và các giá trị của con người.

Constitutional AI (CAI) là một phương pháp được phát triển bởi Anthropic để huấn luyện các mô hình AI, đặc biệt là Mô hình ngôn ngữ lớn (LLM), tuân theo một bộ quy tắc hoặc nguyên tắc cụ thể, được gọi là "hiến pháp". Mục tiêu chính của CAI là làm cho các hệ thống AI hữu ích, vô hại và dễ kiểm soát hơn mà không cần phản hồi rộng rãi từ con người. Thay vì con người liên tục gắn nhãn các đầu ra có hại, AI học cách phê bình và sửa đổi các phản hồi của chính nó dựa trên các nguyên tắc chỉ đạo trong hiến pháp của nó. Cách tiếp cận này giúp giải quyết các thách thức chính trong đạo đức AI, chẳng hạn như ngăn chặn việc tạo ra nội dung độc hại và giảm thiên kiến thuật toán.

Cách AI Hiến Pháp Hoạt Động

Quy trình đào tạo CAI thường bao gồm hai giai đoạn chính:

Giai đoạn học có giám sát: Ban đầu, một mô hình nền tảng được nhắc tạo ra các phản hồi. Sau đó, cùng một mô hình được yêu cầu phê bình các phản hồi của chính nó dựa trên hiến pháp và viết lại chúng để phù hợp hơn với các nguyên tắc của nó. Điều này tạo ra một tập dữ liệu mới gồm các ví dụ được cải thiện, phù hợp với hiến pháp. Cơ chế tự phê bình này được hướng dẫn bởi một hiến pháp, có thể là một danh sách các quy tắc đơn giản hoặc lấy từ các nguồn phức tạp như Tuyên ngôn Nhân quyền của Liên Hợp Quốc.
Giai đoạn Học Tăng Cường (Reinforcement Learning Phase): Sau đó, mô hình được tinh chỉnh bằng cách sử dụng Học Tăng Cường (Reinforcement Learning - RL). Trong giai đoạn này, AI tạo ra các cặp phản hồi và một mô hình ưu tiên (được huấn luyện trên dữ liệu tự phê bình từ giai đoạn đầu tiên) chọn phản hồi tuân thủ tốt nhất theo quy tắc. Quá trình này dạy cho AI tự ưu tiên các đầu ra phù hợp với các nguyên tắc cốt lõi của nó.

Một ví dụ thực tế quan trọng của CAI là việc triển khai nó trong trợ lý AI Claude của Anthropic. Hiến pháp của nó hướng dẫn nó tránh tạo ra các hướng dẫn có hại, từ chối tham gia vào các hoạt động bất hợp pháp và giao tiếp một cách không độc hại, đồng thời vẫn hữu ích. Một ứng dụng khác là trong kiểm duyệt nội dung tự động, nơi một mô hình dựa trên CAI có thể được sử dụng để xác định và gắn cờ ngôn từ kích động thù địch hoặc thông tin sai lệch trực tuyến theo một bộ hướng dẫn đạo đức được xác định trước.

So sánh Constitutional AI với các khái niệm liên quan

Điều quan trọng là phải phân biệt CAI với các thuật ngữ tương tự:

Học tăng cường từ phản hồi của con người (Reinforcement Learning from Human Feedback - RLHF): RLHF dựa vào con người để cung cấp phản hồi và xếp hạng các phản hồi do AI tạo ra, điều này tốn thời gian và khó mở rộng quy mô. CAI thay thế vòng phản hồi của con người bằng vòng phản hồi do AI điều khiển, trong đó cấu trúc của mô hình hướng dẫn phản hồi. Điều này làm cho quá trình căn chỉnh có thể mở rộng và nhất quán hơn.
Đạo đức AI (AI Ethics): Đây là một lĩnh vực rộng lớn liên quan đến các nguyên tắc đạo đức và các vấn đề kỹ thuật của việc tạo ra AI có trách nhiệm. AI theo hiến pháp (Constitutional AI) có thể được xem như một khuôn khổ thiết thực để thực hiện đạo đức AI bằng cách nhúng các quy tắc đạo đức rõ ràng trực tiếp vào quá trình huấn luyện của mô hình.

Các Ứng Dụng và Tiềm Năng Tương Lai

Hiện tại, Constitutional AI chủ yếu được áp dụng cho LLM cho các tác vụ như tạo đoạn hội thoại và tóm tắt văn bản. Tuy nhiên, các nguyên tắc cơ bản có khả năng mở rộng sang các lĩnh vực AI khác, bao gồm cả Thị Giác Máy Tính (CV). Ví dụ:

Hướng dẫn các mô hình chuyển văn bản thành hình ảnh (như Stable Diffusion hoặc DALL-E 3) để tránh tạo ra những hình ảnh có hại, thiên vị hoặc không có sự đồng thuận dựa trên các quy tắc hiến pháp.
Hỗ trợ ra quyết định trong xe tự hành hoặc robotics, đảm bảo các hành động phù hợp với các giao thức an toàn được xác định trong hiến pháp.
Đảm bảo tính công bằng trong các tác vụ CV như nhận dạng khuôn mặt hoặc phát hiện đối tượng bằng cách kết hợp các nguyên tắc chống lại thiên vị về nhân khẩu học, có khả năng cải thiện các mô hình như Ultralytics YOLO11.

Việc phát triển và tinh chỉnh các quy tắc hiệu quả, cùng với việc đảm bảo AI tuân thủ trung thực các quy tắc này trong các bối cảnh khác nhau, vẫn là các lĩnh vực nghiên cứu tích cực trong các tổ chức như Google AI và AI Safety Institute. Các công cụ như Ultralytics HUB tạo điều kiện thuận lợi cho việc huấn luyện (training) và triển khai các mô hình AI khác nhau, và việc kết hợp các nguyên tắc tương tự như Constitutional AI sẽ ngày càng trở nên quan trọng để đảm bảo triển khai mô hình có trách nhiệm (responsible model deployment).

AI Hiến pháp

Huấn luyện các mô hình Ultralytics YOLO để hợp lý hóa quy trình làm việc trong các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Huấn luyện các mô hình AI trong vài giây với Ultralytics YOLO

Cách AI Hiến Pháp Hoạt Động

So sánh Constitutional AI với các khái niệm liên quan

Các Ứng Dụng và Tiềm Năng Tương Lai

Đọc thêm trong danh mục này

Vision AI hỗ trợ hệ thống giám sát sự chú ý của người lái xe

Từ bit đến qubit: Cách tối ưu hóa lượng tử đang định hình lại AI

Hướng dẫn nhanh cho người mới bắt đầu về cách đào tạo mô hình AI

Tham gia cộng đồng Ultralytics