Constitutional AI là một phương pháp được thiết kế để liên kết các mô hình Trí tuệ nhân tạo (AI) , đặc biệt là Mô hình ngôn ngữ lớn (LLM) , với các giá trị và nguyên tắc đạo đức của con người. Thay vì chỉ dựa vào phản hồi trực tiếp của con người để hướng dẫn hành vi, phương pháp này sử dụng một bộ quy tắc hoặc nguyên tắc được xác định trước—một "hiến pháp"—để giúp AI đánh giá và sửa đổi các phản hồi của chính nó trong quá trình đào tạo . Mục tiêu là tạo ra các hệ thống AI hữu ích, vô hại và trung thực, giảm nguy cơ tạo ra các đầu ra thiên vị, độc hại hoặc không mong muốn. Kỹ thuật này, do các nhà nghiên cứu tại Anthropic tiên phong, nhằm mục đích làm cho sự liên kết AI có thể mở rộng hơn và ít phụ thuộc hơn vào sự giám sát rộng rãi của con người.
AI Hiến pháp hoạt động như thế nào
Ý tưởng cốt lõi đằng sau AI Hiến pháp bao gồm quá trình đào tạo gồm hai giai đoạn:
- Giai đoạn học có giám sát: Ban đầu, một mô hình ngôn ngữ được đào tạo trước tiêu chuẩn được nhắc nhở bằng các kịch bản được thiết kế để gợi ra các phản hồi có khả năng gây hại hoặc không mong muốn. Mô hình tạo ra một số phản hồi. Sau đó, các phản hồi này được một mô hình AI khác phê bình dựa trên các nguyên tắc được nêu trong hiến pháp. AI phê bình các phản hồi của chính nó, xác định lý do tại sao một phản hồi có thể vi phạm một nguyên tắc (ví dụ: không có sự đồng thuận hoặc có hại). Sau đó, mô hình được tinh chỉnh dựa trên các phản hồi tự phê bình này, học cách tạo ra các đầu ra phù hợp hơn với hiến pháp. Giai đoạn này sử dụng các kỹ thuật học có giám sát .
- Giai đoạn học tăng cường: Sau giai đoạn có giám sát, mô hình được tinh chỉnh thêm bằng cách sử dụng Học tăng cường (RL) . Trong giai đoạn này, AI tạo ra các phản hồi và một mô hình AI (được đào tạo bằng cách sử dụng hiến pháp) đánh giá các phản hồi này, cung cấp tín hiệu khen thưởng dựa trên mức độ tuân thủ các nguyên tắc hiến pháp. Quá trình này, thường được gọi là Học tăng cường từ phản hồi AI (RLAIF), tối ưu hóa mô hình để liên tục tạo ra các đầu ra phù hợp với hiến pháp, về cơ bản là dạy AI ưu tiên hành vi phù hợp với hiến pháp.
Cơ chế tự điều chỉnh này, được hướng dẫn bởi các nguyên tắc rõ ràng, phân biệt AI theo Hiến pháp với các phương pháp như Học tăng cường từ phản hồi của con người (RLHF) , vốn phụ thuộc nhiều vào đầu ra của mô hình đánh giá của người dán nhãn.
Các khái niệm chính
- Hiến pháp: Đây không phải là một văn bản pháp lý theo nghĩa đen mà là một tập hợp các nguyên tắc hoặc quy tắc đạo đức rõ ràng hướng dẫn hành vi của AI. Các nguyên tắc này có thể được lấy từ nhiều nguồn khác nhau, chẳng hạn như các tuyên bố chung (như Tuyên bố Nhân quyền của Liên hợp quốc ), các điều khoản dịch vụ hoặc các hướng dẫn đạo đức tùy chỉnh phù hợp với các ứng dụng cụ thể. Hiệu quả phụ thuộc rất nhiều vào chất lượng và tính toàn diện của các nguyên tắc này.
- Tự phê bình và sửa đổi AI: Một khía cạnh cơ bản trong đó mô hình AI học cách đánh giá đầu ra của chính nó so với cấu trúc và tạo ra các bản sửa đổi. Vòng phản hồi nội bộ này làm giảm nhu cầu can thiệp liên tục của con người.
- Căn chỉnh AI: AI theo Hiến pháp là một kỹ thuật đóng góp vào lĩnh vực căn chỉnh AI rộng hơn, nhằm đảm bảo rằng các mục tiêu và hành vi của hệ thống AI phù hợp với ý định và giá trị của con người. Nó giải quyết các mối quan ngại về sự an toàn của AI và khả năng gây ra hậu quả không mong muốn.
- Khả năng mở rộng: Bằng cách tự động hóa quy trình phản hồi bằng AI dựa trên cấu tạo, phương pháp này hướng đến khả năng mở rộng hơn RLHF, vốn đòi hỏi nhiều nhân công và có khả năng gây ra sai lệch do con người ( sai lệch thuật toán ).
Ví dụ thực tế
- Các mô hình Claude của Anthropic : Ví dụ nổi bật nhất là Anthropic gia đình của Claude LLM. Anthropic đã phát triển AI Hiến pháp cụ thể để đào tạo các mô hình này trở nên "hữu ích, vô hại và trung thực". Hiến pháp được sử dụng bao gồm các nguyên tắc ngăn chặn việc tạo ra nội dung độc hại, phân biệt đối xử hoặc bất hợp pháp, một phần dựa trên Tuyên bố Nhân quyền của Liên hợp quốc và các nguồn đạo đức khác. Đọc thêm trong bài báo của họ về AI Hiến pháp Tập thể .
- Hệ thống kiểm duyệt nội dung AI: Các nguyên tắc AI theo hiến pháp có thể được áp dụng để đào tạo các mô hình cho nền tảng kiểm duyệt nội dung. Thay vì chỉ dựa vào người kiểm duyệt hoặc bộ lọc từ khóa cứng nhắc, AI có thể sử dụng hiến pháp xác định nội dung có hại (ví dụ: lời nói thù địch, thông tin sai lệch) để đánh giá văn bản hoặc hình ảnh do người dùng tạo, dẫn đến kiểm duyệt sắc thái và nhất quán hơn phù hợp với chính sách nền tảng và hướng dẫn đạo đức AI .
AI Hiến pháp so với các thuật ngữ liên quan
- Học tăng cường từ phản hồi của con người (RLHF) : Mặc dù cả hai đều hướng đến việc sắp xếp AI, RLHF sử dụng phản hồi do con người tạo ra dựa trên kết quả mô hình đánh giá. AI theo hiến pháp chủ yếu sử dụng phản hồi do AI tạo ra dựa trên hiến pháp được xác định trước, khiến nó có khả năng mở rộng và nhất quán hơn, mặc dù chất lượng phụ thuộc rất nhiều vào chính hiến pháp.
- Đạo đức AI & AI có trách nhiệm : Đạo đức AI là lĩnh vực rộng lớn nghiên cứu các hàm ý đạo đức của AI. AI có trách nhiệm bao gồm các nguyên tắc và thực hành (như công bằng , minh bạch ( XAI ), trách nhiệm giải trình, quyền riêng tư dữ liệu ) để phát triển và triển khai các hệ thống AI một cách an toàn và có đạo đức. AI theo hiến pháp là một phương pháp kỹ thuật cụ thể được sử dụng trong quá trình đào tạo mô hình để triển khai các nguyên tắc đạo đức nhất định và đóng góp vào quá trình phát triển AI có trách nhiệm.
Ứng dụng và tiềm năng tương lai
Hiện tại, AI theo Hiến pháp chủ yếu được áp dụng cho LLM cho các nhiệm vụ như tạo hội thoại và tóm tắt văn bản. Tuy nhiên, các nguyên tắc cơ bản có khả năng mở rộng sang các lĩnh vực AI khác, bao gồm Thị giác máy tính (CV) . Ví dụ:
Việc phát triển và tinh chỉnh các hiến pháp hiệu quả, cùng với việc đảm bảo AI tuân thủ trung thành các hiến pháp đó trong nhiều bối cảnh khác nhau, vẫn là các lĩnh vực nghiên cứu tích cực trong các tổ chức như Google AI và Viện An toàn AI . Các công cụ như Ultralytics HUB tạo điều kiện thuận lợi cho việc đào tạo và triển khai nhiều mô hình AI khác nhau và việc kết hợp các nguyên tắc tương tự như AI theo Hiến pháp có thể trở nên ngày càng quan trọng để đảm bảo triển khai có trách nhiệm .