Thuật ngữ

AI Hiến pháp

Khám phá cách AI theo Hiến pháp đảm bảo đầu ra AI có đạo đức, an toàn và khách quan bằng cách liên kết các mô hình với các nguyên tắc được xác định trước và các giá trị nhân văn.

Trí tuệ nhân tạo Hiến pháp (CAI) là một phương pháp do Anthropic phát triển để huấn luyện các mô hình AI, đặc biệt là các Mô hình Ngôn ngữ Lớn (LLM) , tuân thủ một bộ quy tắc hoặc nguyên tắc cụ thể, được gọi là "hiến pháp". Mục tiêu chính của CAI là làm cho các hệ thống AI trở nên hữu ích, vô hại và dễ kiểm soát hơn mà không cần phản hồi quá nhiều từ con người. Thay vì con người liên tục dán nhãn các kết quả đầu ra có hại, AI học cách phê bình và sửa đổi các phản hồi của chính mình dựa trên các nguyên tắc chỉ đạo trong hiến pháp của nó. Phương pháp này giúp giải quyết những thách thức chính về đạo đức AI , chẳng hạn như ngăn chặn việc tạo ra nội dung độc hại và giảm thiểu sai lệch thuật toán .

AI Hiến pháp hoạt động như thế nào

Quá trình đào tạo CAI thường bao gồm hai giai đoạn chính:

  1. Giai đoạn Học có Giám sát: Ban đầu, một mô hình nền tảng được yêu cầu tạo ra các phản hồi. Sau đó, chính mô hình đó được yêu cầu phê bình các phản hồi của chính nó dựa trên hiến pháp và viết lại chúng sao cho phù hợp hơn với các nguyên tắc của nó. Điều này tạo ra một tập dữ liệu mới gồm các ví dụ được cải thiện, phù hợp với hiến pháp. Cơ chế tự phê bình này được hướng dẫn bởi một hiến pháp, có thể là một danh sách các quy tắc đơn giản hoặc được trích dẫn từ các nguồn phức tạp như Tuyên bố Nhân quyền của Liên Hợp Quốc .
  2. Giai đoạn Học Tăng cường: Mô hình sau đó được tinh chỉnh bằng Học Tăng cường (RL) . Trong giai đoạn này, AI tạo ra các cặp phản hồi, và một mô hình ưu tiên (được đào tạo dựa trên dữ liệu tự đánh giá từ giai đoạn đầu tiên) sẽ chọn ra phản hồi phù hợp nhất với cấu trúc. Quá trình này dạy AI tự động ưu tiên các kết quả đầu ra phù hợp với các nguyên tắc cốt lõi của nó.

Một ví dụ thực tế quan trọng về CAI là việc triển khai nó trong trợ lý AI Claude của Anthropic. Cấu trúc của nó hướng dẫn nó tránh tạo ra các hướng dẫn có hại, từ chối tham gia vào các hoạt động bất hợp pháp và giao tiếp một cách không độc hại, đồng thời vẫn hữu ích. Một ứng dụng khác là kiểm duyệt nội dung tự động, trong đó mô hình do CAI điều khiển có thể được sử dụng để xác định và gắn cờ ngôn từ kích động thù địch hoặc thông tin sai lệch trực tuyến theo một bộ hướng dẫn đạo đức được xác định trước.

AI Hiến pháp so với các khái niệm liên quan

Điều quan trọng là phải phân biệt CAI với các thuật ngữ tương tự:

  • Học Tăng cường từ Phản hồi của Con người (RLHF) : RLHF dựa vào con người để cung cấp phản hồi và xếp hạng các phản hồi do AI tạo ra, vốn tốn thời gian và khó mở rộng quy mô. CAI thay thế vòng phản hồi của con người bằng vòng phản hồi do AI điều khiển, trong đó cấu trúc của mô hình sẽ định hướng phản hồi. Điều này giúp quá trình căn chỉnh có khả năng mở rộng và nhất quán hơn.
  • Đạo đức AI : Đây là một lĩnh vực rộng liên quan đến các nguyên tắc đạo đức và các vấn đề kỹ thuật trong việc tạo ra AI có trách nhiệm. AI Hiến pháp có thể được xem là một khuôn khổ thực tế để triển khai đạo đức AI bằng cách lồng ghép các quy tắc đạo đức rõ ràng trực tiếp vào quá trình đào tạo mô hình.

Ứng dụng và tiềm năng tương lai

Hiện tại, AI Hiến pháp chủ yếu được áp dụng cho các chương trình Thạc sĩ Luật (LLM) cho các nhiệm vụ như tạo hội thoại và tóm tắt văn bản . Tuy nhiên, các nguyên tắc cơ bản có khả năng mở rộng sang các lĩnh vực AI khác, bao gồm Thị giác Máy tính (CV) . Ví dụ:

Việc phát triển và tinh chỉnh các hiến pháp hiệu quả, cùng với việc đảm bảo AI tuân thủ chúng một cách trung thực trong nhiều bối cảnh khác nhau, vẫn là những lĩnh vực nghiên cứu tích cực trong các tổ chức như Google AIViện An toàn AI . Các công cụ như Ultralytics HUB hỗ trợ việc đào tạo và triển khai nhiều mô hình AI khác nhau, và việc kết hợp các nguyên tắc tương tự như AI Hiến pháp sẽ ngày càng trở nên quan trọng để đảm bảo việc triển khai mô hình một cách có trách nhiệm .

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard