Khám phá cách AI Hiến pháp đảm bảo các kết quả AI an toàn, đạo đức và không thiên vị bằng cách điều chỉnh các mô hình theo các nguyên tắc xác định trước và các giá trị của con người.
Trí tuệ nhân tạo Hiến pháp (CAI) là một phương pháp đào tạo được thiết kế để điều chỉnh các hệ thống Trí tuệ nhân tạo (AI) phù hợp với các giá trị nhân văn bằng cách nhúng một bộ quy tắc được xác định trước, hay còn gọi là "hiến pháp", trực tiếp vào quy trình đào tạo. Không giống như các phương pháp truyền thống phụ thuộc nhiều vào phản hồi của con người cho mỗi đầu ra cụ thể, CAI cho phép mô hình tự phê bình và điều chỉnh hành vi của chính nó dựa trên các nguyên tắc như tính hữu ích, tính trung thực và tính vô hại. Phương pháp này đáp ứng nhu cầu ngày càng tăng về An toàn AI bằng cách tự động hóa quy trình điều chỉnh, giúp đào tạo các trợ lý có năng lực, tuân thủ các nguyên tắc đạo đức mà không cần sự giám sát quá mức của con người. Bằng cách quản lý hành vi của mô hình thông qua các hướng dẫn rõ ràng, các nhà phát triển có thể giảm thiểu sự thiên vị của thuật toán và ngăn chặn việc tạo ra nội dung độc hại hoặc không an toàn.
Quy trình làm việc của AI Hiến pháp thường bao gồm hai giai đoạn riêng biệt, vượt ra ngoài học có giám sát tiêu chuẩn. Các giai đoạn này cho phép mô hình học hỏi từ phản hồi của chính nó, được hướng dẫn bởi hiến pháp, thay vì chỉ dựa vào các nhãn bên ngoài của con người.
Điều quan trọng là phải phân biệt CAI với Học tăng cường từ phản hồi của con người (RLHF) vì chúng đại diện cho các chiến lược khác nhau để căn chỉnh.
Trong khi AI Hiến pháp có nguồn gốc từ bối cảnh của Mô hình ngôn ngữ lớn (LLM) do các tổ chức như Anthropic phát triển, các nguyên tắc của nó ngày càng được áp dụng cho các nhiệm vụ học máy rộng hơn, bao gồm cả Thị giác máy tính (CV) .
Mặc dù việc đào tạo AI Hiến pháp đầy đủ liên quan đến các vòng phản hồi phức tạp, các nhà phát triển có thể áp dụng khái niệm "kiểm tra Hiến pháp" trong quá trình suy luận để lọc đầu ra dựa trên các chính sách an toàn. Ví dụ sau đây minh họa việc sử dụng YOLO11 để detect các đối tượng và áp dụng quy tắc an toàn giả định để lọc các phát hiện có độ tin cậy thấp, đảm bảo độ tin cậy cao.
from ultralytics import YOLO
# Load the YOLO11 model (latest stable Ultralytics release)
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
# Filter boxes with confidence > 0.5 to ensure reliability
safe_boxes = [box for box in result.boxes if box.conf > 0.5]
print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
# Further processing would only use 'safe_boxes'
Khi các mô hình phát triển theo hướng Trí tuệ Nhân tạo Tổng quát (AGI) , tầm quan trọng của các chiến lược liên kết mạnh mẽ như AI Hiến pháp ngày càng tăng. Những phương pháp này rất cần thiết để tuân thủ các tiêu chuẩn mới nổi từ các tổ chức như Viện An toàn AI NIST .
Ultralytics đang tích cực nghiên cứu cách tích hợp các tính năng an toàn và căn chỉnh vào vòng đời mô hình. Kiến trúc YOLO26 sắp ra mắt, hiện đang trong giai đoạn R&D, nhằm mục đích tích hợp các tính năng diễn giải nâng cao phù hợp với các mục tiêu an toàn này, đảm bảo việc triển khai mô hình luôn an toàn và hiệu quả trong mọi ngành. Ngoài ra, kiến trúc hợp nhất Ultralytics Nền tảng sẽ cung cấp các công cụ để quản lý dữ liệu và giám sát hành vi của mô hình, tạo điều kiện thuận lợi cho việc tạo ra các hệ thống AI có trách nhiệm.