Explore how Constitutional AI aligns models with ethical principles. Learn how to implement safety checks in computer vision using YOLO26 for more reliable AI.
Trí tuệ nhân tạo dựa trên hiến pháp là một phương pháp huấn luyện các hệ thống trí tuệ nhân tạo để phù hợp với các giá trị của con người bằng cách cung cấp cho chúng một tập hợp các nguyên tắc cấp cao—một "hiến pháp"—thay vì chỉ dựa vào phản hồi rộng rãi của con người về từng kết quả đầu ra riêng lẻ. Về cơ bản, phương pháp này dạy mô hình AI cách phê phán và điều chỉnh hành vi của chính nó dựa trên một tập hợp các quy tắc được xác định trước, chẳng hạn như "hãy hữu ích", "hãy vô hại" và "tránh phân biệt đối xử". Bằng cách nhúng trực tiếp các hướng dẫn đạo đức này vào quá trình huấn luyện, các nhà phát triển có thể tạo ra các hệ thống an toàn hơn, minh bạch hơn và dễ mở rộng hơn so với các hệ thống phụ thuộc vào Học tăng cường thủ công từ phản hồi của con người (RLHF) .
Điểm đột phá cốt lõi của Trí tuệ Nhân tạo Hiến pháp nằm ở quy trình huấn luyện hai giai đoạn, tự động hóa việc điều chỉnh mô hình. Không giống như học có giám sát truyền thống, nơi con người phải gắn nhãn cho từng câu trả lời đúng, Trí tuệ Nhân tạo Hiến pháp sử dụng chính mô hình để tạo ra dữ liệu huấn luyện.
Mặc dù Trí tuệ Nhân tạo Hiến pháp (Constitutional AI) có nguồn gốc từ bối cảnh của Mô hình Ngôn ngữ Lớn (Large Language Models - LLM) được phát triển bởi các tổ chức như Anthropic , nhưng các nguyên tắc của nó ngày càng trở nên phù hợp hơn với các nhiệm vụ học máy rộng hơn, bao gồm cả Thị giác Máy tính (Computer Vision - CV) .
Mặc dù quá trình huấn luyện Trí tuệ Nhân tạo Tuân thủ Hiến pháp đầy đủ bao gồm các vòng phản hồi phức tạp, các nhà phát triển có thể áp dụng khái niệm "kiểm tra tuân thủ hiến pháp" trong quá trình suy luận để lọc đầu ra dựa trên các chính sách an toàn. Ví dụ sau đây minh họa việc sử dụng YOLO26 để... detect các đối tượng và áp dụng quy tắc an toàn để lọc các phát hiện có độ tin cậy thấp, mô phỏng cấu trúc độ tin cậy.
from ultralytics import YOLO
# Load the YOLO26 model (latest stable Ultralytics release)
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
# Filter boxes with confidence > 0.5 to ensure reliability
safe_boxes = [box for box in result.boxes if box.conf > 0.5]
print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
# Further processing would only use 'safe_boxes'
Điều quan trọng là phải phân biệt Trí tuệ nhân tạo dựa trên hiến pháp (Constitutional AI) với phương pháp Học tăng cường dựa trên phản hồi của con người (Reinforcement Learning from Human Feedback - RLHF) tiêu chuẩn.
Khi các mô hình phát triển theo hướng Trí tuệ Nhân tạo Tổng quát (AGI) , tầm quan trọng của các chiến lược liên kết mạnh mẽ như AI Hiến pháp ngày càng tăng. Những phương pháp này rất cần thiết để tuân thủ các tiêu chuẩn mới nổi từ các tổ chức như Viện An toàn AI NIST .
Nền tảng Ultralytics cung cấp các công cụ để quản lý quản trị dữ liệu và giám sát mô hình , tạo điều kiện thuận lợi cho việc xây dựng các hệ thống AI có trách nhiệm. Bằng cách tích hợp những cân nhắc về đạo đức này vào vòng đời phát triển AI — từ thu thập dữ liệu đến triển khai mô hình — các tổ chức có thể giảm thiểu rủi ro và đảm bảo công nghệ của họ đóng góp tích cực cho xã hội.