Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

AI Hiến pháp

Explore how Constitutional AI aligns models with ethical principles. Learn how to implement safety checks in computer vision using YOLO26 for more reliable AI.

Trí tuệ nhân tạo dựa trên hiến pháp là một phương pháp huấn luyện các hệ thống trí tuệ nhân tạo để phù hợp với các giá trị của con người bằng cách cung cấp cho chúng một tập hợp các nguyên tắc cấp cao—một "hiến pháp"—thay vì chỉ dựa vào phản hồi rộng rãi của con người về từng kết quả đầu ra riêng lẻ. Về cơ bản, phương pháp này dạy mô hình AI cách phê phán và điều chỉnh hành vi của chính nó dựa trên một tập hợp các quy tắc được xác định trước, chẳng hạn như "hãy hữu ích", "hãy vô hại" và "tránh phân biệt đối xử". Bằng cách nhúng trực tiếp các hướng dẫn đạo đức này vào quá trình huấn luyện, các nhà phát triển có thể tạo ra các hệ thống an toàn hơn, minh bạch hơn và dễ mở rộng hơn so với các hệ thống phụ thuộc vào Học tăng cường thủ công từ phản hồi của con người (RLHF) .

Cơ chế của Trí tuệ nhân tạo Hiến pháp

Điểm đột phá cốt lõi của Trí tuệ Nhân tạo Hiến pháp nằm ở quy trình huấn luyện hai giai đoạn, tự động hóa việc điều chỉnh mô hình. Không giống như học có giám sát truyền thống, nơi con người phải gắn nhãn cho từng câu trả lời đúng, Trí tuệ Nhân tạo Hiến pháp sử dụng chính mô hình để tạo ra dữ liệu huấn luyện.

  1. Giai đoạn học có giám sát : Mô hình tạo ra các phản hồi cho các câu hỏi gợi ý, sau đó tự đánh giá kết quả đầu ra dựa trên các nguyên tắc hiến pháp. Nó điều chỉnh phản hồi để phù hợp hơn với các quy tắc. Tập dữ liệu đã được tinh chỉnh này sau đó được sử dụng để tinh chỉnh mô hình, dạy cho nó tuân thủ các hướng dẫn một cách tự nhiên.
  2. Giai đoạn Học Tăng Cường : Giai đoạn này, thường được gọi là Học Tăng Cường từ Phản Hồi của AI (RLAIF) , thay thế người gắn nhãn. AI tạo ra các cặp phản hồi và chọn phản hồi phù hợp nhất với hiến pháp. Dữ liệu ưu tiên này được sử dụng để huấn luyện mô hình phần thưởng, sau đó củng cố các hành vi mong muốn thông qua các kỹ thuật học tăng cường tiêu chuẩn.

Sự liên quan đến thị giác máy tính

Mặc dù Trí tuệ Nhân tạo Hiến pháp (Constitutional AI) có nguồn gốc từ bối cảnh của Mô hình Ngôn ngữ Lớn (Large Language Models - LLM) được phát triển bởi các tổ chức như Anthropic , nhưng các nguyên tắc của nó ngày càng trở nên phù hợp hơn với các nhiệm vụ học máy rộng hơn, bao gồm cả Thị giác Máy tính (Computer Vision - CV) .

  • Tạo ảnh có đạo đức : Các công cụ AI tạo ảnh có thể được huấn luyện "theo hiến pháp" để từ chối các yêu cầu tạo ra hình ảnh bạo lực, thù hận hoặc vi phạm bản quyền. Điều này đảm bảo rằng trọng số của mô hình tự mã hóa các ràng buộc an toàn, ngăn chặn việc tạo ra nội dung hình ảnh có hại.
  • Hệ thống thị giác an toàn trọng yếu : Trong xe tự hành , một cách tiếp cận "mang tính hiến pháp" có thể định nghĩa các quy tắc phân cấp cho việc ra quyết định. Ví dụ, một quy tắc nêu rõ "an toàn của con người quan trọng hơn hiệu quả giao thông" có thể hướng dẫn mô hình khi phân tích các cảnh đường phức tạp, đảm bảo rằng kết quả phát hiện vật thể được diễn giải với ưu tiên hàng đầu là an toàn.

Triển khai kiểm tra chính sách trong Trí tuệ nhân tạo thị giác

Mặc dù quá trình huấn luyện Trí tuệ Nhân tạo Tuân thủ Hiến pháp đầy đủ bao gồm các vòng phản hồi phức tạp, các nhà phát triển có thể áp dụng khái niệm "kiểm tra tuân thủ hiến pháp" trong quá trình suy luận để lọc đầu ra dựa trên các chính sách an toàn. Ví dụ sau đây minh họa việc sử dụng YOLO26 để... detect các đối tượng và áp dụng quy tắc an toàn để lọc các phát hiện có độ tin cậy thấp, mô phỏng cấu trúc độ tin cậy.

from ultralytics import YOLO

# Load the YOLO26 model (latest stable Ultralytics release)
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
    # Filter boxes with confidence > 0.5 to ensure reliability
    safe_boxes = [box for box in result.boxes if box.conf > 0.5]

    print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
    # Further processing would only use 'safe_boxes'

Trí tuệ nhân tạo theo hiến pháp so với trí tuệ nhân tạo truyền thống (RLHF).

Điều quan trọng là phải phân biệt Trí tuệ nhân tạo dựa trên hiến pháp (Constitutional AI) với phương pháp Học tăng cường dựa trên phản hồi của con người (Reinforcement Learning from Human Feedback - RLHF) tiêu chuẩn.

  • Khả năng mở rộng : RLHF yêu cầu lượng lớn nhân lực để đánh giá kết quả đầu ra của mô hình, điều này tốn kém và chậm. Constitutional AI tự động hóa quá trình này bằng các tác nhân AI , giúp nó có khả năng mở rộng cao.
  • Tính minh bạch : Trong RLHF, mô hình học hỏi từ một "tín hiệu khen thưởng" (điểm số) không rõ ràng, khiến khó biết tại sao một hành vi lại được ưu tiên. Trong Trí tuệ Nhân tạo Hiến pháp, chuỗi suy luận được sử dụng trong giai đoạn phê bình giúp làm rõ lý luận và có thể truy vết đến các nguyên tắc cụ thể đã được viết ra.
  • Tính nhất quán : Người đánh giá có thể không nhất quán hoặc thiên vị. Một bản hiến pháp bằng văn bản cung cấp một nền tảng ổn định cho đạo đức AI , giảm thiểu tính chủ quan trong quá trình điều chỉnh.

Tương lai của sự đồng bộ

Khi các mô hình phát triển theo hướng Trí tuệ Nhân tạo Tổng quát (AGI) , tầm quan trọng của các chiến lược liên kết mạnh mẽ như AI Hiến pháp ngày càng tăng. Những phương pháp này rất cần thiết để tuân thủ các tiêu chuẩn mới nổi từ các tổ chức như Viện An toàn AI NIST .

Nền tảng Ultralytics cung cấp các công cụ để quản lý quản trị dữ liệu và giám sát mô hình , tạo điều kiện thuận lợi cho việc xây dựng các hệ thống AI có trách nhiệm. Bằng cách tích hợp những cân nhắc về đạo đức này vào vòng đời phát triển AI — từ thu thập dữ liệu đến triển khai mô hình — các tổ chức có thể giảm thiểu rủi ro và đảm bảo công nghệ của họ đóng góp tích cực cho xã hội.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay