Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

AI Hiến pháp

Khám phá cách AI Hiến pháp đảm bảo các kết quả AI an toàn, đạo đức và không thiên vị bằng cách điều chỉnh các mô hình theo các nguyên tắc xác định trước và các giá trị của con người.

Trí tuệ nhân tạo Hiến pháp (CAI) là một phương pháp đào tạo được thiết kế để điều chỉnh các hệ thống Trí tuệ nhân tạo (AI) phù hợp với các giá trị nhân văn bằng cách nhúng một bộ quy tắc được xác định trước, hay còn gọi là "hiến pháp", trực tiếp vào quy trình đào tạo. Không giống như các phương pháp truyền thống phụ thuộc nhiều vào phản hồi của con người cho mỗi đầu ra cụ thể, CAI cho phép mô hình tự phê bình và điều chỉnh hành vi của chính nó dựa trên các nguyên tắc như tính hữu ích, tính trung thực và tính vô hại. Phương pháp này đáp ứng nhu cầu ngày càng tăng về An toàn AI bằng cách tự động hóa quy trình điều chỉnh, giúp đào tạo các trợ lý có năng lực, tuân thủ các nguyên tắc đạo đức mà không cần sự giám sát quá mức của con người. Bằng cách quản lý hành vi của mô hình thông qua các hướng dẫn rõ ràng, các nhà phát triển có thể giảm thiểu sự thiên vị của thuật toán và ngăn chặn việc tạo ra nội dung độc hại hoặc không an toàn.

Cách AI Hiến Pháp Hoạt Động

Quy trình làm việc của AI Hiến pháp thường bao gồm hai giai đoạn riêng biệt, vượt ra ngoài học có giám sát tiêu chuẩn. Các giai đoạn này cho phép mô hình học hỏi từ phản hồi của chính nó, được hướng dẫn bởi hiến pháp, thay vì chỉ dựa vào các nhãn bên ngoài của con người.

  1. Học có giám sát với Tự phê bình: Mô hình tạo ra phản hồi cho các gợi ý và sau đó tự phê bình kết quả đầu ra dựa trên các nguyên tắc của hiến pháp. Nếu phản hồi vi phạm quy tắc - ví dụ: thô lỗ hoặc thiên vị - mô hình sẽ sửa đổi. Điều này tạo ra một tập dữ liệu chất lượng cao gồm các ví dụ tuân thủ để huấn luyện mô hình .
  2. Học Tăng cường từ Phản hồi AI (RLAIF): Ở giai đoạn này, mô hình hoặc một mô hình phản hồi riêng biệt sẽ đánh giá các cặp phản hồi và chọn ra phản hồi phù hợp nhất với cấu trúc. Dữ liệu ưu tiên này được sử dụng để huấn luyện mô hình ưu tiên, sau đó hướng dẫn mô hình chính sử dụng Học Tăng cường . Điều này thay thế hiệu quả các nhãn ưu tiên của con người bằng nhãn do AI tạo ra, giúp đơn giản hóa quy trình tinh chỉnh .

AI Hiến pháp so với RLHF

Điều quan trọng là phải phân biệt CAI với Học tăng cường từ phản hồi của con người (RLHF) vì chúng đại diện cho các chiến lược khác nhau để căn chỉnh.

  • RLHF: Dựa vào người chú thích để đánh giá đầu ra của mô hình theo cách thủ công. Mặc dù hiệu quả, quy trình này khó mở rộng và có thể khiến người dùng tiếp xúc với nội dung gây nhiễu hoặc gây tổn thương trong quá trình gắn nhãn dữ liệu .
  • AI Hiến pháp: Sử dụng RLAIF để tự động hóa vòng lặp phản hồi. Bằng cách định nghĩa rõ ràng "hiến pháp", các nhà phát triển có được sự minh bạch hơn trong hành vi của AI , vì các quy tắc thúc đẩy quyết định được viết dưới dạng văn bản rõ ràng thay vì được học ngầm từ hàng nghìn đánh giá của con người. Điều này giúp tăng cường khả năng mở rộng và bảo vệ người chú thích.

Các Ứng dụng Thực tế

Trong khi AI Hiến pháp có nguồn gốc từ bối cảnh của Mô hình ngôn ngữ lớn (LLM) do các tổ chức như Anthropic phát triển, các nguyên tắc của nó ngày càng được áp dụng cho các nhiệm vụ học máy rộng hơn, bao gồm cả Thị giác máy tính (CV) .

  • Chatbot đạo đức: CAI được sử dụng rộng rãi để đào tạo các tác nhân đàm thoại từ chối tạo ra ngôn từ kích động thù địch, hướng dẫn thực hiện hành vi bất hợp pháp hoặc nội dung thiên vị chính trị. Điều này đảm bảo các công cụ AI tạo ra vẫn an toàn khi triển khai công khai.
  • Hệ thống Tầm nhìn An toàn Quan trọng: Trong xe tự hành , phương pháp tiếp cận "hiến pháp" có thể xác định các quy tắc phân cấp để ra quyết định. Ví dụ, quy tắc "an toàn của con người quan trọng hơn hiệu quả giao thông" có thể định hướng cho mô hình khi phân tích các cảnh đường phức tạp, đảm bảo kết quả phát hiện vật thể được diễn giải với sự an toàn là ưu tiên hàng đầu.

Triển khai Kiểm tra Chính sách trong Suy luận

Mặc dù việc đào tạo AI Hiến pháp đầy đủ liên quan đến các vòng phản hồi phức tạp, các nhà phát triển có thể áp dụng khái niệm "kiểm tra Hiến pháp" trong quá trình suy luận để lọc đầu ra dựa trên các chính sách an toàn. Ví dụ sau đây minh họa việc sử dụng YOLO11 để detect các đối tượng và áp dụng quy tắc an toàn giả định để lọc các phát hiện có độ tin cậy thấp, đảm bảo độ tin cậy cao.

from ultralytics import YOLO

# Load the YOLO11 model (latest stable Ultralytics release)
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
    # Filter boxes with confidence > 0.5 to ensure reliability
    safe_boxes = [box for box in result.boxes if box.conf > 0.5]

    print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
    # Further processing would only use 'safe_boxes'

Tương lai của sự liên kết AI

Khi các mô hình phát triển theo hướng Trí tuệ Nhân tạo Tổng quát (AGI) , tầm quan trọng của các chiến lược liên kết mạnh mẽ như AI Hiến pháp ngày càng tăng. Những phương pháp này rất cần thiết để tuân thủ các tiêu chuẩn mới nổi từ các tổ chức như Viện An toàn AI NIST .

Ultralytics đang tích cực nghiên cứu cách tích hợp các tính năng an toàn và căn chỉnh vào vòng đời mô hình. Kiến trúc YOLO26 sắp ra mắt, hiện đang trong giai đoạn R&D, nhằm mục đích tích hợp các tính năng diễn giải nâng cao phù hợp với các mục tiêu an toàn này, đảm bảo việc triển khai mô hình luôn an toàn và hiệu quả trong mọi ngành. Ngoài ra, kiến trúc hợp nhất Ultralytics Nền tảng sẽ cung cấp các công cụ để quản lý dữ liệu và giám sát hành vi của mô hình, tạo điều kiện thuận lợi cho việc tạo ra các hệ thống AI có trách nhiệm.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay