Constitutional AI nhằm mục đích căn chỉnh các mô hình AI với giá trị con người
Tìm hiểu cách constitutional AI giúp các mô hình tuân theo các quy tắc đạo đức, đưa ra quyết định an toàn hơn và hỗ trợ sự công bằng trong các hệ thống ngôn ngữ và computer vision.

Trí tuệ nhân tạo (AI) đang nhanh chóng trở thành một phần quan trọng trong cuộc sống hàng ngày của chúng ta. Nó đang được tích hợp vào các công cụ được sử dụng trong các lĩnh vực như chăm sóc sức khỏe, tuyển dụng, tài chính và an toàn công cộng. Khi các hệ thống này mở rộng, những lo ngại về đạo đức và độ tin cậy của chúng cũng bắt đầu được nêu ra.
Ví dụ, đôi khi các hệ thống AI được xây dựng mà không xem xét đến tính công bằng hoặc an toàn có thể tạo ra các kết quả bị thiên kiến hoặc thiếu tin cậy. Điều này là do nhiều mô hình vẫn chưa có cách rõ ràng để phản ánh và căn chỉnh theo các giá trị nhân văn.
Để giải quyết những thách thức này, các nhà nghiên cứu hiện đang khám phá một phương pháp được gọi là constitutional AI. Nói một cách đơn giản, phương pháp này giới thiệu một bộ nguyên tắc bằng văn bản vào quy trình đào tạo của mô hình. Các nguyên tắc này giúp mô hình tự đánh giá hành vi của chính mình, giảm bớt sự phụ thuộc vào phản hồi của con người, đồng thời giúp các phản hồi trở nên an toàn và dễ hiểu hơn.
Cho đến nay, phương pháp này chủ yếu được áp dụng đối với các mô hình ngôn ngữ lớn (LLMs). Tuy nhiên, cấu trúc tương tự có thể giúp hướng dẫn các hệ thống computer vision đưa ra các quyết định có đạo đức trong khi phân tích dữ liệu hình ảnh.
Trong bài viết này, chúng ta sẽ khám phá cách thức hoạt động của constitutional AI, xem xét các ví dụ thực tế và thảo luận về các ứng dụng tiềm năng của nó trong các hệ thống computer vision.

Hình 1. Các đặc điểm của constitutional AI. Hình ảnh bởi tác giả.
Link to this sectionConstitutional AI là gì?#
Constitutional AI là một phương pháp model training định hướng cách hành xử của các mô hình AI bằng cách cung cấp một bộ quy tắc đạo đức rõ ràng. Các quy tắc này đóng vai trò như một bộ quy tắc ứng xử. Thay vì dựa vào việc mô hình phải tự suy diễn xem điều gì là chấp nhận được, nó sẽ tuân theo một bộ nguyên tắc bằng văn bản định hình các phản hồi của mình trong quá trình training.
Khái niệm này được giới thiệu bởi Anthropic, một công ty nghiên cứu tập trung vào an toàn AI, đơn vị đã phát triển dòng LLM Claude như một phương pháp giúp các hệ thống AI tự giám sát tốt hơn trong việc ra quyết định.
Thay vì chỉ dựa vào phản hồi của con người, mô hình học cách phê bình và tinh chỉnh các phản hồi của chính mình dựa trên một bộ nguyên tắc được xác định trước. Cách tiếp cận này tương tự như một hệ thống pháp luật, nơi một thẩm phán tham khảo hiến pháp trước khi đưa ra phán quyết.
Trong trường hợp này, mô hình trở thành cả thẩm phán và học viên, sử dụng cùng một bộ quy tắc để xem xét và tinh chỉnh hành vi của chính mình. Quy trình này củng cố khả năng căn chỉnh của mô hình AI và hỗ trợ phát triển các hệ thống AI an toàn và có trách nhiệm.
Link to this sectionConstitutional AI hoạt động như thế nào?#
Mục tiêu của constitutional AI là dạy cho một mô hình AI cách đưa ra các quyết định an toàn và công bằng bằng cách tuân theo một bộ quy tắc bằng văn bản rõ ràng. Dưới đây là tóm tắt đơn giản về cách quy trình này hoạt động:
- Xác định hiến pháp: Một danh sách các nguyên tắc đạo đức bằng văn bản mà mô hình cần tuân theo được tạo ra. Hiến pháp phác thảo những gì AI nên tránh và những giá trị nào nó nên phản ánh.
- Đào tạo với các ví dụ supervised: Mô hình được hiển thị các phản hồi mẫu tuân thủ theo hiến pháp. Các ví dụ này giúp AI hiểu hành vi chấp nhận được trông như thế nào.
- Nhận diện và áp dụng các khuôn mẫu: Theo thời gian, mô hình bắt đầu nắm bắt được các khuôn mẫu này. Nó học cách áp dụng các giá trị tương tự khi trả lời các câu hỏi mới hoặc xử lý các tình huống mới.
- Phê bình và tinh chỉnh đầu ra: Mô hình xem xét các phản hồi của chính mình và điều chỉnh chúng dựa trên hiến pháp. Giai đoạn tự đánh giá này giúp nó cải thiện mà không chỉ dựa vào phản hồi của con người.
- Tạo ra các phản hồi an toàn và được căn chỉnh: Mô hình học từ các quy tắc nhất quán, giúp giảm bớt thiên kiến và cải thiện độ tin cậy trong thực tế sử dụng. Cách tiếp cận này giúp AI căn chỉnh tốt hơn với các giá trị nhân văn và dễ quản lý hơn.

Hình 2. Tổng quan về việc sử dụng AI theo hiến pháp để huấn luyện các model.
Link to this sectionCác nguyên tắc cốt lõi của thiết kế AI đạo đức#
Để một mô hình AI tuân theo các quy tắc đạo đức, trước hết những quy tắc đó cần phải được xác định rõ ràng. Khi nói đến constitutional AI, các quy tắc này dựa trên một bộ các nguyên tắc cốt lõi.
Ví dụ, dưới đây là bốn nguyên tắc tạo nên nền tảng của một hiến pháp AI hiệu quả:
- Tính minh bạch: Cần phải dễ dàng hiểu được cách mô hình đi đến câu trả lời. Nếu một phản hồi dựa trên dữ kiện, ước tính hoặc các khuôn mẫu, nó sẽ minh bạch đối với người dùng. Điều này xây dựng lòng tin và giúp mọi người đánh giá xem họ có thể dựa vào đầu ra của mô hình hay không.
- Sự bình đẳng: Các phản hồi nên duy trì tính nhất quán giữa những người dùng khác nhau. Mô hình không nên thay đổi đầu ra dựa trên tên, xuất thân hoặc vị trí của một người. Sự bình đẳng giúp ngăn ngừa thiên kiến và thúc đẩy sự đối xử công bằng.
- Trách nhiệm giải trình: Cần có cách để truy xuất nguồn gốc cách một mô hình được đào tạo và điều gì đã ảnh hưởng đến hành vi của nó. Khi có sự cố xảy ra, các nhóm cần có khả năng xác định nguyên nhân và cải thiện nó. Điều này hỗ trợ tính minh bạch và trách nhiệm giải trình lâu dài.
- Tính an toàn: Các mô hình cần tránh tạo ra nội dung có thể gây hại. Nếu một yêu cầu dẫn đến các đầu ra rủi ro hoặc không an toàn, hệ thống phải nhận diện được điều đó và dừng lại. Điều này bảo vệ cả người dùng và sự toàn vẹn của hệ thống.
Link to this sectionVí dụ về constitutional AI trong các mô hình ngôn ngữ lớn#
Constitutional AI đã chuyển từ lý thuyết sang thực hành và hiện đang dần được sử dụng trong các mô hình lớn tương tác với hàng triệu người dùng. Hai trong số những ví dụ phổ biến nhất là các LLM từ OpenAI và Anthropic.
Mặc dù cả hai tổ chức đều có cách tiếp cận khác nhau để tạo ra các hệ thống AI đạo đức hơn, họ đều chia sẻ một ý tưởng chung: dạy cho mô hình tuân theo một bộ nguyên tắc hướng dẫn bằng văn bản. Hãy cùng xem xét kỹ hơn các ví dụ này.
Link to this sectionCách tiếp cận constitutional AI của OpenAI#
OpenAI đã giới thiệu một tài liệu có tên là Model Spec như một phần của quy trình đào tạo cho các mô hình ChatGPT của mình. Tài liệu này đóng vai trò như một hiến pháp. Nó phác thảo những gì mô hình nên hướng tới trong các phản hồi của mình, bao gồm các giá trị như tính hữu ích, trung thực và an toàn. Nó cũng xác định những gì được coi là đầu ra có hại hoặc gây hiểu lầm.
Khung làm việc này đã được sử dụng để tinh chỉnh các mô hình của OpenAI bằng cách đánh giá các phản hồi theo mức độ phù hợp với các quy tắc. Theo thời gian, điều này đã giúp định hình ChatGPT sao cho nó tạo ra ít đầu ra có hại hơn và căn chỉnh tốt hơn với những gì người dùng thực sự mong muốn.

Hình 3. Một ví dụ về ChatGPT sử dụng Model Spec của OpenAI để phản hồi.
Link to this sectionCác mô hình AI đạo đức của Anthropic#
Hiến pháp mà mô hình Claude của Anthropic tuân theo dựa trên các nguyên tắc đạo đức từ các nguồn như Tuyên ngôn Quốc tế Nhân quyền, các hướng dẫn nền tảng như điều khoản dịch vụ của Apple, và nghiên cứu từ các phòng thí nghiệm AI khác. Các nguyên tắc này giúp đảm bảo rằng các phản hồi của Claude là an toàn, công bằng và căn chỉnh với các giá trị nhân văn quan trọng.
Claude cũng sử dụng Reinforcement Learning from AI Feedback (RLAIF), trong đó nó xem xét và điều chỉnh các phản hồi của chính mình dựa trên các hướng dẫn đạo đức này, thay vì dựa vào phản hồi từ con người. Quy trình này cho phép Claude cải thiện theo thời gian, giúp nó có khả năng mở rộng tốt hơn và cung cấp các câu trả lời hữu ích, đạo đức và không gây hại, ngay cả trong các tình huống khó khăn.

Hình 4. Hiểu về cách tiếp cận của Anthropic đối với constitutional AI.
Link to this sectionÁp dụng constitutional AI vào computer vision#
Vì constitutional AI đang ảnh hưởng tích cực đến cách hành xử của các mô hình ngôn ngữ, điều này tự nhiên dẫn đến câu hỏi: Liệu một cách tiếp cận tương tự có thể giúp các hệ thống dựa trên hình ảnh phản hồi công bằng và an toàn hơn không?
Mặc dù các mô hình computer vision làm việc với hình ảnh thay vì văn bản, nhu cầu về hướng dẫn đạo đức cũng quan trọng không kém. Ví dụ, tính công bằng và thiên kiến là những yếu tố chính cần xem xét, vì các hệ thống này cần được đào tạo để đối xử bình đẳng với mọi người và tránh các kết quả có hại hoặc bất công khi phân tích dữ liệu hình ảnh.

Hình 5. Các thách thức đạo đức liên quan đến computer vision. Hình ảnh bởi tác giả.
Hiện tại, việc sử dụng các phương pháp constitutional AI trong computer vision vẫn đang được khám phá và đang ở giai đoạn đầu, với các nghiên cứu đang diễn ra trong lĩnh vực này.
Ví dụ, Meta gần đây đã giới thiệu CLUE, một khung làm việc áp dụng tư duy giống như hiến pháp vào các tác vụ an toàn hình ảnh. Nó biến các quy tắc an toàn rộng lớn thành các bước chính xác mà AI đa phương thức (các hệ thống AI xử lý và hiểu nhiều loại dữ liệu) có thể tuân theo. Điều này giúp hệ thống suy luận rõ ràng hơn và giảm bớt các kết quả có hại.
Ngoài ra, CLUE giúp các đánh giá về an toàn hình ảnh hiệu quả hơn bằng cách đơn giản hóa các quy tắc phức tạp, cho phép các mô hình AI hành động nhanh chóng và chính xác mà không cần nhiều sự đầu vào từ con người. Bằng cách sử dụng một bộ nguyên tắc hướng dẫn, CLUE làm cho các hệ thống kiểm duyệt hình ảnh có khả năng mở rộng tốt hơn trong khi vẫn đảm bảo kết quả chất lượng cao.
Link to this sectionCác điểm chính cần lưu ý#
Khi các hệ thống AI đảm nhận nhiều trách nhiệm hơn, trọng tâm đang chuyển dịch từ việc chúng có thể làm gì sang việc chúng nên làm gì. Sự chuyển dịch này là then chốt vì các hệ thống này được sử dụng trong các lĩnh vực tác động trực tiếp đến cuộc sống con người, như chăm sóc sức khỏe, thực thi pháp luật và giáo dục.
Để đảm bảo các hệ thống AI hành động một cách phù hợp và có đạo đức, chúng cần một nền tảng vững chắc và nhất quán. Nền tảng này nên ưu tiên tính công bằng, an toàn và tin cậy.
Một hiến pháp bằng văn bản có thể cung cấp nền tảng đó trong quá trình đào tạo, định hướng quy trình ra quyết định của hệ thống. Nó cũng có thể cung cấp cho các nhà phát triển một khung làm việc để xem xét và điều chỉnh hành vi của hệ thống sau khi triển khai, đảm bảo nó tiếp tục căn chỉnh với các giá trị mà nó được thiết kế để duy trì, đồng thời giúp dễ dàng thích nghi hơn khi các thách thức mới nảy sinh.
Hãy tham gia cộng đồng đang phát triển của chúng tôi ngay hôm nay! Tìm hiểu sâu hơn về AI bằng cách khám phá kho lưu trữ GitHub của chúng tôi. Bạn đang muốn xây dựng các dự án computer vision của riêng mình? Hãy khám phá các tùy chọn cấp phép của chúng tôi. Tìm hiểu cách computer vision trong chăm sóc sức khỏe đang cải thiện hiệu quả và khám phá tác động của AI trong sản xuất bằng cách ghé thăm các trang giải pháp của chúng tôi!






