Sự thiên vị trong AI
Khám phá cách xác định, giảm thiểu và ngăn ngừa sự thiên vị trong hệ thống AI bằng các chiến lược, công cụ và ví dụ thực tế để phát triển AI có đạo đức.
Thiên kiến trong AI đề cập đến các lỗi hệ thống hoặc định kiến trong kết quả đầu ra của hệ thống Trí tuệ Nhân tạo (AI) . Những thiên kiến này có thể dẫn đến kết quả không công bằng, bất bình đẳng hoặc phân biệt đối xử, thường gây bất lợi cho các nhóm hoặc quần thể cụ thể. Khi các hệ thống AI ngày càng được tích hợp sâu hơn vào các lĩnh vực quan trọng như chăm sóc sức khỏe và tài chính, việc hiểu và giảm thiểu thiên kiến đã trở thành một thách thức cốt lõi trong việc phát triển AI có trách nhiệm . Thiên kiến không chỉ là lỗi ngẫu nhiên thỉnh thoảng xuất hiện; mà là một mô hình lặp lại của các kết quả sai lệch phản ánh những sai sót tiềm ẩn trong dữ liệu hoặc thuật toán.
Nguồn gốc của sự thiên vị Ai
Sai lệch AI có thể xuất phát từ nhiều nguồn khác nhau trong suốt vòng đời phát triển mô hình. Các nguồn phổ biến nhất bao gồm:
- Sai lệch tập dữ liệu : Đây là nguyên nhân phổ biến nhất gây ra sai lệch AI. Điều này xảy ra khi dữ liệu đào tạo không đại diện cho thế giới thực hoặc nhóm đối tượng mục tiêu. Ví dụ, một tập dữ liệu cho một công cụ tuyển dụng được đào tạo chủ yếu dựa trên dữ liệu lịch sử từ một ngành công nghiệp do nam giới thống trị có thể học cách ưu tiên ứng viên nam. Điều này có thể biểu hiện dưới dạng sai lệch lấy mẫu (dữ liệu không được thu thập ngẫu nhiên), sai lệch lựa chọn (dữ liệu không đại diện cho môi trường) hoặc sai lệch đo lường ( gán nhãn dữ liệu không nhất quán). Việc tạo ra các tập dữ liệu cân bằng và đa dạng là bước đầu tiên quan trọng.
- Sai lệch thuật toán : Sai lệch này phát sinh từ chính thuật toán AI. Một số thuật toán có thể khuếch đại các sai lệch nhỏ trong dữ liệu, hoặc thiết kế của chúng có thể ưu tiên một số tính năng hơn các tính năng khác theo cách tạo ra kết quả không công bằng. Ví dụ, việc lựa chọn hàm mất mát có thể ảnh hưởng đến cách mô hình xử lý lỗi cho các nhóm con khác nhau.
- Thành kiến của con người: Các nhà phát triển, người chú thích dữ liệu và người dùng hệ thống AI có thể vô tình đưa những thành kiến nhận thức của riêng họ vào mô hình AI. Những thành kiến cá nhân và xã hội này có thể ảnh hưởng đến cách thức đặt vấn đề, cách thu thập và chú thích dữ liệu, cũng như cách diễn giải kết quả của mô hình.
Ví dụ thực tế
- Công nghệ Nhận dạng Khuôn mặt: Nhiều hệ thống nhận dạng khuôn mặt thương mại trước đây thường có tỷ lệ lỗi cao hơn khi nhận dạng cá nhân thuộc các nhóm nhân khẩu học chưa được đại diện đầy đủ, đặc biệt là phụ nữ và người da màu. Nghiên cứu của các tổ chức như NIST đã chứng minh những chênh lệch này , thường bắt nguồn từ các tập dữ liệu đào tạo chủ yếu là khuôn mặt nam giới da trắng.
- Công cụ Tuyển dụng Tự động: Một ví dụ nổi tiếng là một công cụ tuyển dụng thử nghiệm do Amazon phát triển, bị phát hiện có hành vi phạt hồ sơ xin việc chứa từ "dành cho nữ" và hạ điểm sinh viên tốt nghiệp từ hai trường đại học dành riêng cho nữ. Mô hình này đã học được những thành kiến này từ dữ liệu tuyển dụng lịch sử được gửi trong khoảng thời gian 10 năm, phản ánh sự thống trị của nam giới trong ngành công nghệ. Cuối cùng, Amazon đã từ bỏ dự án .
Sự thiên vị trong AI so với các thuật ngữ liên quan
Điều quan trọng là phải phân biệt sự thiên vị của AI với các khái niệm liên quan:
- Sai lệch thuật toán so với sai lệch AI: Sai lệch thuật toán là một loại sai lệch AI cụ thể bắt nguồn từ kiến trúc hoặc công thức toán học của mô hình. Sai lệch AI là thuật ngữ bao quát hơn, bao gồm cả sai lệch từ dữ liệu và sự can thiệp của con người.
- Sai lệch tập dữ liệu so với sai lệch AI: Sai lệch tập dữ liệu là nguyên nhân chính gây ra sai lệch AI. Một thuật toán được thiết kế hoàn toàn công bằng vẫn có thể tạo ra kết quả sai lệch nếu được huấn luyện trên dữ liệu không cân bằng hoặc có định kiến.
- Công bằng trong AI so với Định kiến AI: Công bằng trong AI là lĩnh vực chuyên giải quyết định kiến AI. Mặc dù định kiến là vấn đề, nhưng công bằng liên quan đến các nguyên tắc, chỉ số và kỹ thuật được sử dụng để xác định, đo lường và thúc đẩy kết quả công bằng.
Giải quyết vấn đề thiên vị Ai
Giảm thiểu sự thiên vị của AI là một quá trình liên tục đòi hỏi cách tiếp cận đa chiều trong suốt vòng đời phát triển AI:
Các nền tảng như Ultralytics HUB cung cấp các công cụ hỗ trợ phát triển các hệ thống AI công bằng hơn bằng cách cho phép quản lý tập dữ liệu cẩn thận, tạo điều kiện thuận lợi cho việc đào tạo mô hình tùy chỉnh và cho phép giám sát hiệu suất mô hình Ultralytics YOLO . Việc nâng cao nhận thức và lồng ghép các nguyên tắc công bằng, thường được thảo luận tại các diễn đàn như hội nghị ACM FAccT , đóng vai trò quan trọng trong việc tạo ra công nghệ mang lại lợi ích công bằng cho xã hội.