Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Sai lệch trong AI

Khám phá cách xác định, giảm thiểu và ngăn chặn sự thiên vị trong các hệ thống AI bằng các chiến lược, công cụ và ví dụ thực tế để phát triển AI có đạo đức.

Độ lệch trong AI đề cập đến các lỗi hoặc định kiến có hệ thống trong đầu ra của một hệ thống Trí tuệ nhân tạo (AI). Những độ lệch này có thể dẫn đến các kết quả không công bằng, bất bình đẳng hoặc phân biệt đối xử, thường gây bất lợi cho các nhóm hoặc quần thể cụ thể. Khi các hệ thống AI ngày càng được tích hợp vào các lĩnh vực quan trọng như chăm sóc sức khỏe và tài chính, việc hiểu và giảm thiểu độ lệch đã trở thành một thách thức trung tâm trong phát triển AI có trách nhiệm. Độ lệch không phải là về lỗi ngẫu nhiên thỉnh thoảng; nó là một mô hình lặp đi lặp lại của các kết quả sai lệch phản ánh những thiếu sót tiềm ẩn trong dữ liệu hoặc thuật toán.

Các nguồn gây ra sai lệch AI

Độ lệch AI có thể bắt nguồn từ nhiều nguồn khác nhau trong suốt vòng đời phát triển mô hình. Các nguồn phổ biến nhất bao gồm:

  • Độ lệch tập dữ liệu (Dataset Bias): Đây là nguồn gốc phổ biến nhất của độ lệch AI. Nó xảy ra khi dữ liệu huấn luyện (training data) không đại diện cho thế giới thực hoặc quần thể mục tiêu. Ví dụ: một tập dữ liệu cho một công cụ tuyển dụng được huấn luyện chủ yếu trên dữ liệu lịch sử từ một ngành do nam giới chiếm ưu thế có thể học cách ưu tiên các ứng viên nam. Điều này có thể biểu hiện dưới dạng độ lệch lấy mẫu (dữ liệu không được thu thập ngẫu nhiên), độ lệch chọn lọc (dữ liệu không đại diện cho môi trường) hoặc độ lệch đo lường (gán nhãn dữ liệu (data labeling) không nhất quán). Tạo tập dữ liệu (datasets) cân bằng và đa dạng là một bước quan trọng đầu tiên.
  • Độ lệch thuật toán: Độ lệch này phát sinh từ chính thuật toán AI. Một số thuật toán có thể vốn đã khuếch đại những độ lệch nhỏ có trong dữ liệu, hoặc thiết kế của chúng có thể ưu tiên các tính năng nhất định hơn những tính năng khác theo cách tạo ra kết quả không công bằng. Ví dụ: việc lựa chọn hàm mất mát có thể ảnh hưởng đến cách mô hình phạt các lỗi cho các nhóm con khác nhau.
  • Độ lệch chủ quan của con người: Các nhà phát triển, người chú thích dữ liệu và người dùng của hệ thống AI có thể vô tình đưa những thành kiến nhận thức của riêng họ vào mô hình AI. Những thành kiến cá nhân và xã hội này có thể ảnh hưởng đến cách các vấn đề được xây dựng, cách dữ liệu được thu thập và chú thích, và cách các kết quả của mô hình được giải thích.

Các ví dụ thực tế

  1. Công nghệ nhận diện khuôn mặt: Nhiều hệ thống nhận diện khuôn mặt thương mại trong lịch sử đã cho thấy tỷ lệ lỗi cao hơn khi xác định các cá nhân từ các nhóm nhân khẩu học ít được đại diện, đặc biệt là phụ nữ và người da màu. Nghiên cứu của các tổ chức như NIST đã chứng minh sự khác biệt này, thường bắt nguồn từ các bộ dữ liệu huấn luyện chủ yếu có khuôn mặt của nam giới da trắng.
  2. Công cụ tuyển dụng tự động: Một ví dụ nổi tiếng là một công cụ tuyển dụng thử nghiệm được phát triển bởi Amazon, công cụ này bị phát hiện là phạt các hồ sơ có chứa từ "women's" và hạ cấp sinh viên tốt nghiệp từ hai trường cao đẳng toàn nữ. Mô hình này đã học được những thành kiến này từ dữ liệu tuyển dụng lịch sử được gửi trong khoảng thời gian 10 năm, phản ánh sự thống trị của nam giới trong ngành công nghệ. Cuối cùng Amazon đã từ bỏ dự án.

Độ lệch trong AI so với các thuật ngữ liên quan

Điều quan trọng là phải phân biệt sự thiên vị của AI với các khái niệm liên quan:

  • Độ lệch thuật toán so với Độ lệch AI: Độ lệch thuật toán là một loại cụ thể của độ lệch AI bắt nguồn từ kiến trúc hoặc công thức toán học của mô hình. Độ lệch AI là thuật ngữ ô rộng hơn cũng bao gồm độ lệch từ dữ liệu và sự can thiệp của con người.
  • Độ lệch tập dữ liệu so với độ lệch AI: Độ lệch tập dữ liệu là một nguyên nhân chính gây ra độ lệch AI. Một thuật toán hoàn toàn công bằng trong thiết kế của nó vẫn có thể tạo ra kết quả sai lệch nếu nó được huấn luyện trên dữ liệu không cân bằng hoặc thành kiến.
  • Tính công bằng trong AI so với Độ lệch AI: Tính công bằng trong AI là lĩnh vực chuyên giải quyết độ lệch AI. Trong khi độ lệch là vấn đề, thì tính công bằng liên quan đến các nguyên tắc, số liệu và kỹ thuật được sử dụng để xác định, đo lường và thúc đẩy các kết quả công bằng.

Giải quyết vấn đề sai lệch trong AI

Giảm thiểu sai lệch AI là một quá trình liên tục đòi hỏi một cách tiếp cận đa diện trong suốt vòng đời phát triển AI:

Các nền tảng như Ultralytics HUB cung cấp các công cụ hỗ trợ phát triển các hệ thống AI công bằng hơn bằng cách cho phép quản lý bộ dữ liệu cẩn thận, tạo điều kiện huấn luyện mô hình tùy chỉnh và cho phép theo dõi hiệu suất mô hình Ultralytics YOLO. Nâng cao nhận thức và nhúng các nguyên tắc công bằng, thường được thảo luận trong các diễn đàn như hội nghị ACM FAccT, là rất quan trọng để tạo ra công nghệ mang lại lợi ích cho xã hội một cách công bằng.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard