Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Sai lệch trong AI

Khám phá cách xác định, giảm thiểu và ngăn chặn sự thiên vị trong các hệ thống AI bằng các chiến lược, công cụ và ví dụ thực tế để phát triển AI có đạo đức.

Định kiến trong AI đề cập đến các lỗi hệ thống hoặc định kiến tiềm ẩn trong hệ thống Trí tuệ Nhân tạo (AI) dẫn đến kết quả không công bằng, bất bình đẳng hoặc phân biệt đối xử. Không giống như các lỗi ngẫu nhiên, những định kiến này nhất quán và có thể lặp lại, thường ưu tiên một nhóm người dùng hoặc dữ liệu đầu vào tùy ý hơn những nhóm khác. Khi các tổ chức ngày càng tích hợp Học máy (ML) vào các quy trình ra quyết định quan trọng, việc nhận biết và giải quyết định kiến đã trở thành một trụ cột cốt lõi của Đạo đức AI . Việc không giảm thiểu những vấn đề này có thể dẫn đến kết quả sai lệch trong các ứng dụng, từ AI trong chẩn đoán chăm sóc sức khỏe đến cho vay tài chính tự động.

Nguồn gốc của sự thiên vị trong hệ thống AI

Sự thiên vị có thể xâm nhập vào hệ thống AI ở nhiều giai đoạn khác nhau của vòng đời phát triển. Việc hiểu rõ những nguồn gốc này là điều cần thiết để tạo ra các mô hình mạnh mẽ và công bằng.

  • Sai lệch tập dữ liệu : Đây là nguyên nhân phổ biến nhất, xảy ra khi dữ liệu huấn luyện được sử dụng để dạy mô hình không đại diện chính xác cho dân số thực tế. Ví dụ: nếu một mô hình phân loại hình ảnh được huấn luyện chủ yếu trên hình ảnh từ các nước phương Tây, nó có thể gặp khó khăn trong việc nhận dạng các vật thể hoặc cảnh từ các khu vực khác, một hiện tượng thường liên quan đến sai lệch lựa chọn .
  • Sai lệch thuật toán : Đôi khi, thiết kế toán học của chính thuật toán có thể khuếch đại những chênh lệch hiện có. Một số thuật toán tối ưu hóa có thể ưu tiên độ chính xác tổng thể hơn là các nhóm con chưa được đại diện đầy đủ, do đó bỏ qua các "giá trị ngoại lệ" đại diện cho các nhóm thiểu số hợp lệ.
  • Thành kiến về nhận thức và con người: Những lựa chọn chủ quan của các kỹ sư trong quá trình gắn nhãn dữ liệu hoặc lựa chọn tính năng có thể vô tình mã hóa những định kiến của con người vào hệ thống.

Ứng dụng và ý nghĩa thực tế

Hậu quả của sự thiên vị AI có thể quan sát được ở nhiều công nghệ được triển khai khác nhau.

  1. Chênh lệch nhận dạng khuôn mặt: Các hệ thống nhận dạng khuôn mặt thương mại trước đây thường có tỷ lệ lỗi cao hơn khi nhận dạng phụ nữ và người da màu. Các dự án nghiên cứu như Gender Shades đã chỉ ra cách các tập dữ liệu không mang tính đại diện dẫn đến hiệu suất kém đối với một số nhóm nhân khẩu học cụ thể, thúc đẩy việc kêu gọi cải thiện các tiêu chuẩn về quyền riêng tư và tính bao trùm của dữ liệu .
  2. Cảnh sát Dự đoán và Tái phạm: Các thuật toán được sử dụng để dự đoán tái phạm tội phạm đã bị chỉ trích vì thể hiện sự thiên vị chủng tộc. Các cuộc điều tra như phân tích COMPAS của ProPublica cho thấy một số mô hình có nhiều khả năng đánh dấu sai các bị cáo thiểu số là có nguy cơ cao, minh họa cho sự nguy hiểm của việc dựa vào dữ liệu bắt giữ trong quá khứ phản ánh sự bất bình đẳng xã hội.

Chiến lược và Công cụ Giảm thiểu

Việc giải quyết định kiến đòi hỏi một cách tiếp cận chủ động được gọi là Công bằng trong AI . Các nhà phát triển có thể sử dụng một số kỹ thuật để detect và giảm sự thiên vị.

  • Tăng cường dữ liệu: Một phương pháp hiệu quả để cải thiện khả năng khái quát hóa mô hình là tăng cường dữ liệu . Bằng cách tạo ra các biến thể nhân tạo của các điểm dữ liệu hiện có—chẳng hạn như lật, xoay hoặc điều chỉnh cân bằng màu sắc của hình ảnh—các nhà phát triển có thể cho các mô hình như Ultralytics YOLO11 tiếp xúc với phạm vi dữ liệu đầu vào rộng hơn.
  • Kiểm toán thuật toán: Việc kiểm tra thường xuyên các mô hình dựa trên các tiêu chuẩn khác nhau là rất quan trọng. Các công cụ như AI Fairness 360 của IBM và Microsoft Fairlearn cung cấp các số liệu để đánh giá hiệu suất của mô hình trên các nhóm con khác nhau.
  • Tính minh bạch: Áp dụng các phương pháp AI có thể giải thích (XAI) giúp các bên liên quan hiểu lý do tại sao một mô hình đưa ra các dự đoán cụ thể, giúp phát hiện logic phân biệt dễ dàng hơn.

Ví dụ mã: Cải thiện khái quát hóa bằng cách tăng cường

Sau đây là Python đoạn trích minh họa cách áp dụng tăng cường dữ liệu trong quá trình đào tạo với ultralytics gói. Điều này giúp mô hình trở nên bất biến với một số thay đổi nhất định, có khả năng giảm thiểu tình trạng quá khớp với các đặc điểm trực quan cụ thể.

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train with data augmentation enabled
# 'fliplr' (flip left-right) and 'hsv_h' (hue adjustment) increase data diversity
results = model.train(
    data="coco8.yaml",
    epochs=5,
    fliplr=0.5,  # Apply horizontal flip with 50% probability
    hsv_h=0.015,  # Adjust image hue fraction
)

Phân biệt các thuật ngữ liên quan

Sẽ rất hữu ích nếu phân biệt "Sự thiên vị trong AI" với các thuật ngữ có liên quan chặt chẽ trong bảng chú giải:

  • Thiên kiến trong AI so với Thiên kiến thuật toán : "Thiên kiến trong AI" là thuật ngữ bao hàm tất cả các nguồn bất công (dữ liệu, con người và hệ thống). "Thiên kiến thuật toán" cụ thể đề cập đến thiên kiến do các quy trình tính toán hoặc hàm mục tiêu của mô hình tạo ra.
  • Sai lệch trong AI so với Sai lệch trong Tập dữ liệu : "Sai lệch trong tập dữ liệu" là một nguyên nhân cụ thể gây ra sai lệch trong AI, bắt nguồn từ việc thu thập và quản lý tài liệu đào tạo. Một thuật toán hoàn toàn công bằng vẫn có thể biểu hiện "Sai lệch trong AI" nếu nó học từ một tập dữ liệu sai lệch.

Bằng cách tuân thủ các khuôn khổ như Khung quản lý rủi ro AI của NIST , các nhà phát triển có thể hướng tới việc xây dựng các hệ thống AI có trách nhiệm phục vụ mọi người một cách công bằng.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay