Tìm hiểu cách xác định và giảm thiểu độ lệch tập dữ liệu (dataset bias) trong AI để đảm bảo các mô hình machine learning công bằng, chính xác và đáng tin cậy cho các ứng dụng thực tế.
Sai lệch tập dữ liệu đề cập đến lỗi hệ thống hoặc sự mất cân bằng trong thông tin được sử dụng để huấn luyện các mô hình học máy (ML) , dẫn đến các hệ thống không phản ánh chính xác môi trường thực tế mà chúng được thiết kế để phục vụ. Trong bối cảnh thị giác máy tính (CV) , các mô hình học cách nhận dạng các mẫu hoàn toàn dựa trên dữ liệu huấn luyện của chúng. Nếu nền tảng này bị lệch - ví dụ, bằng cách mô tả quá mức một điều kiện nhân khẩu học hoặc môi trường cụ thể - mô hình sẽ "thừa hưởng" những điểm mù này. Hiện tượng này là nguyên nhân chính gây ra khả năng khái quát hóa kém, khi một hệ thống AI hoạt động tốt trong quá trình thử nghiệm nhưng lại thất bại khi triển khai để suy luận thời gian thực trong các tình huống đa dạng.
Hiểu được nguồn gốc của định kiến là bước đầu tiên để phòng ngừa. Định kiến thường xuất hiện trong giai đoạn đầu của quá trình thu thập và chú thích dữ liệu :
Hậu quả của sai lệch dữ liệu có thể từ những bất tiện nhỏ đến những lỗi an toàn nghiêm trọng trong các ngành công nghiệp có rủi ro cao.
Mặc dù thường được thảo luận cùng nhau, nhưng việc phân biệt sai lệch tập dữ liệu với sai lệch thuật toán sẽ rất hữu ích.
Cả hai đều góp phần vào vấn đề rộng hơn về sự thiên vị trong AI và việc giải quyết chúng là trọng tâm của đạo đức AI và sự công bằng trong AI .
Các nhà phát triển có thể áp dụng một số kỹ thuật để xác định và giảm thiểu sai lệch. Việc sử dụng dữ liệu tổng hợp có thể giúp lấp đầy những khoảng trống mà dữ liệu thực tế còn khan hiếm. Ngoài ra, việc đánh giá mô hình chặt chẽ, phân tích hiệu suất theo từng nhóm nhỏ (thay vì chỉ dựa trên mức trung bình toàn cầu) có thể phát hiện ra những thiếu sót tiềm ẩn.
Một phương pháp mạnh mẽ khác là tăng cường dữ liệu . Bằng cách sửa đổi hình ảnh huấn luyện một cách nhân tạo—thay đổi màu sắc, xoay hoặc ánh sáng—các nhà phát triển có thể buộc mô hình học các tính năng mạnh mẽ hơn thay vì dựa vào các chi tiết ngẫu nhiên có thiên vị.
Ví dụ sau đây minh họa cách áp dụng tăng cường trong quá trình đào tạo với Ultralytics YOLO11 để giúp giảm thiểu sai lệch liên quan đến hướng đối tượng hoặc điều kiện ánh sáng:
from ultralytics import YOLO
# Load a YOLO11 model
model = YOLO("yolo11n.pt")
# Train with augmentations to improve generalization
# 'fliplr' handles left-right orientation bias
# 'hsv_v' varies brightness to handle lighting bias
model.train(
data="coco8.yaml",
epochs=5,
fliplr=0.5, # 50% probability of flipping image horizontally
hsv_v=0.4, # Vary image brightness (value) by +/- 40%
)
Bằng cách chủ động quản lý chất lượng tập dữ liệu và sử dụng các công cụ như siêu tham số tăng cường , các kỹ sư có thể xây dựng các hệ thống AI có trách nhiệm , hoạt động đáng tin cậy cho tất cả mọi người. Để tìm hiểu thêm về các chỉ số công bằng, các nguồn như AI Fairness 360 của IBM cung cấp các bộ công cụ mã nguồn mở tuyệt vời.