Khám phá các nguyên nhân gây ra sai lệch dữ liệu trong AI và tìm hiểu cách giảm thiểu sự sai lệch. Khám phá cách sử dụng... Ultralytics Nền tảng và Ultralytics YOLO26 nhằm cải thiện tính công bằng.
Sai lệch dữ liệu xảy ra khi thông tin được sử dụng để huấn luyện các mô hình học máy (ML) chứa các lỗi hệ thống hoặc phân bố lệch, dẫn đến hệ thống AI thu được ưu tiên một số kết quả nhất định hơn những kết quả khác. Bởi vì các mô hình hoạt động như các công cụ nhận dạng mẫu, chúng hoàn toàn phụ thuộc vào dữ liệu đầu vào; nếu dữ liệu huấn luyện không phản ánh chính xác sự đa dạng của môi trường thực tế, mô hình sẽ thừa hưởng những điểm mù này. Hiện tượng này thường dẫn đến khả năng khái quát hóa kém, trong đó AI có thể đạt điểm cao trong quá trình thử nghiệm nhưng lại thất bại đáng kể khi được triển khai để suy luận thời gian thực trong các tình huống đa dạng hoặc không lường trước được.
Thiên kiến có thể xâm nhập vào tập dữ liệu ở nhiều giai đoạn trong vòng đời phát triển, thường bắt nguồn từ các quyết định của con người trong quá trình thu thập hoặc chú thích dữ liệu.
Ảnh hưởng của sự thiên lệch trong tập dữ liệu là rất đáng kể trong nhiều ngành công nghiệp, đặc biệt là nơi các hệ thống tự động đưa ra các quyết định quan trọng hoặc tương tác với thế giới vật lý.
Trong ngành công nghiệp ô tô, trí tuệ nhân tạo (AI) dựa vào camera để nhận diện người đi bộ và chướng ngại vật. Nếu một chiếc xe tự lái được huấn luyện chủ yếu dựa trên dữ liệu thu thập được trong điều kiện khí hậu nắng ráo, nó có thể bị suy giảm hiệu suất khi hoạt động trong điều kiện tuyết hoặc mưa lớn. Đây là một ví dụ điển hình về việc phân bố dữ liệu huấn luyện không phù hợp với phân bố dữ liệu hoạt động, dẫn đến rủi ro về an toàn.
Tương tự, trong phân tích hình ảnh y tế , các mô hình chẩn đoán thường được huấn luyện dựa trên dữ liệu bệnh nhân trong quá khứ. Nếu một mô hình được thiết kế để detect Nếu hệ thống huấn luyện chẩn đoán các bệnh về da được xây dựng trên tập dữ liệu chủ yếu gồm những người có tông da sáng hơn, thì độ chính xác của nó có thể thấp hơn đáng kể khi chẩn đoán bệnh nhân có tông da tối hơn. Để giải quyết vấn đề này, cần có sự phối hợp để xây dựng các tập dữ liệu đa dạng, đảm bảo tính công bằng trong trí tuệ nhân tạo đối với tất cả các nhóm nhân khẩu học.
Các nhà phát triển có thể giảm thiểu sai lệch dữ liệu bằng cách áp dụng các chiến lược kiểm tra nghiêm ngặt và huấn luyện nâng cao. Các kỹ thuật như tăng cường dữ liệu giúp cân bằng tập dữ liệu bằng cách tạo ra các biến thể nhân tạo của các ví dụ ít được đại diện (ví dụ: lật, xoay hoặc điều chỉnh độ sáng). Hơn nữa, việc tạo dữ liệu tổng hợp có thể lấp đầy những khoảng trống khi dữ liệu thực tế khan hiếm hoặc khó thu thập.
Quản lý hiệu quả các tập dữ liệu này là vô cùng quan trọng. Nền tảng Ultralytics cho phép các nhóm hình dung sự phân bố lớp và xác định sự mất cân bằng trước khi bắt đầu huấn luyện. Ngoài ra, việc tuân thủ các hướng dẫn như Khung quản lý rủi ro AI của NIST giúp các tổ chức xây dựng phương pháp tiếp cận để xác định và giảm thiểu những rủi ro này một cách có hệ thống.
Việc phân biệt sai lệch dữ liệu với các thuật ngữ tương tự sẽ giúp hiểu rõ nguồn gốc của lỗi:
Ví dụ sau đây minh họa cách áp dụng tăng cường dữ liệu trong quá trình huấn luyện với YOLO26 . Bằng cách tăng cường các phép tăng cường hình học, mô hình học cách khái quát hóa tốt hơn, có khả năng giảm thiểu sự thiên vị đối với các hướng hoặc vị trí đối tượng cụ thể được tìm thấy trong tập dữ liệu huấn luyện.
from ultralytics import YOLO
# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")
# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
data="coco8.yaml",
epochs=50,
fliplr=0.5, # 50% probability of horizontal flip
scale=0.5, # +/- 50% image scaling
)