Dataset Bias
Khám phá nguyên nhân gây ra định kiến tập dữ liệu (dataset bias) trong AI và cách giảm thiểu sai lệch. Khám phá cách sử dụng Ultralytics Platform và Ultralytics YOLO26 để cải thiện tính công bằng.
Thiên kiến tập dữ liệu xảy ra khi thông tin được sử dụng để dạy các mô hình machine learning (ML) chứa các lỗi hệ thống hoặc phân phối lệch, khiến hệ thống AI kết quả ưu tiên một số kết quả nhất định hơn các kết quả khác. Vì các mô hình hoạt động như các công cụ nhận dạng mẫu, chúng hoàn toàn phụ thuộc vào đầu vào; nếu dữ liệu huấn luyện không phản ánh chính xác sự đa dạng của môi trường thực tế, mô hình sẽ kế thừa những điểm mù này. Hiện tượng này thường dẫn đến khả năng tổng quát hóa kém, nơi một AI có thể đạt điểm cao trong quá trình kiểm thử nhưng lại thất bại đáng kể khi được triển khai cho suy luận thời gian thực trong các tình huống đa dạng hoặc bất ngờ.
Link to this sectionCác nguồn phổ biến gây lệch dữ liệu#
Thiên kiến có thể xâm nhập vào tập dữ liệu ở nhiều giai đoạn của vòng đời phát triển, thường xuất phát từ quyết định của con người trong quá trình thu thập hoặc gán nhãn.
- Thiên kiến lựa chọn: Điều này phát sinh khi dữ liệu được thu thập không đại diện ngẫu nhiên cho quần thể mục tiêu. Ví dụ, việc tạo một tập dữ liệu nhận dạng khuôn mặt chủ yếu sử dụng ảnh của những người nổi tiếng có thể làm lệch mô hình theo hướng trang điểm đậm và ánh sáng chuyên nghiệp, khiến nó thất bại với các ảnh webcam thông thường.
- Lỗi gán nhãn: Tính chủ quan trong quá trình gán nhãn dữ liệu có thể đưa định kiến của con người vào. Nếu người gán nhãn liên tục phân loại sai các đối tượng mơ hồ do thiếu hướng dẫn rõ ràng, mô hình sẽ coi những lỗi này là sự thật hiển nhiên (ground truth).
- Thiên kiến đại diện: Ngay cả khi được chọn ngẫu nhiên, các nhóm thiểu số vẫn có thể bị áp đảo về mặt thống kê bởi lớp đa số. Trong phát hiện đối tượng, một tập dữ liệu với 10.000 ảnh ô tô nhưng chỉ có 100 ảnh xe đạp sẽ dẫn đến một mô hình bị thiên kiến theo hướng phát hiện ô tô.
Link to this sectionỨng dụng thực tế và Hậu quả#
Tác động của thiên kiến tập dữ liệu là rất đáng kể trên nhiều ngành công nghiệp, đặc biệt là nơi các hệ thống tự động đưa ra các quyết định quan trọng hoặc tương tác với thế giới vật lý.
Trong ngành công nghiệp ô tô, AI trong ngành ô tô dựa vào camera để nhận diện người đi bộ và vật cản. Nếu một chiếc xe tự lái được huấn luyện chủ yếu dựa trên dữ liệu thu thập trong điều kiện khí hậu nắng ráo, nó có thể cho thấy hiệu suất suy giảm khi hoạt động trong tuyết hoặc mưa lớn. Đây là ví dụ điển hình về việc phân phối huấn luyện không khớp với phân phối vận hành, dẫn đến rủi ro an toàn.
Tương tự, trong phân tích hình ảnh y tế, các mô hình chẩn đoán thường được huấn luyện trên dữ liệu bệnh nhân lịch sử. Nếu một mô hình được thiết kế để phát hiện các tình trạng da được huấn luyện trên tập dữ liệu bị thống trị bởi tông màu da sáng hơn, nó có thể cho thấy độ chính xác thấp hơn đáng kể khi chẩn đoán bệnh nhân có tông màu da tối hơn. Việc giải quyết vấn đề này đòi hỏi nỗ lực phối hợp để giám tuyển các tập dữ liệu đa dạng nhằm đảm bảo sự công bằng trong AI trên tất cả các nhóm nhân khẩu học.
Link to this sectionCác chiến lược giảm thiểu#
Các nhà phát triển có thể giảm bớt thiên kiến tập dữ liệu bằng cách áp dụng kiểm toán nghiêm ngặt và các chiến lược huấn luyện nâng cao. Các kỹ thuật như tăng cường dữ liệu giúp cân bằng tập dữ liệu bằng cách tạo ra một cách nhân tạo các biến thể của các ví dụ ít được đại diện (ví dụ: lật, xoay hoặc điều chỉnh độ sáng). Ngoài ra, việc tạo dữ liệu tổng hợp có thể lấp đầy các khoảng trống nơi dữ liệu thực tế khan hiếm hoặc khó thu thập.
Quản lý hiệu quả các tập dữ liệu này là rất quan trọng. Ultralytics Platform cho phép các nhóm trực quan hóa phân phối lớp và xác định sự mất cân bằng trước khi bắt đầu huấn luyện. Ngoài ra, việc tuân thủ các hướng dẫn như NIST AI Risk Management Framework giúp các tổ chức cấu trúc cách tiếp cận của họ để xác định và giảm thiểu các rủi ro này một cách hệ thống.
Link to this sectionThiên kiến tập dữ liệu so với các khái niệm liên quan#
Việc phân biệt thiên kiến tập dữ liệu với các thuật ngữ tương tự là hữu ích để hiểu nơi bắt nguồn của lỗi:
- so với Thiên kiến thuật toán: Thiên kiến tập dữ liệu tập trung vào dữ liệu; nó ngụ ý rằng các "nguyên liệu" bị lỗi. Thiên kiến thuật toán tập trung vào mô hình; nó phát sinh từ thiết kế của chính thuật toán hoặc thuật toán tối ưu hóa, thuật toán này có thể ưu tiên các lớp đa số để tối đa hóa các chỉ số tổng thể nhưng lại gây thiệt hại cho các nhóm thiểu số.
- so với Trôi mô hình: Thiên kiến tập dữ liệu là vấn đề tĩnh tồn tại tại thời điểm huấn luyện. Trôi mô hình (hoặc trôi dữ liệu) xảy ra khi dữ liệu thực tế thay đổi theo thời gian sau khi mô hình đã được triển khai, đòi hỏi phải giám sát mô hình liên tục.
Link to this sectionVí dụ mã nguồn: Tăng cường dữ liệu để giảm thiên kiến#
Ví dụ sau đây minh họa cách áp dụng tăng cường dữ liệu trong quá trình huấn luyện với YOLO26. Bằng cách tăng các phép tăng cường hình học, mô hình học cách tổng quát hóa tốt hơn, có khả năng giảm thiên kiến đối với các hướng hoặc vị trí đối tượng cụ thể có trong tập huấn luyện.
from ultralytics import YOLO
# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")
# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
data="coco8.yaml",
epochs=50,
fliplr=0.5, # 50% probability of horizontal flip
scale=0.5, # +/- 50% image scaling
)





