Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Quay lại Bảng thuật ngữ Ultralytics

Dataset Bias

Khám phá nguyên nhân gây ra định kiến tập dữ liệu (dataset bias) trong AI và cách giảm thiểu sai lệch. Khám phá cách sử dụng Ultralytics Platform và Ultralytics YOLO26 để cải thiện tính công bằng.

Thiên kiến tập dữ liệu xảy ra khi thông tin được sử dụng để dạy các mô hình machine learning (ML) chứa các lỗi hệ thống hoặc phân phối lệch, khiến hệ thống AI kết quả ưu tiên một số kết quả nhất định hơn các kết quả khác. Vì các mô hình hoạt động như các công cụ nhận dạng mẫu, chúng hoàn toàn phụ thuộc vào đầu vào; nếu dữ liệu huấn luyện không phản ánh chính xác sự đa dạng của môi trường thực tế, mô hình sẽ kế thừa những điểm mù này. Hiện tượng này thường dẫn đến khả năng tổng quát hóa kém, nơi một AI có thể đạt điểm cao trong quá trình kiểm thử nhưng lại thất bại đáng kể khi được triển khai cho suy luận thời gian thực trong các tình huống đa dạng hoặc bất ngờ.

Link to this sectionCác nguồn phổ biến gây lệch dữ liệu#

Thiên kiến có thể xâm nhập vào tập dữ liệu ở nhiều giai đoạn của vòng đời phát triển, thường xuất phát từ quyết định của con người trong quá trình thu thập hoặc gán nhãn.

  • Thiên kiến lựa chọn: Điều này phát sinh khi dữ liệu được thu thập không đại diện ngẫu nhiên cho quần thể mục tiêu. Ví dụ, việc tạo một tập dữ liệu nhận dạng khuôn mặt chủ yếu sử dụng ảnh của những người nổi tiếng có thể làm lệch mô hình theo hướng trang điểm đậm và ánh sáng chuyên nghiệp, khiến nó thất bại với các ảnh webcam thông thường.
  • Lỗi gán nhãn: Tính chủ quan trong quá trình gán nhãn dữ liệu có thể đưa định kiến của con người vào. Nếu người gán nhãn liên tục phân loại sai các đối tượng mơ hồ do thiếu hướng dẫn rõ ràng, mô hình sẽ coi những lỗi này là sự thật hiển nhiên (ground truth).
  • Thiên kiến đại diện: Ngay cả khi được chọn ngẫu nhiên, các nhóm thiểu số vẫn có thể bị áp đảo về mặt thống kê bởi lớp đa số. Trong phát hiện đối tượng, một tập dữ liệu với 10.000 ảnh ô tô nhưng chỉ có 100 ảnh xe đạp sẽ dẫn đến một mô hình bị thiên kiến theo hướng phát hiện ô tô.

Link to this sectionỨng dụng thực tế và Hậu quả#

Tác động của thiên kiến tập dữ liệu là rất đáng kể trên nhiều ngành công nghiệp, đặc biệt là nơi các hệ thống tự động đưa ra các quyết định quan trọng hoặc tương tác với thế giới vật lý.

Trong ngành công nghiệp ô tô, AI trong ngành ô tô dựa vào camera để nhận diện người đi bộ và vật cản. Nếu một chiếc xe tự lái được huấn luyện chủ yếu dựa trên dữ liệu thu thập trong điều kiện khí hậu nắng ráo, nó có thể cho thấy hiệu suất suy giảm khi hoạt động trong tuyết hoặc mưa lớn. Đây là ví dụ điển hình về việc phân phối huấn luyện không khớp với phân phối vận hành, dẫn đến rủi ro an toàn.

Tương tự, trong phân tích hình ảnh y tế, các mô hình chẩn đoán thường được huấn luyện trên dữ liệu bệnh nhân lịch sử. Nếu một mô hình được thiết kế để phát hiện các tình trạng da được huấn luyện trên tập dữ liệu bị thống trị bởi tông màu da sáng hơn, nó có thể cho thấy độ chính xác thấp hơn đáng kể khi chẩn đoán bệnh nhân có tông màu da tối hơn. Việc giải quyết vấn đề này đòi hỏi nỗ lực phối hợp để giám tuyển các tập dữ liệu đa dạng nhằm đảm bảo sự công bằng trong AI trên tất cả các nhóm nhân khẩu học.

Link to this sectionCác chiến lược giảm thiểu#

Các nhà phát triển có thể giảm bớt thiên kiến tập dữ liệu bằng cách áp dụng kiểm toán nghiêm ngặt và các chiến lược huấn luyện nâng cao. Các kỹ thuật như tăng cường dữ liệu giúp cân bằng tập dữ liệu bằng cách tạo ra một cách nhân tạo các biến thể của các ví dụ ít được đại diện (ví dụ: lật, xoay hoặc điều chỉnh độ sáng). Ngoài ra, việc tạo dữ liệu tổng hợp có thể lấp đầy các khoảng trống nơi dữ liệu thực tế khan hiếm hoặc khó thu thập.

Quản lý hiệu quả các tập dữ liệu này là rất quan trọng. Ultralytics Platform cho phép các nhóm trực quan hóa phân phối lớp và xác định sự mất cân bằng trước khi bắt đầu huấn luyện. Ngoài ra, việc tuân thủ các hướng dẫn như NIST AI Risk Management Framework giúp các tổ chức cấu trúc cách tiếp cận của họ để xác định và giảm thiểu các rủi ro này một cách hệ thống.

Link to this sectionThiên kiến tập dữ liệu so với các khái niệm liên quan#

Việc phân biệt thiên kiến tập dữ liệu với các thuật ngữ tương tự là hữu ích để hiểu nơi bắt nguồn của lỗi:

  • so với Thiên kiến thuật toán: Thiên kiến tập dữ liệu tập trung vào dữ liệu; nó ngụ ý rằng các "nguyên liệu" bị lỗi. Thiên kiến thuật toán tập trung vào mô hình; nó phát sinh từ thiết kế của chính thuật toán hoặc thuật toán tối ưu hóa, thuật toán này có thể ưu tiên các lớp đa số để tối đa hóa các chỉ số tổng thể nhưng lại gây thiệt hại cho các nhóm thiểu số.
  • so với Trôi mô hình: Thiên kiến tập dữ liệu là vấn đề tĩnh tồn tại tại thời điểm huấn luyện. Trôi mô hình (hoặc trôi dữ liệu) xảy ra khi dữ liệu thực tế thay đổi theo thời gian sau khi mô hình đã được triển khai, đòi hỏi phải giám sát mô hình liên tục.

Link to this sectionVí dụ mã nguồn: Tăng cường dữ liệu để giảm thiên kiến#

Ví dụ sau đây minh họa cách áp dụng tăng cường dữ liệu trong quá trình huấn luyện với YOLO26. Bằng cách tăng các phép tăng cường hình học, mô hình học cách tổng quát hóa tốt hơn, có khả năng giảm thiên kiến đối với các hướng hoặc vị trí đối tượng cụ thể có trong tập huấn luyện.

from ultralytics import YOLO

# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")

# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
    data="coco8.yaml",
    epochs=50,
    fliplr=0.5,  # 50% probability of horizontal flip
    scale=0.5,  # +/- 50% image scaling
)

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning