Explore how dataset bias impacts AI accuracy and fairness. Learn to identify data skew and use the [Ultralytics Platform](https://platform.ultralytics.com) to mitigate risks.
Смещение набора данных возникает, когда информация, используемая для обучения моделей машинного обучения (ML), содержит систематические ошибки или искаженные распределения, в результате чего система ИИ предпочитает определенные результаты другим. Поскольку модели функционируют как механизмы распознавания образов, они полностью зависят от входных данных; если данные для обучения не точно отражают разнообразие реальной среды, модель унаследует эти «слепые пятна». Это явление часто приводит к плохой обобщаемости, когда ИИ может достигать высоких результатов во время тестирования, но значительно проваливается при развертывании для вывода в реальном времени в разнообразных или неожиданных сценариях.
Предвзятость может проникнуть в набор данных на нескольких этапах жизненного цикла разработки, часто в результате человеческих решений во время сбора или аннотирования.
Влияние смещения наборов данных является значительным в различных отраслях, особенно там, где автоматизированные системы принимают важные решения или взаимодействуют с физическим миром.
In the automotive industry, AI in automotive relies on cameras to identify pedestrians and obstacles. If a self-driving car is trained primarily on data collected in sunny, dry climates, it may exhibit performance degradation when operating in snow or heavy rain. This is a classic example of the training distribution failing to match the operational distribution, leading to safety risks.
Аналогичным образом, при анализе медицинских изображений диагностические модели часто обучаются на исторических данных о пациентах. Если модель, предназначенная для detect заболеваний, обучается на наборе данных, в котором преобладают более светлые оттенки кожи, она может демонстрировать значительно более низкую точность при диагностике пациентов с более темной кожей. Для решения этой проблемы необходимы совместные усилия по созданию разнообразных наборов данных, которые обеспечат справедливость ИИ во всех демографических группах.
Разработчики могут уменьшить смещение наборов данных, применяя строгий аудит и передовые стратегии обучения. Такие методы, как увеличение объема данных, помогают сбалансировать наборы данных путем искусственного создания вариаций недопредставленных примеров (например, переворачивание, поворот или регулировка яркости). Кроме того, генерация синтетических данных может восполнить пробелы в тех случаях, когда реальных данных мало или их трудно собрать.
Эффективное управление этими наборами данных имеет решающее значение. Ultralytics позволяет командам визуализировать распределение классов и выявлять дисбалансы до начала обучения. Кроме того, соблюдение таких руководящих принципов, как NIST AI Risk Management Framework, помогает организациям структурировать свой подход к систематическому выявлению и снижению этих рисков.
Чтобы понять, откуда берется ошибка, полезно отличать смещение набора данных от похожих терминов:
Следующий пример демонстрирует, как применять аугментацию данных во время обучения с помощью YOLO26. Благодаря увеличению геометрических аугментаций модель учится лучше обобщать, что потенциально снижает смещение в сторону конкретных ориентаций или положений объектов, встречающихся в наборе обучающих данных.
from ultralytics import YOLO
# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")
# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
data="coco8.yaml",
epochs=50,
fliplr=0.5, # 50% probability of horizontal flip
scale=0.5, # +/- 50% image scaling
)