Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Предвзятость набора данных

Explore how dataset bias impacts AI accuracy and fairness. Learn to identify data skew and use the [Ultralytics Platform](https://platform.ultralytics.com) to mitigate risks.

Смещение набора данных возникает, когда информация, используемая для обучения моделей машинного обучения (ML), содержит систематические ошибки или искаженные распределения, в результате чего система ИИ предпочитает определенные результаты другим. Поскольку модели функционируют как механизмы распознавания образов, они полностью зависят от входных данных; если данные для обучения не точно отражают разнообразие реальной среды, модель унаследует эти «слепые пятна». Это явление часто приводит к плохой обобщаемости, когда ИИ может достигать высоких результатов во время тестирования, но значительно проваливается при развертывании для вывода в реальном времени в разнообразных или неожиданных сценариях.

Распространенные источники искажения данных

Предвзятость может проникнуть в набор данных на нескольких этапах жизненного цикла разработки, часто в результате человеческих решений во время сбора или аннотирования.

  • Выборочная ошибочность: возникает, когда собранные данные не являются случайной выборкой из целевой популяции. Например, создание набора данных для распознавания лиц с использованием преимущественно изображений знаменитостей может привести к смещению модели в сторону яркого макияжа и профессионального освещения, в результате чего она не сможет распознавать обычные изображения с веб-камеры.
  • Ошибки маркировки: Субъективность при маркировке данных может привести к человеческим предубеждениям. Если аннотаторы постоянно неправильно классифицируют неоднозначные объекты из-за отсутствия четких инструкций, модель рассматривает эти ошибки как истину в последней инстанции.
  • Предвзятость представления: Даже если выборка произведена случайным образом, меньшинства могут быть статистически заглушены большинством. При обнаружении объектов набор данных, содержащий 10 000 изображений автомобилей, но только 100 изображений велосипедов, приведет к созданию модели, предвзято ориентированной на обнаружение автомобилей.

Применение в реальном мире и последствия

Влияние смещения наборов данных является значительным в различных отраслях, особенно там, где автоматизированные системы принимают важные решения или взаимодействуют с физическим миром.

In the automotive industry, AI in automotive relies on cameras to identify pedestrians and obstacles. If a self-driving car is trained primarily on data collected in sunny, dry climates, it may exhibit performance degradation when operating in snow or heavy rain. This is a classic example of the training distribution failing to match the operational distribution, leading to safety risks.

Аналогичным образом, при анализе медицинских изображений диагностические модели часто обучаются на исторических данных о пациентах. Если модель, предназначенная для detect заболеваний, обучается на наборе данных, в котором преобладают более светлые оттенки кожи, она может демонстрировать значительно более низкую точность при диагностике пациентов с более темной кожей. Для решения этой проблемы необходимы совместные усилия по созданию разнообразных наборов данных, которые обеспечат справедливость ИИ во всех демографических группах.

Стратегии смягчения

Разработчики могут уменьшить смещение наборов данных, применяя строгий аудит и передовые стратегии обучения. Такие методы, как увеличение объема данных, помогают сбалансировать наборы данных путем искусственного создания вариаций недопредставленных примеров (например, переворачивание, поворот или регулировка яркости). Кроме того, генерация синтетических данных может восполнить пробелы в тех случаях, когда реальных данных мало или их трудно собрать.

Эффективное управление этими наборами данных имеет решающее значение. Ultralytics позволяет командам визуализировать распределение классов и выявлять дисбалансы до начала обучения. Кроме того, соблюдение таких руководящих принципов, как NIST AI Risk Management Framework, помогает организациям структурировать свой подход к систематическому выявлению и снижению этих рисков.

Предвзятость набора данных и связанные концепции

Чтобы понять, откуда берется ошибка, полезно отличать смещение набора данных от похожих терминов:

  • vs. Алгоритмическая предвзятость: Предвзятость набора данных ориентирована на данные; она подразумевает, что «ингредиенты» являются несовершенными. Алгоритмическая предвзятость ориентирована на модель; она возникает из-за конструкции самого алгоритма или алгоритма оптимизации, который может уделять приоритетное внимание большинству классов, чтобы максимизировать общие показатели за счет меньшинств.
  • vs. Смещение модели: смещение набора данных — это статическая проблема, возникающая на этапе обучения. Смещение модели (или смещение данных) происходит, когда реальные данные изменяются со временем после внедрения модели, что требует постоянного мониторинга модели.

Пример кода: аугментация для уменьшения смещения

Следующий пример демонстрирует, как применять аугментацию данных во время обучения с помощью YOLO26. Благодаря увеличению геометрических аугментаций модель учится лучше обобщать, что потенциально снижает смещение в сторону конкретных ориентаций или положений объектов, встречающихся в наборе обучающих данных.

from ultralytics import YOLO

# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")

# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
    data="coco8.yaml",
    epochs=50,
    fliplr=0.5,  # 50% probability of horizontal flip
    scale=0.5,  # +/- 50% image scaling
)

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас