Глоссарий

Предвзятость набора данных

Узнайте, как выявлять и смягчать предвзятость набора данных в ИИ, чтобы обеспечить справедливые, точные и надежные модели машинного обучения для реальных приложений.

Под смещением массива данных понимается систематическая ошибка или дисбаланс в информации, используемой для обучения моделей машинного обучения (ML), в результате чего системы, которые неточно отражают реальную среду, для которой они предназначены. В контексте компьютерного зрения (КВ), модели учатся распознавать модели учатся распознавать паттерны, основываясь исключительно на обучающих данных. Если эта основа искажена - например, за счет перепредставления определенных демографических или экологических условий - то модель "наследует" эти "слепые пятна". Это явление является основной причиной плохого обобщения, когда система искусственного интеллекта показывает хорошие результаты при тестировании, но терпит неудачу при развертывании для в реальном времени в различных сценариях.

Распространенные источники предвзятости в наборах данных

Понимание того, откуда берется предубеждение, - первый шаг к его предотвращению. Оно часто закрадывается на ранних стадиях the сбора данных и аннотирования процесса:

Предвзятость отбора: возникает, когда собранные данные не представляют целевую группу населения случайным образом. Например, сбор изображений для для системы распознавания лиц только у студентов университета Например, сбор изображений для системы распознавания лиц только у студентов университета исказит возрастное распределение, в результате чего модель будет хуже работать с пожилыми людьми.
Предвзятость репрезентативности: даже если данные собираются в широком объеме, некоторые группы могут быть значительно некоторые группы могут быть значительно недопредставлены. Эталонный набор данных для городского планирования, в котором представлены в основном европейские города, может не дать точного анализа инфраструктуры в азиатских или африканских азиатских или африканских мегаполисов из-за различий в архитектурных стилях.
Предвзятость при маркировке: субъективность при Субъективность при маркировке данных может привнести человеческие предрассудки. Если аннотаторы постоянно неправильно классифицируют определенные объекты из-за двусмысленности или отсутствия четких указаний, модель будет узнает об этих ошибках как о базовой истине.

Примеры из реальной жизни и их влияние

Последствия необъективности базы данных могут быть самыми разными: от незначительных неудобств до критических сбоев в системе безопасности в отраслях с высокими ставками. отраслях.

Медицинская диагностика: В ИИ в здравоохранении, модели используются для detect таких заболеваний, как рак кожи. Если обучающий набор данных состоит преимущественно из изображений с более светлыми оттенками кожи, точность модели точность значительно снижается при анализе пациентов с темной кожей. Такое несоответствие подчеркивает важность разнообразных наборов данных для анализа медицинских изображений, чтобы обеспечить справедливого отношения к пациентам.
Автономное вождение: Самоуправляемые автомобили в значительной степени полагаются на обнаружения объектов для идентификации пешеходов и препятствий. Если модель обучена преимущественно на данных, собранных в солнечном и сухом климате, она может не detect опасностей во время снега или сильного дождя. Это классический пример того, как ограниченная вариативность окружающей среды создает опасные пробелы в безопасности автономных автомобилей.

Смещение набора данных и алгоритмическое смещение

Хотя их часто обсуждают вместе, полезно различать предвзятость набора данных и алгоритмическую предвзятость.

Dataset Bias ориентирован на данные; он подразумевает, что исходные данные (ингредиенты) несовершенны. Модель может но она учится на искаженной реальности.
Алгоритмическая предвзятость ориентирована на модель; она возникает из-за дизайна самого алгоритма или используемого используемого алгоритма оптимизации. Например, модель может быть математически склонна отдавать предпочтение мажоритарным классам, чтобы максимизировать общую точность, игнорируя крайние случаи. случаи.

Обе эти проблемы связаны с более широкой проблемой предвзятости в ИИ, и их решение имеет центральное значение для этики ИИ и справедливости в ИИ.

Стратегии смягчения

Разработчики могут использовать несколько методов для выявления и уменьшения предвзятости. Использование синтетических данных может помочь заполнить пробелы, когда реальных не хватает реальных данных. Кроме того, тщательная строгая оценка модели, которая разбивает Кроме того, тщательная оценка модели с разбивкой показателей по подгруппам (а не просто среднее значение) может выявить скрытые недостатки.

Еще один мощный метод - увеличение данных. С помощью искусственно изменяя учебные изображения - меняя цвета, поворот или освещение, - разработчики могут заставить модель обучаться более надежные характеристики, а не полагаться на предвзятые случайные детали.

В следующем примере показано, как применить аугментацию во время обучения с Ultralytics YOLO11 для смягчения смещения, связанного с ориентацией объекта ориентации объекта или условий освещения:

from ultralytics import YOLO

# Load a YOLO11 model
model = YOLO("yolo11n.pt")

# Train with augmentations to improve generalization
# 'fliplr' handles left-right orientation bias
# 'hsv_v' varies brightness to handle lighting bias
model.train(
    data="coco8.yaml",
    epochs=5,
    fliplr=0.5,  # 50% probability of flipping image horizontally
    hsv_v=0.4,  # Vary image brightness (value) by +/- 40%
)

Заблаговременное управление качеством наборов данных и использование таких инструментов, как гиперпараметры дополнения, инженеры могут создавать ответственные системы ИИ системы, которые будут надежно работать для всех. Для дальнейшего ознакомления с метриками справедливости можно воспользоваться такими ресурсами, как IBM's AI Fairness 360, предоставляют отличные инструменты с открытым исходным кодом наборы инструментов с открытым исходным кодом.

Предвзятость набора данных

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Распространенные источники предвзятости в наборах данных

Примеры из реальной жизни и их влияние

Смещение набора данных и алгоритмическое смещение

Стратегии смягчения

Читать больше в этой категории

Будущие тенденции в области обнаружения объектов: 7 ключевых моментов, на которые следует обратить внимание

Улучшение повторной идентификации транспортных средств с помощью моделей Ultralytics YOLO

Улучшение прогнозирования столкновений с помощью моделей Ultralytics YOLO

Присоединяйтесь к сообществу Ultralytics