Узнайте, как выявлять и смягчать предвзятость набора данных в ИИ, чтобы обеспечить справедливые, точные и надежные модели машинного обучения для реальных приложений.
Под смещением массива данных понимается систематическая ошибка или дисбаланс в информации, используемой для обучения моделей машинного обучения (ML), в результате чего системы, которые неточно отражают реальную среду, для которой они предназначены. В контексте компьютерного зрения (КВ), модели учатся распознавать модели учатся распознавать паттерны, основываясь исключительно на обучающих данных. Если эта основа искажена - например, за счет перепредставления определенных демографических или экологических условий - то модель "наследует" эти "слепые пятна". Это явление является основной причиной плохого обобщения, когда система искусственного интеллекта показывает хорошие результаты при тестировании, но терпит неудачу при развертывании для в реальном времени в различных сценариях.
Понимание того, откуда берется предубеждение, - первый шаг к его предотвращению. Оно часто закрадывается на ранних стадиях the сбора данных и аннотирования процесса:
Последствия необъективности базы данных могут быть самыми разными: от незначительных неудобств до критических сбоев в системе безопасности в отраслях с высокими ставками. отраслях.
Хотя их часто обсуждают вместе, полезно различать предвзятость набора данных и алгоритмическую предвзятость.
Обе эти проблемы связаны с более широкой проблемой предвзятости в ИИ, и их решение имеет центральное значение для этики ИИ и справедливости в ИИ.
Разработчики могут использовать несколько методов для выявления и уменьшения предвзятости. Использование синтетических данных может помочь заполнить пробелы, когда реальных не хватает реальных данных. Кроме того, тщательная строгая оценка модели, которая разбивает Кроме того, тщательная оценка модели с разбивкой показателей по подгруппам (а не просто среднее значение) может выявить скрытые недостатки.
Еще один мощный метод - увеличение данных. С помощью искусственно изменяя учебные изображения - меняя цвета, поворот или освещение, - разработчики могут заставить модель обучаться более надежные характеристики, а не полагаться на предвзятые случайные детали.
В следующем примере показано, как применить аугментацию во время обучения с Ultralytics YOLO11 для смягчения смещения, связанного с ориентацией объекта ориентации объекта или условий освещения:
from ultralytics import YOLO
# Load a YOLO11 model
model = YOLO("yolo11n.pt")
# Train with augmentations to improve generalization
# 'fliplr' handles left-right orientation bias
# 'hsv_v' varies brightness to handle lighting bias
model.train(
data="coco8.yaml",
epochs=5,
fliplr=0.5, # 50% probability of flipping image horizontally
hsv_v=0.4, # Vary image brightness (value) by +/- 40%
)
Заблаговременное управление качеством наборов данных и использование таких инструментов, как гиперпараметры дополнения, инженеры могут создавать ответственные системы ИИ системы, которые будут надежно работать для всех. Для дальнейшего ознакомления с метриками справедливости можно воспользоваться такими ресурсами, как IBM's AI Fairness 360, предоставляют отличные инструменты с открытым исходным кодом наборы инструментов с открытым исходным кодом.