Необъективность данных
Узнайте, как выявить и устранить предвзятость наборов данных в ИИ, чтобы обеспечить справедливость, точность и надежность моделей машинного обучения для реальных приложений.
Предвзятость набора данных возникает, когда данные, используемые для обучения модели, не совсем точно представляют реальную среду, в которой будет развернута модель. Такой дисбаланс или перекос в представлении является критической проблемой в машинном обучении (МОО), поскольку модели учатся на закономерностях и недостатках, присутствующих в обучающих данных. Если данные предвзяты, то созданная система ИИ унаследует и зачастую усилит эту предвзятость, что приведет к неточным, ненадежным и несправедливым результатам. Решение проблемы предвзятости наборов данных является краеугольным камнем разработки ответственного ИИ и соблюдения этики ИИ.
Общие источники необъективности данных
Предвзятость может возникнуть на различных этапах работы с данными - от сбора до обработки. Некоторые распространенные типы включают:
- Предвзятость отбора: возникает, когда выборка данных не является случайной для целевой группы населения. Например, сбор данных для аналитической модели розничной торговли только в районах с высоким уровнем дохода приведет к ошибке отбора, в результате чего модель не сможет понять поведение других групп покупателей.
- Предвзятость репрезентативности: это происходит, когда определенные подгруппы недопредставлены или перепредставлены в наборе данных. Эталонный набор данных для мониторинга дорожного движения, содержащий в основном дневные изображения, приведет к тому, что модель будет плохо работать при обнаружении автомобилей в ночное время.
- Предвзятость измерений: возникает из-за систематических ошибок при сборе данных или из-за самих измерительных инструментов. Например, использование камер с высоким разрешением для одной демографической ситуации и с низким разрешением для другой вносит погрешность в набор данных компьютерного зрения.
- Предвзятость аннотаций: она обусловлена субъективными суждениями людей-аннотаторов в процессе маркировки данных. Предвзятое отношение может повлиять на то, как применяются метки, особенно в задачах с субъективной интерпретацией, что может повлиять на обучение модели.
Примеры из реальной жизни
- Системы распознавания лиц: Ранние коммерческие системы распознавания лиц, как известно, были менее точными для женщин и цветных людей. Исследования, такие как проект Gender Shades, показали, что это во многом связано с тем, что наборы обучающих данных в подавляющем большинстве состояли из изображений белых мужчин. Модели, обученные на таких перекошенных данных, не смогли обобщить данные по различным демографическим группам.
- Медицинская диагностика: Модель ИИ, предназначенная для анализа медицинских изображений, например для обнаружения опухолей на рентгеновских снимках, может быть обучена на данных одной больницы. Эта модель может изучать особенности оборудования для получения изображений, используемого в этой больнице. При развертывании в другой больнице с другим оборудованием ее производительность может значительно снизиться из-за дрейфа данных. Это подчеркивает необходимость использования различных источников данных для ИИ в здравоохранении.
Предвзятость данных в сравнении с алгоритмической предвзятостью
Важно различать предвзятость набора данных и алгоритмическую предвзятость.
- Предвзятость данных исходит из самих данных. Данные становятся ошибочными еще до того, как их увидит модель, что делает их фундаментальной проблемой.
- Алгоритмическая предвзятость может возникнуть из-за архитектуры модели или процесса оптимизации, который может систематически благоприятствовать определенным результатам по сравнению с другими, даже при идеально сбалансированных данных.
Однако эти два фактора глубоко взаимосвязаны. Предвзятость набора данных - одна из наиболее распространенных причин предвзятости алгоритмов. Модель, обученная на необъективных данных, почти наверняка будет делать необъективные прогнозы, создавая необъективный алгоритм. Поэтому обеспечение справедливости в ИИ должно начинаться с устранения предвзятости данных.
Стратегии смягчения последствий
Борьба с предвзятостью наборов данных - это постоянный процесс, требующий тщательного планирования и выполнения на протяжении всего жизненного цикла операций машинного обучения (MLOps).
- Вдумчивый сбор данных: Стремитесь использовать разнообразные и репрезентативные источники данных, отражающие реальный мир. Очень важно следовать структурированному руководству по сбору и аннотированию данных. Документирование наборов данных с помощью таких механизмов, как Data Sheets for Datasets, способствует прозрачности.
- Расширение и синтез данных: Используйте такие методы, как перебор недопредставленных групп, целенаправленное расширение данных или создание синтетических данных, чтобы сбалансировать набор данных. Модели Ultralytics изначально поддерживают различные мощные методы дополнения данных.
- Инструменты для проверки предвзятости: Используйте такие инструменты, как What-If Tool от Google и библиотеки с открытым исходным кодом, такие как Fairlearn, для проверки наборов данных и моделей на предмет потенциальной необъективности.
- Строгая оценка моделей: Помимо общих показателей точности, оценивайте эффективность модели для различных демографических или экологических подгрупп. Для поддержания прозрачности лучше всего документировать результаты с помощью таких методов, как карточки моделей.
- Используйте современные платформы: Платформы, подобные Ultralytics HUB, предлагают интегрированные инструменты для управления наборами данных, визуализации и обучения моделей, таких как Ultralytics YOLO11. Это помогает разработчикам создавать более справедливые системы, упрощая процесс создания и оценки моделей на разнообразных данных.
Упреждая предвзятое отношение к набору данных, разработчики могут создавать более надежные, прочные и этичные системы ИИ. Эта тема часто обсуждается на ведущих конференциях, таких как Конференция ACM по справедливости, подотчетности и прозрачности (FAccT).