Предвзятость набора данных
Узнайте, как выявлять и смягчать предвзятость набора данных в ИИ, чтобы обеспечить справедливые, точные и надежные модели машинного обучения для реальных приложений.
Смещение набора данных возникает, когда данные, используемые для обучения модели, неточно представляют реальную среду, в которой будет развернута модель. Этот дисбаланс или искаженное представление является критической проблемой в машинном обучении (ML), поскольку модели изучают закономерности и недостатки, присутствующие в их данных для обучения. Если данные смещены, результирующая система ИИ унаследует и часто усиливает это смещение, что приведет к неточным, ненадежным и несправедливым результатам. Устранение смещения набора данных является краеугольным камнем разработки ответственного ИИ и соблюдения этики ИИ.
Распространенные источники предвзятости в наборах данных
Предвзятость может быть привнесена на различных этапах конвейера данных, от сбора до обработки. Некоторые распространенные типы включают:
- Систематическая ошибка отбора: Возникает, когда данные отбираются не случайным образом из целевой популяции. Например, сбор данных для модели розничной аналитики только из районов с высоким доходом создаст систематическую ошибку отбора, что приведет к модели, которая не понимает поведение других групп клиентов.
- Предвзятость представления: Это происходит, когда определенные подгруппы недостаточно или чрезмерно представлены в наборе данных. Эталонный набор данных для мониторинга дорожного движения с преимущественно дневными изображениями приведет к тому, что модель будет плохо работать при обнаружении транспортных средств ночью.
- Систематическая ошибка измерения: Это возникает из-за систематических ошибок во время сбора данных или из-за самих инструментов измерения. Например, использование камер с высоким разрешением для одной демографической группы и с низким разрешением для другой вносит систематическую ошибку измерения в набор данных компьютерного зрения.
- Предвзятость аннотаций: Это проистекает из субъективных суждений людей, выполняющих аннотации, в процессе маркировки данных. Предвзятые представления могут влиять на то, как применяются метки, особенно в задачах, связанных с субъективной интерпретацией, что может повлиять на обучение модели.
Реальные примеры
- Системы распознавания лиц: Ранние коммерческие системы распознавания лиц, как известно, были менее точными для женщин и цветных людей. Исследования, такие как проект Gender Shades, показали, что это во многом связано с тем, что наборы данных для обучения в подавляющем большинстве состояли из изображений белых мужчин. Модели, обученные на этих искаженных данных, не смогли обобщить результаты для различных демографических групп.
- Медицинская диагностика: Модель ИИ, разработанная для анализа медицинских изображений, например, для обнаружения опухолей на рентгеновских снимках, может быть обучена на данных из одной больницы. Эта модель может изучить особенности, специфичные для оборудования визуализации этой больницы. При развертывании в другой больнице с другим оборудованием ее производительность может значительно снизиться из-за сдвига данных. Это подчеркивает необходимость использования разнообразных источников данных в ИИ в здравоохранении.
Смещение набора данных и алгоритмическое смещение
Важно различать предвзятость набора данных и алгоритмическую предвзятость.
- Смещение набора данных возникает из самих данных. Данные являются ошибочными еще до того, как модель их увидит, что делает это фундаментальной проблемой.
- Алгоритмическая предвзятость может возникнуть из архитектуры модели или процесса оптимизации, который может систематически отдавать предпочтение определенным результатам перед другими, даже при идеально сбалансированных данных.
Однако эти два понятия тесно связаны. Смещение набора данных — одна из наиболее распространенных причин алгоритмического смещения. Модель, обученная на смещенных данных, почти наверняка будет делать смещенные прогнозы, создавая смещенный алгоритм. Поэтому обеспечение справедливости в ИИ должно начинаться с устранения смещения в данных.
Стратегии смягчения
Смягчение предвзятости набора данных — это непрерывный процесс, который требует тщательного планирования и выполнения на протяжении всего жизненного цикла операций машинного обучения (MLOps).
- Продуманный сбор данных: Стремитесь к разнообразным и репрезентативным источникам данных, отражающим реальный мир. Важно следовать структурированному руководству по сбору и аннотации данных. Документирование наборов данных с использованием таких фреймворков, как Data Sheets for Datasets, способствует прозрачности.
- Аугментация и синтез данных: Используйте такие методы, как передискретизация недостаточно представленных групп, применение целевой аугментации данных или генерация синтетических данных для балансировки набора данных. Модели Ultralytics изначально поддерживают множество мощных методов аугментации.
- Инструменты аудита предвзятости: Используйте такие инструменты, как инструмент What-If от Google и библиотеки с открытым исходным кодом, такие как Fairlearn, для проверки наборов данных и моделей на предмет потенциальных предубеждений.
- Тщательная оценка модели: Помимо общих метрик точности, оценивайте производительность модели в различных демографических или экологических подгруппах. Рекомендуется документировать результаты с использованием таких методов, как карточки моделей, для поддержания прозрачности.
- Используйте современные платформы: Платформы, такие как Ultralytics HUB, предлагают интегрированные инструменты для управления наборами данных, визуализации и обучения моделей, таких как Ultralytics YOLO11. Это помогает разработчикам создавать более справедливые системы, упрощая процесс создания и оценки моделей на разнообразных данных.
Проактивно устраняя предвзятость в наборах данных, разработчики могут создавать более надежные, отказоустойчивые и этичные системы ИИ. Эта тема часто обсуждается на ведущих конференциях, таких как ACM Conference on Fairness, Accountability, and Transparency (FAccT).