Устранение предвзятости ИИ в наборах данных Vision AI

Модели искусственного интеллекта (ИИ) меняют способы решения проблем, но они не идеальны. От самоуправляемых автомобилей до диагностических инструментов в здравоохранении, мы полагаемся на ИИ в интерпретации данных и принятии решений. Что происходит, когда сами данные содержат ошибки?

Предвзятость в ИИ относится к закономерностям несоответствий, которые возникают в моделях, часто незаметно для кого-либо. Эти предубеждения могут приводить к тому, что модели делают неточные, непоследовательные или даже вредные прогнозы. В компьютерном зрении предвзятость обычно восходит к одному ключевому источнику: набору данных. Если данные, используемые для обучения модели, несбалансированы или нерепрезентативны, модель будет отражать эти пробелы.

Давайте подробнее рассмотрим, как формируется предвзятость набора данных, как она влияет на модели компьютерного зрения и какие шаги разработчики могут предпринять для ее обнаружения и предотвращения. Мы также покажем, как такие модели, как Ultralytics YOLO11, могут поддерживать усилия по созданию более справедливых систем искусственного интеллекта, которые лучше обобщают, то есть хорошо работают с новыми, невиданными данными и служат всем более равноправно.

Что такое предвзятость ИИ и почему это важно?

Предвзятость ИИ относится к последовательным ошибкам в системе ИИ, которые приводят к искаженным или неточным результатам. Проще говоря, модель начинает отдавать предпочтение одному типу визуального ввода перед другими, что влияет на справедливость модели не потому, что она работает лучше, а из-за того, как она была обучена.

Это может быть особенно распространено в компьютерном зрении, где модели учатся на визуальных данных. Если набор данных в основном включает в себя один вид объекта, сцены или человека, модель изучает закономерности, которые хорошо работают только для этих случаев.

Представьте себе модель, обученную в основном на изображениях дорожного движения из больших городов. При развертывании в сельской местности она может неправильно классифицировать необычную разметку дорог или не обнаружить типы транспортных средств, которые никогда раньше не видела. Это и есть предвзятость ИИ в действии. Это приводит к снижению точности и ограниченной генерализации, что относится к способности модели хорошо работать с новыми или разнообразными входными данными.

В приложениях, где важна точность, например, в здравоохранении или безопасности, эти ошибки не просто расстраивают, они могут быть опасными. Решение проблемы предвзятости - это вопрос производительности, надежности и безопасности.

Как предвзятость набора данных влияет на поведение модели

Когда мы говорим о предвзятости набора данных, мы имеем в виду дисбаланс или ограничение в данных, используемых для обучения модели. Предвзятость набора данных возникает, когда обучающие данные неадекватно отражают реальное разнообразие, которое они должны моделировать.

Модели компьютерного зрения не понимают мир. Они понимают закономерности. Если единственные изображения собак, которые они видят, это золотистые ретриверы во дворах, они могут не узнать хаски на заснеженной тропе.

Рис. 1. Перевзвешивание исходных данных помогает достичь большей точности модели.

‍

Это подчеркивает одну из основных проблем, вызванных смещением набора данных. Модель строит свое понимание на основе того, что ей показывают. Если эти данные обучения не отражают реальное разнообразие, поведение модели становится узким и менее эффективным в незнакомых условиях.

Классификаторы изображений часто работают значительно хуже при тестировании на наборе данных, отличном от того, на котором они были обучены, даже если оба набора данных созданы для одной и той же задачи. Небольшие изменения в освещении, фоне или углах камеры могут привести к заметному снижению точности. Это показывает, насколько легко предвзятость набора данных может повлиять на способность модели к обобщению.

Это не крайние случаи. Это сигналы о том, что ваш конвейер данных имеет такое же значение, как и архитектура вашей модели.

Типы предвзятости в данных для обучения ИИ

Предвзятость может проявляться в процессе разработки незаметными способами, часто во время сбора, маркировки или курирования данных. Ниже приведены три основных типа предвзятости, которые могут повлиять на ваши данные для обучения:

Систематическая ошибка отбора

Систематическая ошибка отбора может возникнуть, когда набор данных не отражает разнообразие, наблюдаемое в реальном использовании. Если модель обнаружения пешеходов обучена только на четких дневных изображениях, она не будет хорошо работать ночью или в тумане. Таким образом, процесс отбора упустил важные случаи.

Рис. 2. Визуальное представление систематической ошибки отбора, когда выбирается только неоднородная подгруппа.

‍

Это смещение происходит, когда набор данных не охватывает весь спектр реальных сценариев из-за способа сбора данных. Например, модель обнаружения пешеходов, обученная только на четких дневных изображениях, может не работать в тумане, снегу или при слабом освещении. Часто это происходит, когда данные собираются в идеальных или удобных условиях, что ограничивает способность модели работать в различных средах. Расширение усилий по сбору данных, чтобы включить больше разнообразных настроек, помогает уменьшить этот вид смещения.

Это также может возникнуть в наборах данных, созданных из онлайн-источников, где контент может быть в значительной степени смещен в сторону определенных мест, языков или социально-экономических контекстов. Без целенаправленных усилий по диверсификации набора данных модель унаследует эти ограничения.

Предвзятость разметки

Предвзятость меток возникает, когда люди, выполняющие аннотации, применяют неверные или несогласованные метки. Неправильная метка может показаться безвредной, но если это происходит часто, модель начинает усваивать неправильные ассоциации.

Несогласованная маркировка может запутать модель во время обучения, особенно в сложных задачах, таких как обнаружение объектов. Например, один аннотатор может пометить транспортное средство как "легковой автомобиль", а другой - аналогичное транспортное средство как "грузовик". Эти несоответствия влияют на способность модели изучать надежные закономерности, что приводит к снижению точности во время инференса.

Рис. 3. Смещение в конвейерах данных возникает из-за дисбаланса в реальном мире.

‍

Предвзятость разметки также может возникать из-за нечетких инструкций по аннотации или различных интерпретаций одних и тех же данных. Установление хорошо документированных стандартов маркировки и проведение проверок контроля качества может значительно уменьшить эти проблемы.

Постоянное обучение аннотаторов и использование консенсусной маркировки, когда несколько аннотаторов проверяют каждый образец, являются двумя эффективными стратегиями минимизации предвзятости маркировки и повышения качества набора данных.

Предвзятость представления

Предвзятость представления часто отражает более широкое социальное неравенство. Данные, собранные в более богатых или более связанных регионах, могут не отражать разнообразие менее представленных групп населения или сред. Для устранения этой предвзятости необходимо целенаправленное включение упущенных из виду групп и контекстов.

Предвзятость представления возникает, когда определенные группы или классы недостаточно представлены в наборе данных. К ним могут относиться демографические группы, категории объектов или условия окружающей среды. Если модель видит только один тон кожи, один тип объекта или один стиль фона, ее прогнозы будут отражать этот дисбаланс.

Мы можем наблюдать этот тип предвзятости, когда определенные группы или категории представлены в гораздо меньших количествах, чем другие. Это может исказить прогнозы модели в сторону доминирующих примеров в наборе данных. Например, модель распознавания лиц, обученная в основном на одной демографической группе, может испытывать трудности с точным выполнением задач для всех пользователей. В отличие от предвзятости отбора, которая связана с разнообразием данных, предвзятость представления касается баланса между группами.

Аудит разнообразия и стратегии целевого расширения данных могут помочь обеспечить надлежащее представление всех соответствующих демографических групп и категорий во всем обучающем наборе данных.

Как обнаруживать и смягчать предвзятость набора данных

В реальных условиях применения предвзятость ИИ — это не просто несколько неверных прогнозов. Это может привести к созданию систем, которые хорошо работают для одних людей, но не для всех.

В автомобильном ИИ модели обнаружения могут работать непоследовательно в разных группах пешеходов, что приводит к снижению показателей безопасности для недостаточно представленных лиц. Проблема не в намерениях модели. Дело в визуальных входных данных, на которых она была обучена. Даже в сельском хозяйстве предвзятость в обнаружении объектов может означать плохое распознавание сельскохозяйственных культур при различном освещении или погодных условиях. Это обычные последствия обучения моделей на ограниченных или несбалансированных наборах данных.

Устранение предвзятости в ИИ начинается с понимания того, где искать. Если в вашем наборе данных для обучения отсутствуют ключевые примеры или чрезмерно представлен узкий диапазон, ваша модель будет отражать эти пробелы. Вот почему обнаружение предвзятости в ИИ является критическим шагом в каждом конвейере разработки.

Рис. 4. Ключевые шаги в снижении предвзятости ИИ и повышении справедливости.

‍

Начните с анализа вашего набора данных. Изучите распределение по классам, условиям окружающей среды, освещению, масштабам объектов и демографическим группам. Если одна категория доминирует, ваша модель, скорее всего, будет показывать более низкие результаты в других категориях.

Далее, обратите внимание на производительность. Ухудшается ли работа модели в определенных условиях или для определенных типов объектов? Если да, то это признак усвоенного смещения, и обычно это указывает на данные.

Оценка на уровне срезов имеет ключевое значение. Модель может показывать в среднем 90% точности, но только 60% для определенной группы или условия. Без проверки этих срезов вы никогда об этом не узнаете.

Использование метрик справедливости во время обучения и оценки — еще один мощный инструмент. Эти метрики выходят за рамки стандартных оценок точности и оценивают поведение модели на различных подмножествах данных. Они помогают выявить слепые зоны, которые в противном случае могли бы остаться незамеченными.

Прозрачность в составе набора данных и тестировании модели приводит к созданию более качественных моделей.

Повышение справедливости за счет разнообразия и увеличения данных

После того, как вы выявили предвзятость, следующим шагом является устранение разрыва. Одним из наиболее эффективных способов сделать это является увеличение разнообразия данных в моделях ИИ. Это означает сбор большего количества образцов из недостаточно представленных сценариев, будь то медицинские изображения из разных групп населения или необычные условия окружающей среды.

Добавление большего количества данных может быть ценным, особенно когда это увеличивает разнообразие. Однако повышение справедливости также зависит от сбора правильных примеров. Они должны отражать реальные изменения, с которыми, вероятно, столкнется ваша модель.

Аугментация данных — еще одна ценная стратегия. Отражение, поворот, регулировка освещения и масштабирование объектов могут помочь смоделировать различные реальные условия. Аугментация не только увеличивает разнообразие набора данных, но и помогает модели стать более устойчивой к изменениям внешнего вида, освещения и контекста.

Большинство современных конвейеров обучения включают аугментацию по умолчанию, но стратегическое использование, например, сосредоточение внимания на корректировке в зависимости от конкретных потребностей задачи, делает ее эффективной для обеспечения справедливости.

Использование синтетических данных для заполнения пробелов

Синтетические данные — это искусственно сгенерированные данные, имитирующие примеры из реального мира. Это может быть полезным инструментом, когда определенные сценарии слишком редки или слишком деликатны, чтобы их можно было зафиксировать в естественной среде.

Например, если вы создаете модель для обнаружения редких дефектов в механизмах или нестандартных нарушений правил дорожного движения, вы можете смоделировать эти случаи, используя синтетические данные. Это дает вашей модели возможность учиться на событиях, с которыми она может нечасто сталкиваться в вашем наборе данных для обучения.

Исследования показали, что введение целевых синтетических данных в процесс обучения может уменьшить предвзятость набора данных и улучшить производительность в различных демографических группах и средах.

Синтетические данные лучше всего работают в сочетании с реальными образцами. Они дополняют ваш набор данных; они не заменяют его.

Как YOLO11 поддерживает этичный ИИ

Создание непредвзятых моделей ИИ также зависит от используемых вами инструментов. YOLO11 разработан как гибкий, простой в тонкой настройке и легко адаптируемый, что делает его отличным вариантом для уменьшения предвзятости набора данных.

YOLO11 поддерживает передовые методы расширения данных во время обучения модели, которые вводят разнообразные контексты изображений и смешанные примеры для улучшения обобщения модели и уменьшения переобучения.

YOLO11 также имеет улучшенную архитектуру backbone и neck для более эффективного извлечения признаков. Это обновление повышает способность модели обнаруживать мелкие детали, что критически важно в недостаточно представленных или крайних случаях, когда стандартные модели могут испытывать трудности.

Благодаря простоте переобучения и развертывания YOLO11 в периферийных и облачных средах, команды могут выявлять пробелы в производительности и быстро обновлять модель при обнаружении предвзятости в полевых условиях.

Справедливый ИИ — это не разовая цель. Это цикл оценки, обучения и корректировки. Такие инструменты, как YOLO11, помогают сделать этот цикл быстрее и продуктивнее.

Основные выводы

Предвзятость ИИ влияет на все, от справедливости до производительности. В компьютерном зрении предвзятость часто возникает из-за способа сбора, маркировки и балансировки наборов данных. К счастью, существуют проверенные способы обнаружения и смягчения этой проблемы.

Начните с аудита ваших данных и тестирования производительности модели в различных сценариях. Используйте целевой сбор данных, аугментацию и синтетические данные для улучшения охвата обучения.

YOLO11 поддерживает этот рабочий процесс, упрощая обучение пользовательских моделей, применение надежных методов расширения и быстрое реагирование при обнаружении предвзятости.

Создание справедливого ИИ — это не просто правильно. Это также способ создания более умных и надежных систем.

Присоединяйтесь к нашему растущему сообществу! Изучите наш репозиторий на GitHub, чтобы узнать больше об ИИ. Готовы начать свои собственные проекты в области компьютерного зрения? Ознакомьтесь с нашими вариантами лицензирования. Откройте для себя ИИ в производстве и Vision AI в сельском хозяйстве, посетив страницы наших решений!

Понимание предвзятости ИИ и предвзятости набора данных в системах Vision AI

Что такое предвзятость ИИ и почему это важно?

Как предвзятость набора данных влияет на поведение модели