Нажав кнопку "Принять все файлы cookie", вы соглашаетесь с сохранением файлов cookie на вашем устройстве для улучшения навигации по сайту, анализа его использования и помощи в наших маркетинговых усилиях. Дополнительная информация
Настройки файлов cookie
Нажав кнопку "Принять все файлы cookie", вы соглашаетесь с сохранением файлов cookie на вашем устройстве для улучшения навигации по сайту, анализа его использования и помощи в наших маркетинговых усилиях. Дополнительная информация
Узнайте, как смещение наборов данных влияет на модели компьютерного зрения и как Ultralytics YOLO11 помогает уменьшить смещение с помощью интеллектуального дополнения и гибких инструментов обучения.
Модели искусственного интеллекта (ИИ) меняют наши способы решения проблем, но они не совершенны. От самоуправляемых автомобилей до диагностических инструментов в здравоохранении- мы полагаемся на ИИ, чтобы интерпретировать данные и принимать решения. Но что происходит, когда сами данные оказываются несовершенными?
Под предвзятостью в искусственном интеллекте понимаются несоответствия, которые развиваются в моделях, зачастую никто этого не осознает. Эти предубеждения могут привести к тому, что модели будут делать неточные, непоследовательные или даже вредные прогнозы. В компьютерном зрении предвзятость обычно связана с одним ключевым источником: набором данных. Если данные, используемые для обучения модели, несбалансированы или нерепрезентативны, модель будет отражать эти пробелы.
Давайте подробнее рассмотрим, как формируется предвзятость набора данных, как она влияет на модели компьютерного зрения и какие шаги могут предпринять разработчики для ее обнаружения и предотвращения. Мы также покажем, как модели, подобные Ultralytics YOLO11, могут поддержать усилия по созданию более справедливых систем искусственного интеллекта, которые лучше обобщают, то есть хорошо работают с новыми, невиданными данными и обслуживают всех более равномерно.
Что такое предвзятость ИИ и почему она имеет значение?
Под предвзятостью ИИ понимаются постоянные ошибки в системе ИИ, которые приводят к искаженным или неточным результатам. Проще говоря, модель начинает отдавать предпочтение одному типу визуального ввода перед другими, что влияет на справедливость модели, но не потому, что она работает лучше, а скорее из-за того, как она была обучена.
Это особенно часто встречается в компьютерном зрении, где модели обучаются на основе визуальных данных. Если набор данных включает в себя в основном один вид объектов, сцен или людей, то модель учит шаблоны, которые хорошо работают только в этих случаях.
Представьте себе модель, обученную в основном на изображениях дорожного движения в больших городах. Если ее развернуть в сельской местности, она может неправильно классифицировать необычные дорожные разметки или не обнаружить типы автомобилей, которые она никогда раньше не видела. Это и есть предвзятость ИИ в действии. Оно приводит к снижению точности и ограничению обобщения, что означает способность модели хорошо работать с новыми или разнообразными исходными данными.
В приложениях, где точность очень важна, например, в здравоохранении или безопасности, такие ошибки не только досадны, но и могут быть опасны. Устранение предвзятости - это производительность, надежность и безопасность.
Как смещение набора данных влияет на поведение модели
Когда мы говорим о предвзятости набора данных, мы имеем в виду дисбаланс или ограниченность данных, используемых для обучения модели. Предвзятость набора данных возникает, когда обучающие данные неадекватно отражают разнообразие реального мира, который они призваны моделировать.
Модели компьютерного зрения не понимают мир. Они понимают закономерности. Если единственные изображения собак, которые они видят, - это золотистые ретриверы во дворах, они могут не распознать хаски на заснеженной тропе.
Рис. 1. Перевзвешивание исходных данных помогает достичь большей точности модели.
Это подчеркивает одну из основных проблем, вызванных необъективностью наборов данных. Модель строит свое понимание на основе того, что ей показывают. Если обучающие данные не отражают реального мира, поведение модели становится узким и менее эффективным в незнакомых условиях.
Классификаторы изображений часто работают значительно хуже, когда их тестируют на наборе данных, отличном от того, на котором они обучались, даже если оба набора данных созданы для одной и той же задачи. Небольшие изменения в освещении, фоне или ракурсе камеры могут привести к заметному снижению точности. Это показывает, как легко предвзятость набора данных может повлиять на способность модели к обобщению.
Это не крайние случаи. Это сигналы о том, что ваш конвейер данных имеет такое же значение, как и архитектура модели.
Типы предвзятости в обучающих данных ИИ
Предвзятость может проявляться в процессе разработки едва заметными способами, часто во время сбора, маркировки или обработки данных. Ниже приведены три основных типа предвзятости, которые могут повлиять на ваши учебные данные:
Предвзятость отбора
Предвзятость отбора может возникнуть, если набор данных не представляет всего многообразия, встречающегося в реальном мире. Если модель обнаружения пешеходов обучалась только на ясных дневных изображениях, она не будет хорошо работать ночью или в тумане. Таким образом, в процессе отбора были упущены важные случаи.
Рис. 2. Визуальное представление предвзятости отбора, когда выбирается только неразнородное подмножество.
Такое смещение происходит, когда набор данных не отражает всего спектра реальных сценариев из-за того, как собирались данные. Например, модель обнаружения пешеходов, обученная только на ясных дневных изображениях, может потерпеть неудачу в тумане, снегу или при слабом освещении. Это часто происходит, когда данные собираются в идеальных или удобных условиях, что ограничивает возможности модели в различных условиях. Расширение усилий по сбору данных с включением более разнообразных условий помогает уменьшить подобную погрешность.
Она также может возникнуть в наборах данных, созданных на основе онлайн-источников, где контент может быть сильно перекошен в сторону определенных мест, языков или социально-экономического контекста. Если не предпринимать целенаправленных усилий по диверсификации набора данных, модель унаследует эти ограничения.
Предвзятость этикеток
Предвзятое отношение к меткам возникает, когда аннотаторы накладывают неправильные или непоследовательные метки. Неправильная пометка может показаться безобидной, но если это происходит часто, модель начинает обучаться неправильным ассоциациям.
Непоследовательные метки могут запутать модель во время обучения, особенно в таких сложных задачах, как обнаружение объектов. Например, один аннотатор может обозначить транспортное средство как "легковой автомобиль", а другой - как "грузовик". Такие несоответствия влияют на способность модели к обучению надежным шаблонам, что приводит к снижению точности при выводе.
Рис. 3. Предвзятость в конвейерах данных возникает из-за дисбаланса реального мира.
Предвзятость маркировки может также возникнуть из-за нечетких рекомендаций по аннотированию или различных интерпретаций одних и тех же данных. Создание хорошо документированных стандартов маркировки и проведение проверок контроля качества может значительно уменьшить эти проблемы.
Постоянное обучение аннотаторов и использование консенсусной маркировки, когда несколько аннотаторов просматривают каждый образец, являются двумя эффективными стратегиями для минимизации смещения меток и повышения качества наборов данных.
Предвзятое отношение к представительству
Предвзятость репрезентативности часто отражает более широкое общественное неравенство. Данные, собранные в более богатых или связанных между собой регионах, могут не отражать разнообразие менее представленных групп населения или сред. Для устранения этого перекоса необходимо намеренно включать в данные группы и контексты, которые не получили должного внимания.
Предвзятость репрезентативности возникает, когда определенные группы или классы недопредставлены в наборе данных. Это могут быть демографические группы, категории объектов или условия окружающей среды. Если модель видит только один тон кожи, один тип объектов или один стиль фона, ее прогнозы будут отражать этот дисбаланс.
Мы можем наблюдать этот тип смещения, когда определенные группы или категории включаются в модель в гораздо меньшем количестве, чем другие. Это может исказить предсказания модели в сторону доминирующих примеров в наборе данных. Например, модель распознавания лиц, обученная в основном на одной демографической группе, может оказаться не в состоянии точно предсказать всех пользователей. В отличие от предвзятости отбора, которая связана с разнообразием данных, предвзятость представления касается баланса между группами.
Аудит разнообразия и стратегии целенаправленного расширения данных могут помочь обеспечить надлежащее представительство всех соответствующих демографических групп и категорий в наборе данных для обучения.
Как обнаружить и смягчить предвзятость набора данных
В реальном мире предвзятость ИИ означает не только несколько неверных прогнозов. Она может привести к тому, что системы будут работать хорошо для некоторых людей, но не для всех.
В автомобильном искусственном интеллекте модели обнаружения могут работать неравномерно для разных групп пешеходов, что приводит к снижению безопасности для малопредставленных лиц. Дело не в намерениях модели. Дело в визуальных данных, на которых она была обучена. Даже в сельском хозяйстве погрешность в обнаружении объектов может означать плохую идентификацию культур при различном освещении или погодных условиях. Это обычные последствия обучения моделей на ограниченных или несбалансированных наборах данных.
Устранение предвзятости ИИ начинается со знания того, где искать. Если в обучающем наборе не хватает ключевых примеров или они представлены в узком диапазоне, ваша модель будет отражать эти пробелы. Именно поэтому выявление предвзятости в ИИ является важнейшим этапом в каждом конвейере разработки.
Рис. 4. Ключевые шаги по снижению предвзятости ИИ и повышению справедливости.
Начните с анализа вашего набора данных. Посмотрите на распределение по классам, окружению, освещению, масштабу объектов и демографическим характеристикам. Если одна из категорий доминирует, ваша модель, скорее всего, не справится с остальными.
Далее посмотрите на производительность. Работает ли модель хуже в определенных условиях или для определенных типов объектов? Если да, то это признак выученной предвзятости, и обычно это указывает на данные.
Оценка на уровне срезов имеет ключевое значение. Модель может показывать среднюю точность 90 %, но только 60 % для определенной группы или условия. Не проверив эти срезы, вы никогда не узнаете об этом.
Использование метрик справедливости в процессе обучения и оценки - еще один мощный инструмент. Эти показатели выходят за рамки стандартных оценок точности и оценивают поведение модели на различных подмножествах данных. Они помогают выявить "слепые пятна", которые в противном случае могут остаться незамеченными.
Прозрачность состава наборов данных и тестирования моделей приводит к созданию лучших моделей.
Повышение справедливости за счет разнообразия и расширения данных
Как только вы выявили предвзятость, следующий шаг - устранить ее. Один из наиболее эффективных способов сделать это - увеличить разнообразие данных в моделях ИИ. Это означает сбор большего количества образцов из недопредставленных сценариев, будь то медицинские снимки различных групп населения или необычные условия окружающей среды.
Добавление дополнительных данных может быть полезным, особенно если оно увеличивает разнообразие. Однако повышение справедливости также зависит от сбора правильных примеров. Они должны отражать реальные вариации, с которыми может столкнуться ваша модель.
Дополнение данных - еще одна ценная стратегия. Переворачивание, вращение, регулировка освещения и масштабирование объектов помогают моделировать различные реальные условия. Дополнение не только увеличивает разнообразие наборов данных, но и помогает модели стать более устойчивой к изменениям внешнего вида, освещения и контекста.
Большинство современных систем обучения по умолчанию включают аугментацию, но стратегическое использование, например, фокусировка на корректировке в зависимости от конкретных задач, - вот что делает ее эффективной для справедливости.
Использование синтетических данных для заполнения пробелов
Синтетические данные - это искусственно созданные данные, которые имитируют реальные примеры. Это может быть полезным инструментом, когда определенные сценарии слишком редки или слишком чувствительны, чтобы их можно было зафиксировать в естественных условиях.
Например, если вы создаете модель для обнаружения редких дефектов в машинах или нарушений правил дорожного движения, вы можете смоделировать эти случаи с помощью синтетических данных. Это даст вашей модели возможность учиться на событиях, которые могут нечасто встречаться в обучающем наборе.
Исследования показали, что введение в процесс обучения целевых синтетических данных позволяет уменьшить предвзятость наборов данных и повысить эффективность работы в разных демографических группах и средах.
Синтетические данные лучше всего работают в паре с реальными образцами. Они дополняют ваш набор данных, а не заменяют его.
Как YOLO11 поддерживает этичный искусственный интеллект
Создание несмещенных моделей ИИ также зависит от используемых инструментов. YOLO11 разработан как гибкий, легко настраиваемый и хорошо адаптируемый инструмент, что делает его подходящим для уменьшения смещения наборов данных.
YOLO11 поддерживает передовые методы дополнения данных при обучении модели, что позволяет вводить различные контексты изображений и смешанные примеры для улучшения обобщения модели и уменьшения избыточной подгонки.
В YOLO11 также улучшена архитектура позвоночника и шеи для более эффективного извлечения признаков. Эта модернизация повышает способность модели обнаруживать мелкие детали, что очень важно в малопредставленных или краевых сценариях, где стандартные модели могут испытывать трудности.
Поскольку YOLO11 легко переучивается и развертывается в пограничных и облачных средах, команды могут выявлять недостатки в производительности и быстро обновлять модель при обнаружении погрешностей в полевых условиях.
Справедливый ИИ - это не одноразовая цель. Это цикл оценки, обучения и корректировки. Такие инструменты, как YOLO11, помогают сделать этот цикл более быстрым и продуктивным.
Основные выводы
Предвзятость ИИ влияет на все - от справедливости до производительности. Предвзятость в компьютерном зрении часто связана с тем, как собираются, маркируются и балансируются наборы данных. К счастью, существуют проверенные способы ее обнаружения и уменьшения.
Начните с аудита данных и тестирования производительности модели в различных сценариях. Используйте целенаправленный сбор данных, расширение и синтетические данные для создания лучшего охвата обучения.
YOLO11 поддерживает этот рабочий процесс, облегчая обучение пользовательских моделей, применяя сильные методы дополнения и быстро реагируя при обнаружении смещения.
Создание честного ИИ - это не просто правильное решение. Это еще и способ создания более умных и надежных систем.