Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Dataset Bias

Исследуй причины предвзятости наборов данных в ИИ и научись смягчать искажения. Узнай, как использовать платформу Ultralytics и Ultralytics YOLO26 для повышения справедливости.

Смещение набора данных возникает, когда информация, используемая для обучения моделей машинного обучения (ML), содержит систематические ошибки или искаженные распределения, что заставляет итоговую систему ИИ отдавать предпочтение определенным результатам перед другими. Поскольку модели работают как механизмы распознавания образов, они полностью зависят от своих входных данных; если обучающие данные не отражают точно разнообразие реальной среды, модель унаследует эти «слепые зоны». Это явление часто приводит к плохой обобщающей способности, когда ИИ может показывать высокие баллы во время тестирования, но значительно подводит при развертывании для вывода в реальном времени в разнообразных или неожиданных сценариях.

Link to this sectionРаспространенные источники искажения данных#

Смещение может проникнуть в набор данных на нескольких этапах жизненного цикла разработки, часто возникая из-за человеческих решений в процессе сбора или аннотирования.

  • Смещение отбора: Это возникает, когда собранные данные не представляют целевую популяцию случайным образом. Например, создание набора данных для распознавания лиц, состоящего преимущественно из изображений знаменитостей, может исказить модель в сторону тяжелого макияжа и профессионального освещения, заставляя ее не справляться с обычными изображениями с веб-камер.
  • Ошибки разметки: Субъективность во время разметки данных может привнести человеческие предубеждения. Если аннотаторы постоянно неверно классифицируют неоднозначные объекты из-за отсутствия четких руководств, модель воспринимает эти ошибки как «истину в последней инстанции».
  • Смещение репрезентативности: Даже при случайном выборе группы меньшинств могут быть статистически «заглушены» мажоритарным классом. В обнаружении объектов набор данных с 10 000 изображений автомобилей, но всего со 100 изображениями велосипедов, приведет к модели, смещенной в сторону обнаружения автомобилей.

Link to this sectionПрименение в реальном мире и последствия#

Влияние смещения набора данных значительно в различных отраслях, особенно там, где автоматизированные системы принимают критически важные решения или взаимодействуют с физическим миром.

В автомобильной промышленности ИИ в автомобилях полагается на камеры для распознавания пешеходов и препятствий. Если самоуправляемый автомобиль обучается преимущественно на данных, собранных в солнечную сухую погоду, он может демонстрировать снижение производительности при работе в условиях снега или сильного дождя. Это классический пример того, как распределение обучающих данных не совпадает с операционным распределением, что приводит к рискам безопасности.

Аналогично, в анализе медицинских изображений диагностические модели часто обучаются на исторических данных пациентов. Если модель, предназначенная для обнаружения кожных заболеваний, обучается на наборе данных, в котором преобладают светлые тона кожи, она может демонстрировать значительно более низкую точность при диагностике пациентов с темной кожей. Решение этой проблемы требует согласованных усилий по курированию разнообразных наборов данных, которые обеспечивают справедливость ИИ для всех демографических групп.

Link to this sectionСтратегии по смягчению последствий#

Разработчики могут уменьшить смещение набора данных, применяя строгий аудит и передовые стратегии обучения. Такие методы, как аугментация данных, помогают сбалансировать наборы данных путем искусственного создания вариаций недостаточно представленных примеров (например, отражение, поворот или настройка яркости). Кроме того, генерация синтетических данных может заполнить пробелы, где реальные данные скудны или их трудно собрать.

Эффективное управление этими наборами данных имеет решающее значение. Платформа Ultralytics позволяет командам визуализировать распределение классов и выявлять дисбалансы еще до начала обучения. Кроме того, соблюдение руководств, таких как Система управления рисками ИИ NIST, помогает организациям структурировать свой подход к выявлению и систематическому снижению этих рисков.

Link to this sectionСмещение набора данных против смежных понятий#

Полезно отличать смещение набора данных от похожих терминов, чтобы понять, откуда берется ошибка:

  • vs. Алгоритмическое смещение: Смещение набора данных ориентировано на данные; это означает, что «ингредиенты» несовершенны. Алгоритмическое смещение ориентировано на модель; оно возникает из-за дизайна самого алгоритма или алгоритма оптимизации, который может отдавать приоритет мажоритарным классам для максимизации общих метрик в ущерб группам меньшинств.
  • vs. Дрейф модели: Смещение набора данных — это статическая проблема, существующая во время обучения. Дрейф модели (или дрейф данных) возникает, когда реальные данные со временем меняются после развертывания модели, что требует непрерывного мониторинга модели.

Link to this sectionПример кода: Аугментация для уменьшения смещения#

Следующий пример демонстрирует, как применять аугментацию данных во время обучения с YOLO26. Увеличивая количество геометрических преобразований, модель учится лучше обобщать, что потенциально снижает смещение в сторону конкретных ориентаций или позиций объектов, обнаруженных в обучающем наборе.

from ultralytics import YOLO

# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")

# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
    data="coco8.yaml",
    epochs=50,
    fliplr=0.5,  # 50% probability of horizontal flip
    scale=0.5,  # +/- 50% image scaling
)

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения