Глоссарий

Очистка данных

Мастерство очистки данных для проектов ИИ и ML. Узнайте, как исправить ошибки, повысить качество данных и эффективно увеличить производительность моделей!

Очистка данных - это процесс выявления и исправления или удаления поврежденных, неточных, неполных или противоречивых данных из набора данных. Это критически важный первый шаг в любом рабочем процессе машинного обучения (ML), поскольку качество обучающих данных напрямую определяет производительность и надежность итоговой модели. В соответствии с принципом "мусор внутрь, мусор наружу", очистка данных гарантирует, что такие модели, как Ultralytics YOLO, обучаются на точной и последовательной информации, что приводит к повышению точности и надежности прогнозов. Без надлежащей очистки глубинные проблемы в данных могут привести к искажению результатов и плохому обобщению модели.

Основные задачи по очистке данных

Процесс очистки данных включает в себя несколько отдельных задач, направленных на решение различных типов проблем с качеством данных. Эти задачи часто итеративны и могут требовать специальных знаний.

  • Работа с пропущенными значениями: Наборы данных часто содержат пропущенные записи, которые можно устранить путем удаления неполных записей или вменения (восполнения) пропущенных значений с помощью статистических методов, таких как среднее значение, медиана или более сложные прогностические модели. Руководство по работе с отсутствующими данными может дать дополнительную информацию.
  • Исправление неточных данных: Сюда входит исправление типографских ошибок, несоответствий измерений (например, фунты против килограммов) и фактически неверной информации. Для выявления таких ошибок часто применяются правила проверки данных.
  • Удаление дубликатов: Дублирующие записи могут внести погрешность в модель, придав излишний вес определенным точкам данных. Выявление и удаление таких дублирующих записей является стандартным шагом.
  • Управление выбросами: Выбросы - это точки данных, которые значительно отклоняются от других наблюдений. В зависимости от причины их возникновения, они могут быть удалены, исправлены или преобразованы, чтобы не допустить их негативного влияния на процесс обучения модели. Для этого широко используются методы обнаружения выбросов.
  • Стандартизация данных: Это означает, что данные должны соответствовать единому формату. В качестве примера можно привести стандартизацию форматов дат, выделение текста (например, перевод всего текста в нижний регистр) и преобразование единиц измерения. Последовательные стандарты качества данных имеют решающее значение для успеха.

Реальные приложения AI/ML

  1. Анализ медицинских изображений: При обучении модели обнаружения объектов на таком наборе данных, как набор данных "Опухоли головного мозга", очень важна очистка данных. Этот процесс включает в себя удаление поврежденных или некачественных файлов изображений, приведение всех изображений к единому разрешению и формату, а также проверку правильности меток и аннотаций пациента. Это гарантирует, что модель будет обучаться на основе четкой и достоверной информации, что очень важно для разработки надежных диагностических инструментов в рамках проекта AI in Healthcare. Национальный институт биомедицинской визуализации и биоинженерии (NIBIB) подчеркивает важность качественных данных в медицинских исследованиях.
  2. ИИ для управления запасами в розничной торговле: В розничной торговле на основе ИИ модели компьютерного зрения отслеживают запасы на полках с помощью камер. Очистка данных необходима для фильтрации размытых изображений, удаления кадров, на которых товары заслоняют покупатели, и удаления дублирования количества товаров с нескольких ракурсов камеры. Исправление этих проблем позволяет системе инвентаризации получить точное представление об уровне запасов, что способствует более рациональному пополнению запасов и сокращению отходов. Такие компании, как Google Cloud, предлагают аналитические решения, в которых качество данных имеет первостепенное значение.

Очистка данных в сравнении со смежными понятиями

Важно отличать очистку данных от связанных с ней этапов подготовки данных:

  • Предварительная обработка данных: Это более широкий термин, который включает в себя не только очистку данных, но и другие преобразования для подготовки данных к ML-моделям, такие как нормализация (масштабирование числовых характеристик), кодирование категориальных переменных и извлечение признаков. В то время как очистка сосредоточена на исправлении ошибок, предварительная обработка сосредоточена на форматировании данных для алгоритмов. Более подробную информацию см. в руководстве Ultralytics по предварительной обработке аннотированных данных.
  • Маркировка данных: Это процесс добавления информативных меток или аннотаций (меток) к необработанным данным, например, рисование ограничительных рамок вокруг объектов на изображениях для контролируемого обучения. Очистка данных может включать исправление неправильных меток, выявленных в ходе проверки качества, но она отличается от первоначального процесса маркировки. Руководство по сбору данных и аннотированию содержит подробную информацию о маркировке.
  • Дополнение данных: Эта техника искусственно увеличивает размер и разнообразие обучающего набора данных путем создания модифицированных копий существующих данных (например, поворот изображений, изменение яркости). Дополнение данных направлено на улучшение обобщения и устойчивости модели, в то время как очистка данных направлена на улучшение качества исходных данных. Узнайте больше в статье The Ultimate Guide to Data Augmentation.

Очистка данных - это основополагающая, часто итеративная практика, которая значительно повышает надежность и производительность систем искусственного интеллекта за счет обеспечения надежности исходных данных. Такие инструменты, как библиотека Pandas, широко используются для манипулирования данными и их очистки в рабочих процессах ML на базе Python. Обеспечение качества данных путем их тщательной очистки жизненно важно для разработки надежного ИИ, особенно при работе со сложными задачами компьютерного зрения (CV) или крупными эталонными наборами данных, такими как COCO или ImageNet. Платформы, подобные Ultralytics HUB, помогут управлять и поддерживать высококачественные наборы данных на протяжении всего жизненного цикла проекта.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена