Глоссарий

Предварительная обработка данных

Освойте предварительную обработку данных для машинного обучения. Изучите такие методы, как очистка, масштабирование и кодирование, чтобы повысить точность и производительность моделей.

Предварительная обработка данных - важнейший этап в процессе машинного обучения (ML), который включает в себя очистку, преобразование и организацию исходных данных, чтобы сделать их пригодными для обучения и построения моделей. Сырые данные из реального мира часто бывают неполными, непоследовательными и могут содержать ошибки. Предварительная обработка преобразует эти беспорядочные данные в чистый, хорошо структурированный формат, который необходим для эффективного обучения модели. Качество предсказаний модели в значительной степени зависит от качества данных, на которых она обучена, поэтому предварительная обработка данных является основополагающей практикой для достижения высокой точности и надежности работы систем искусственного интеллекта.

Ключевые задачи предварительной обработки данных

Предварительная обработка данных - это широкий термин, который включает в себя различные методы подготовки данных. Конкретные шаги зависят от набора данных и задачи ОД, но общие задачи включают:

  • Очистка данных: Это процесс выявления и исправления или удаления ошибок, несоответствий и недостающих значений из набора данных. Это может включать в себя восполнение недостающих данных с помощью статистических методов или удаление дублирующихся записей. Чистые данные - краеугольный камень любой надежной модели.
  • Трансформация данных: Это изменение масштаба или распределения данных. Распространенной техникой является нормализациякоторая приводит числовые признаки к стандартному диапазону (например, от 0 до 1), чтобы признаки с большим масштабом не доминировали в процессе обучения. Подробнее о различных методах масштабирования можно узнать из документации по препроцессингу scikit-learn.
  • Feature Engineering: Это творческий процесс создания новых признаков на основе существующих для повышения эффективности модели. Это может включать в себя объединение признаков, их декомпозицию или использование знаний о домене для извлечения более значимой информации. Связанная с этим концепция извлечение признаковкоторая автоматически уменьшает размерность данных.
  • Кодирование категориальных данных: Многие алгоритмы ML требуют числовых данных. Предварительная обработка часто включает преобразование категориальных данных (например, текстовых меток) в числовой формат с помощью таких методов, как одноточечное кодирование.
  • Изменение размера и увеличение: В компьютерном зрении (КЗ) предварительная обработка включает изменение размера изображений до единой размерности. За ней также может следовать увеличение данныхкоторое искусственно расширяет набор данных путем создания модифицированных версий изображений.

Реальные приложения AI/ML

Предварительная обработка данных - универсальное требование для всех областей искусственного интеллекта. Ее применение критически важно для успешного решения как простых, так и сложных задач.

  1. Анализ медицинских изображений: Прежде чем обучить модель YOLO обнаруживать опухоли на снимках МРТ из такого набора данных, как Brain Tumor dataset, изображения необходимо предварительно обработать. Она включает в себя нормализацию значений интенсивности пикселей для учета различий в сканирующем оборудовании, изменение размера всех изображений до согласованного размера входного сигнала, необходимого для основы модели, и очистку набора данных для удаления поврежденных файлов или неправильно помеченных примеров. Благодаря этому конволюционная нейронная сеть (CNN) обучается истинным патологическим особенностям модели, а не вариациям в визуализации. Подробнее об этом вы можете прочитать в нашем блоге об использовании YOLO для обнаружения опухолей.
  2. Прогнозирование розничной торговли с помощью искусственного интеллекта: Для модели, прогнозирующей покупательский спрос в розничной торговле, необработанные данные о продажах часто содержат недостающие записи о транзакциях, непоследовательные наименования товаров и характеристики в совершенно разных масштабах (например, "цена товара" и "количество проданных товаров"). Предварительная обработка включает в себя вычитание недостающих данных о продажах, стандартизацию названий товаров и нормализацию числовых характеристик, чтобы алгоритм прогнозного моделирования мог эффективно оценить важность каждого фактора. Обзор предварительной обработки данных для бизнеса включает в себя следующие этапы.

Предварительная обработка данных в сравнении со смежными понятиями

Полезно отличать предварительную обработку данных от других терминов, связанных с управлением данными.

  • Очистка данных: Как уже говорилось, очистка данных - это подмножество предварительной обработки данных. В то время как предварительная обработка - это весь процесс подготовки данных для модели, очистка сосредоточена на исправлении ошибок, обработке пропущенных значений и устранении несоответствий в исходном наборе данных.
  • Увеличение данных: Увеличение объема данных - это техника, используемая для искусственного увеличения размера обучающих данных. Хотя оно является частью подготовки данных к обучению, его обычно применяют после того, как в исходном наборе данных уже выполнены такие этапы предварительной обработки, как очистка и изменение размера. Цель дополнения - улучшить обобщение модели, в то время как предварительная обработка направлена на то, чтобы сделать исходные данные пригодными для использования.
  • Аналитика данных: Аналитика данных - это более широкая область, которая включает в себя изучение наборов данных с целью получения выводов и поддержки принятия решений. Предварительная обработка данных - это основополагающий первый шаг в рабочем процессе анализа данных, который также включает в себя разведочный анализ данных (EDA), моделирование и визуализацию данных.

Платформы, подобные Ultralytics HUB, помогут управлять наборами данных и оптимизировать жизненный цикл ML - от подготовки данных до развертывания модели. Руководство по предварительной обработке аннотированных данных содержит дополнительные практические сведения.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена