Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

Предварительная обработка данных

Освойте предварительную обработку данных для машинного обучения. Изучите такие методы, как очистка, масштабирование и кодирование, чтобы повысить точность и производительность модели.

Предварительная обработка данных — это важный этап в конвейере машинного обучения (ML), который включает в себя очистку, преобразование и организацию необработанных данных, чтобы сделать их пригодными для обучения и построения моделей. Необработанные данные из реального мира часто бывают неполными, противоречивыми и могут содержать ошибки. Предварительная обработка преобразует эти «грязные» данные в чистый, хорошо структурированный формат, что необходимо для эффективного обучения модели. Качество прогнозов модели сильно зависит от качества данных, на которых она обучается, что делает предварительную обработку данных основополагающей практикой для достижения высокой точности и надежной производительности в системах ИИ.

Основные задачи в предварительной обработке данных

Предварительная обработка данных — это широкий термин, охватывающий различные методы подготовки данных. Конкретные шаги зависят от набора данных и задачи машинного обучения, но общие задачи включают в себя:

  • Data Cleaning / Очистка данных: Это процесс выявления и исправления или удаления ошибок, несоответствий и пропущенных значений из набора данных. Это может включать заполнение пропущенных данных с использованием статистических методов или удаление повторяющихся записей. Чистые данные — краеугольный камень любой надежной модели.
  • Data Transformation / Преобразование данных: Это включает в себя изменение масштаба или распределения данных. Распространенным методом является нормализация, которая масштабирует числовые признаки до стандартного диапазона (например, от 0 до 1), чтобы предотвратить доминирование признаков с большими масштабами в процессе обучения. Вы можете узнать больше о различных методах масштабирования из документации scikit-learn по предварительной обработке.
  • Разработка признаков: Это творческий процесс создания новых признаков из существующих для повышения производительности модели. Это может включать объединение признаков, их декомпозицию или использование знаний предметной области для извлечения более значимой информации. Связанным понятием является извлечение признаков, которое автоматически уменьшает размерность данных.
  • Кодирование категориальных данных: Многие алгоритмы машинного обучения требуют числовых входных данных. Предварительная обработка часто включает преобразование категориальных данных (например, текстовых меток) в числовой формат с помощью таких методов, как one-hot encoding.
  • Изменение размера и увеличение (Resizing and Augmentation): В компьютерном зрении (CV) предварительная обработка включает изменение размера изображений до единообразного измерения. За этим может следовать аугментация данных, которая искусственно расширяет набор данных, создавая измененные версии изображений.

Реальные приложения AI/ML

Предварительная обработка данных является универсальным требованием во всех областях ИИ. Ее применение имеет решающее значение для успеха как в простых, так и в сложных задачах.

  1. Анализ медицинских изображений: Прежде чем модель YOLO можно будет обучить обнаруживать опухоли на МРТ-снимках из набора данных, такого как набор данных об опухолях головного мозга, изображения необходимо предварительно обработать. Это включает в себя нормализацию значений интенсивности пикселей для учета различий в сканирующем оборудовании, изменение размера всех изображений до согласованного размера входных данных, требуемого базовой сетью модели, и очистку набора данных для удаления поврежденных файлов или неправильно помеченных примеров. Это гарантирует, что сверточная нейронная сеть (CNN) изучает истинные патологические особенности модели, а не вариации в визуализации. Вы можете узнать больше об этом в нашем блоге об использовании YOLO для обнаружения опухолей.
  2. Прогнозирование в розничной торговле на основе ИИ: Для модели, которая прогнозирует спрос клиентов в розничной торговле, необработанные данные о продажах часто содержат отсутствующие записи о транзакциях, непоследовательное наименование продуктов и признаки в совершенно разных масштабах (например, «цена товара» и «количество проданных товаров»). Предварительная обработка здесь включает в себя вменение отсутствующих показателей продаж, стандартизацию названий продуктов и нормализацию числовых признаков, чтобы алгоритм прогнозного моделирования мог эффективно взвешивать важность каждого фактора. Обзор предварительной обработки для бизнеса освещает эти шаги.

Предварительная обработка данных в сравнении со смежными понятиями

Полезно отличать предварительную обработку данных от других связанных терминов управления данными.

  • Data Cleaning / Очистка данных: Как упоминалось, очистка данных является подмножеством предварительной обработки данных. В то время как предварительная обработка — это весь процесс подготовки данных для модели, очистка конкретно фокусируется на исправлении ошибок, обработке пропущенных значений и удалении несоответствий в необработанном наборе данных.
  • Data Augmentation / Аугментация данных: Аугментация данных — это метод, используемый для искусственного увеличения размера обучающих данных. Хотя это часть подготовки данных к обучению, она обычно применяется после того, как на исходном наборе данных уже выполнены начальные этапы предварительной обработки, такие как очистка и изменение размера. Цель аугментации — улучшить обобщающую способность модели, тогда как предварительная обработка направлена на то, чтобы сделать исходные данные пригодными для использования.
  • Data Analytics / Анализ данных: Анализ данных — это гораздо более широкая область, которая включает в себя изучение наборов данных для формулирования выводов и поддержки принятия решений. Предварительная обработка данных является основополагающим первым шагом в рамках рабочего процесса анализа данных, который также включает разведочный анализ данных (EDA), моделирование и визуализацию данных.

Платформы, такие как Ultralytics HUB, могут помочь в управлении наборами данных и оптимизации жизненного цикла ML, от подготовки данных до развертывания моделей. Руководство по предварительной обработке аннотированных данных содержит дополнительные практические сведения.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена