Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Предварительная обработка данных

Освойте предварительную обработку данных для машинного обучения. Изучите такие методы, как очистка, масштабирование и кодирование, чтобы повысить точность и производительность модели.

Предварительная обработка данных - это важнейший начальный этап конвейера машинного обучения, на котором исходные данные преобразуются в чистый, понятный алгоритмам формат. Реальные данные часто бывают неполными, непоследовательными и изобилуют ошибками или выбросами. Если модель обучается на таких неполноценных исходных данных, то в результате прогностическое моделирование, скорее всего, даст неточные результаты, и это явление часто называют "мусор внутрь, мусор наружу". Систематическое систематического решения этих проблем, предварительная обработка обеспечивает высокое качество обучающих данных, что очень важно для достижения оптимальной точности и стабильности модели.

Основные методы предварительной обработки

Конкретные этапы предварительной обработки зависят от типа данных - текста, изображений или табличных данных, - но в целом они включают несколько основных задач. как правило, включают несколько основных задач.

  • Очистка данных: Это включает в себя обработку недостающих значений, исправление зашумленных данных и устранение несоответствий. Методы могут включать в себя недостающие записи с помощью статистических средств или полное удаление испорченных записей с помощью таких инструментов, как Pandas.
  • Нормализация и масштабирование: Алгоритмы часто работают плохо, когда признаки имеют совершенно разные масштабы (например, возраст и доход). Нормализация приводит числовые столбцы к единой шкале, например от 0 до 1, не позволяя большим значениям доминировать в процессе не позволяя большим значениям доминировать в процессе градиентного спуска. Вы можете прочитать больше о стратегиях масштабирования в документации Scikit-learn.
  • Кодирование: Модели машинного обучения обычно требуют числовых данных. Категориальные данные (например "красный", "зеленый", "синий") должны быть преобразованы в числа с помощью таких методов, как одноточечное кодирование или кодирование меток кодирование.
  • Снижение размерности: Такие методы, как анализ главных компонент (PCA) уменьшают количество входных переменных, сохраняя только самую важную информацию, чтобы предотвратить предотвращения перебора и ускорения обучения.
  • Изменение размера изображения: в В компьютерном зрении (КВ) изображения часто должны быть часто необходимо изменять размер изображения до фиксированного размера (например, 640x640 пикселей), чтобы оно соответствовало входному слою Конволюционная нейронная сеть (CNN).

Применение в реальном мире

Предварительная обработка данных широко распространена во всех отраслях промышленности и служит основой для надежных систем искусственного интеллекта.

  1. Анализ медицинских изображений: При выявлении аномалий на снимках МРТ или КТ крайне важна предварительная обработка. Необработанные снимки отличаются по контрастности и разрешению в зависимости от используемого аппарата. Предварительная обработка нормализует интенсивность пикселей и изменяет размер изображений, чтобы обеспечить ИИ-агент фокусируется на патологических особенностях, а не на а не на технических артефактах. Например, посмотрите, как исследователи используют YOLO11 для обнаружения опухолей для повышения точности диагностики.
  2. Обнаружение финансового мошенничества: В банковском секторе журналы транзакций часто бывают беспорядочными и несбалансированными. Предварительная обработка включает в себя очистку ошибок временных меток и нормализацию сумм транзакций. Очень важно, что она также включает сбалансировать набор данных - поскольку мошенничество встречается редко - с помощью методов выборки, чтобы убедиться, что модель обнаружения аномалий эффективно выявляет подозрительную активность. IBM рассказывает о том, как подготовка данных как подготовка данных поддерживает эти критически важные для бизнеса аналитические процессы.

Предварительная обработка с помощью Ultralytics YOLO

Современные фреймворки часто автоматизируют значительную часть конвейера препроцессинга. При использовании YOLO11такие задачи, как изменение размера изображения, масштабирование значений пикселей и форматирование меток, решаются в процессе обучения. Это позволяет разработчикам сосредоточиться на задачах более высокого уровня, таких как оценке и развертывании модели.

Следующий пример демонстрирует, как YOLO11 автоматически обрабатывает изменение размера изображения через imgsz аргумент во время обучения:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset.
# The 'imgsz' argument triggers automatic preprocessing to resize inputs to 640px.
model.train(data="coco8.yaml", epochs=5, imgsz=640)

Дифференциация смежных понятий

Полезно отличать предварительную обработку данных от аналогичных терминов в рабочем процессе машинного обучения:

  • В сравнении с расширением данных: В то время как предварительная обработка форматирует данные, чтобы их можно было использовать (например, изменение размера), то расширение включает в себя создание новых синтетических вариаций существующих данных (например, поворот, переворачивание), чтобы увеличить разнообразие и устойчивость. Вы можете узнать больше в нашем руководстве по расширению данных.
  • В сравнении с разработкой характеристик: Предварительная обработка направлена на очистку и форматирование исходных данных. Разработка характеристик - это более творческий этап, который включает получение новых, значимых переменных из этих данных (например, вычисление "цены за кв. фут" из "цена" и "площадь"), чтобы улучшить производительности модели.
  • В сравнении с маркировкой данных: Маркировка - это ручной или автоматизированный процесс аннотирования данных (например, рисование ограничительных рамок) для создания достоверных данных. Предварительная обработка подготавливает эти помеченные изображения и аннотации для нейронной сети.

Освоив предварительную обработку данных, инженеры закладывают основу для успешных ИИ-проектов, гарантируя, что сложные такие сложные модели, как YOLO11 и готовящейся к выпуску YOLO26, могут работать в полную силу. Для Для управления наборами данных и автоматизации этих рабочих процессов платформа Ultralytics Platform обеспечивает единую среду для оптимизации процесса путь от исходных данных до развернутой модели.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас