Предварительная обработка данных
Освойте предварительную обработку данных для машинного обучения. Изучите такие методы, как очистка, масштабирование и кодирование, чтобы повысить точность и производительность модели.
Предварительная обработка данных - это важнейший начальный этап конвейера машинного обучения, на котором исходные данные преобразуются в
чистый, понятный алгоритмам формат. Реальные данные часто бывают неполными, непоследовательными и изобилуют
ошибками или выбросами. Если модель обучается на таких неполноценных исходных данных, то в результате
прогностическое моделирование, скорее всего, даст
неточные результаты, и это явление часто называют "мусор внутрь, мусор наружу". Систематическое
систематического решения этих проблем, предварительная обработка обеспечивает
высокое качество обучающих данных, что очень важно
для достижения оптимальной точности и стабильности модели.
Основные методы предварительной обработки
Конкретные этапы предварительной обработки зависят от типа данных - текста, изображений или табличных данных, - но в целом они включают несколько основных задач.
как правило, включают несколько основных задач.
-
Очистка данных: Это включает в себя
обработку недостающих значений, исправление зашумленных данных и устранение несоответствий. Методы могут включать в себя
недостающие записи с помощью статистических средств или полное удаление испорченных записей с помощью таких инструментов, как
Pandas.
-
Нормализация и масштабирование:
Алгоритмы часто работают плохо, когда признаки имеют совершенно разные масштабы (например, возраст и доход). Нормализация
приводит числовые столбцы к единой шкале, например от 0 до 1, не позволяя большим значениям доминировать в процессе
не позволяя большим значениям доминировать в процессе градиентного спуска. Вы можете прочитать больше
о стратегиях масштабирования в
документации Scikit-learn.
-
Кодирование: Модели машинного обучения обычно требуют числовых данных. Категориальные данные (например
"красный", "зеленый", "синий") должны быть преобразованы в числа с помощью таких методов, как
одноточечное кодирование или кодирование меток
кодирование.
-
Снижение размерности: Такие методы, как
анализ главных компонент (PCA)
уменьшают количество входных переменных, сохраняя только самую важную информацию, чтобы предотвратить
предотвращения перебора и ускорения обучения.
-
Изменение размера изображения: в
В компьютерном зрении (КВ) изображения часто должны быть
часто необходимо изменять размер изображения до фиксированного размера (например, 640x640 пикселей), чтобы оно соответствовало входному слою
Конволюционная нейронная сеть (CNN).
Применение в реальном мире
Предварительная обработка данных широко распространена во всех отраслях промышленности и служит основой для надежных систем искусственного интеллекта.
-
Анализ медицинских изображений:
При выявлении аномалий на снимках МРТ или КТ крайне важна предварительная обработка. Необработанные снимки отличаются по контрастности и разрешению
в зависимости от используемого аппарата. Предварительная обработка нормализует интенсивность пикселей и изменяет размер изображений, чтобы обеспечить
ИИ-агент фокусируется на патологических особенностях, а не на
а не на технических артефактах. Например, посмотрите, как исследователи
используют YOLO11 для обнаружения опухолей
для повышения точности диагностики.
-
Обнаружение финансового мошенничества: В банковском секторе журналы транзакций часто бывают беспорядочными и несбалансированными.
Предварительная обработка включает в себя очистку ошибок временных меток и нормализацию сумм транзакций. Очень важно, что она также включает
сбалансировать набор данных - поскольку мошенничество встречается редко - с помощью методов выборки, чтобы убедиться, что
модель обнаружения аномалий эффективно выявляет
подозрительную активность. IBM рассказывает о том, как подготовка данных
как подготовка данных поддерживает эти критически важные для бизнеса аналитические процессы.
Предварительная обработка с помощью Ultralytics YOLO
Современные фреймворки часто автоматизируют значительную часть конвейера препроцессинга. При использовании
YOLO11такие задачи, как изменение размера изображения, масштабирование значений пикселей и форматирование меток, решаются
в процессе обучения. Это позволяет разработчикам сосредоточиться на задачах более высокого уровня, таких как
оценке и развертывании модели.
Следующий пример демонстрирует, как YOLO11 автоматически обрабатывает изменение размера изображения через imgsz аргумент
во время обучения:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset.
# The 'imgsz' argument triggers automatic preprocessing to resize inputs to 640px.
model.train(data="coco8.yaml", epochs=5, imgsz=640)
Дифференциация смежных понятий
Полезно отличать предварительную обработку данных от аналогичных терминов в рабочем процессе машинного обучения:
-
В сравнении с расширением данных: В то время как
предварительная обработка форматирует данные, чтобы их можно было использовать (например, изменение размера), то расширение включает в себя создание
новых синтетических вариаций существующих данных (например, поворот, переворачивание), чтобы увеличить разнообразие и
устойчивость. Вы можете узнать больше в нашем
руководстве по расширению данных.
-
В сравнении с разработкой характеристик:
Предварительная обработка направлена на очистку и форматирование исходных данных. Разработка характеристик - это более творческий этап, который включает
получение новых, значимых переменных из этих данных (например, вычисление "цены за кв. фут" из
"цена" и "площадь"), чтобы улучшить
производительности модели.
-
В сравнении с маркировкой данных: Маркировка - это
ручной или автоматизированный процесс аннотирования данных (например, рисование
ограничительных рамок) для создания достоверных данных.
Предварительная обработка подготавливает эти помеченные изображения и аннотации для
нейронной сети.
Освоив предварительную обработку данных, инженеры закладывают основу для успешных
ИИ-проектов, гарантируя, что сложные
такие сложные модели, как YOLO11 и готовящейся к выпуску YOLO26, могут работать в полную силу. Для
Для управления наборами данных и автоматизации этих рабочих процессов платформа
Ultralytics Platform обеспечивает единую среду для оптимизации процесса
путь от исходных данных до развернутой модели.