Data Cleaning

Освой очистку данных для повышения точности модели ИИ. Изучи методы удаления ошибок, обработки пропущенных значений и подготовки чистых наборов данных для Ultralytics YOLO26.

Очистка данных — это критически важный процесс обнаружения и исправления (или удаления) поврежденных, неточных или неактуальных записей из набора данных, таблицы или базы данных. В сфере искусственного интеллекта (ИИ) и машинного обучения (ML) этот этап часто считается самой трудоемкой, но необходимой частью рабочего процесса. Прежде чем такая модель, как YOLO26, сможет эффективно научиться распознавать объекты, обучающие данные должны быть очищены от ошибок, чтобы предотвратить феномен «мусор на входе — мусор на выходе», когда данные низкого качества приводят к ненадежным результатам.

Link to this sectionВажность целостности данных в ИИ#

Высокопроизводительные модели компьютерного зрения сильно зависят от качества используемых ими наборов данных. Если набор данных содержит неверно помеченные изображения, дубликаты или поврежденные файлы, модели будет трудно обобщать закономерности, что приведет к переобучению или низкой точности вывода. Эффективная очистка данных повышает надежность прогнозных моделей и гарантирует, что алгоритм обучается на полезных сигналах, а не на шуме.

Link to this sectionРаспространенные методы очистки данных#

Специалисты применяют различные стратегии для уточнения своих наборов данных, используя такие инструменты, как Pandas для табличных данных или специализированные инструменты для работы с изображениями.

Обработка пропущенных значений: Этот процесс включает в себя удаление записей с пропущенными данными или использование методов импутации для заполнения пробелов на основе статистических средних значений или метода ближайших соседей.
Удаление дубликатов: Дубликаты изображений в обучающем наборе могут непреднамеренно исказить работу модели. Их удаление гарантирует, что модель не запоминает конкретные примеры, что помогает смягчить смещение набора данных.
Обнаружение выбросов: Выявление и обработка аномалий или выбросов, которые значительно отклоняются от нормы, имеют решающее значение, поскольку они могут исказить статистический анализ и веса модели.
Структурное исправление: Сюда входит исправление опечаток в метках классов (например, приведение «Car» и «car» к одному виду) для обеспечения согласованности классов.

Link to this sectionРеальные приложения#

Очистка данных играет ключевую роль в различных отраслях, где внедряется ИИ.

Анализ медицинских изображений: В приложениях ИИ для здравоохранения наборы данных часто содержат сканы с артефактами, неверными метаданными пациента или посторонними шумами. Очистка этих данных гарантирует, что модели анализа медицинских изображений фокусируются исключительно на биологических маркерах, важных для диагностики.
Управление запасами в ритейле: Для ИИ в ритейле наборы данных о продуктах могут содержать устаревшие позиции или изображения с неверным соотношением сторон. Очистка этих наборов гарантирует, что модели обнаружения объектов смогут точно определять уровни запасов и сокращать количество ложных срабатываний в реальных условиях.

Link to this sectionОтличие очистки данных от предобработки#

Хотя эти понятия часто используют как взаимозаменяемые, очистка данных отличается от предобработки данных. Очистка данных направлена на исправление ошибок и удаление «плохих» данных. Предобработка же, напротив, предполагает преобразование очищенных данных в формат, подходящий для модели, например, изменение размера изображения, нормализацию или применение аугментации данных для увеличения разнообразия.

Link to this sectionАвтоматизация проверок качества#

Современные рабочие процессы, такие как те, что доступны на Ultralytics Platform, включают автоматизированные проверки для выявления поврежденных изображений или несоответствий в метках перед началом обучения. Ниже приведен простой пример на Python, демонстрирующий, как проверять и выявлять поврежденные файлы изображений с помощью стандартной библиотеки Pillow — это стандартный шаг перед подачей данных в такую модель, как YOLO26.

from pathlib import Path

from PIL import Image


def verify_images(dataset_path):
    """Iterates through a directory to identify corrupt images."""
    for img_path in Path(dataset_path).glob("*.jpg"):
        try:
            with Image.open(img_path) as img:
                img.verify()  # Checks file integrity
        except (OSError, SyntaxError):
            print(f"Corrupt file found: {img_path}")


# Run verification on your dataset
verify_images("./coco8/images/train")

Explore solutions

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Data Cleaning

Link to this sectionВажность целостности данных в ИИ#

Link to this sectionРаспространенные методы очистки данных#

Link to this sectionРеальные приложения#

Link to this sectionОтличие очистки данных от предобработки#

Link to this sectionАвтоматизация проверок качества#

Explore solutions

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

Давай строить будущее ИИ вместе!