Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Data Cleaning

Освой очистку данных для повышения точности модели ИИ. Изучи методы удаления ошибок, обработки пропущенных значений и подготовки чистых наборов данных для Ultralytics YOLO26.

Очистка данных — это критически важный процесс обнаружения и исправления (или удаления) поврежденных, неточных или неактуальных записей из набора данных, таблицы или базы данных. В сфере искусственного интеллекта (ИИ) и машинного обучения (ML) этот этап часто считается самой трудоемкой, но необходимой частью рабочего процесса. Прежде чем такая модель, как YOLO26, сможет эффективно научиться распознавать объекты, обучающие данные должны быть очищены от ошибок, чтобы предотвратить феномен «мусор на входе — мусор на выходе», когда данные низкого качества приводят к ненадежным результатам.

Link to this sectionВажность целостности данных в ИИ#

Высокопроизводительные модели компьютерного зрения сильно зависят от качества используемых ими наборов данных. Если набор данных содержит неверно помеченные изображения, дубликаты или поврежденные файлы, модели будет трудно обобщать закономерности, что приведет к переобучению или низкой точности вывода. Эффективная очистка данных повышает надежность прогнозных моделей и гарантирует, что алгоритм обучается на полезных сигналах, а не на шуме.

Link to this sectionРаспространенные методы очистки данных#

Специалисты применяют различные стратегии для уточнения своих наборов данных, используя такие инструменты, как Pandas для табличных данных или специализированные инструменты для работы с изображениями.

  • Обработка пропущенных значений: Этот процесс включает в себя удаление записей с пропущенными данными или использование методов импутации для заполнения пробелов на основе статистических средних значений или метода ближайших соседей.
  • Удаление дубликатов: Дубликаты изображений в обучающем наборе могут непреднамеренно исказить работу модели. Их удаление гарантирует, что модель не запоминает конкретные примеры, что помогает смягчить смещение набора данных.
  • Обнаружение выбросов: Выявление и обработка аномалий или выбросов, которые значительно отклоняются от нормы, имеют решающее значение, поскольку они могут исказить статистический анализ и веса модели.
  • Структурное исправление: Сюда входит исправление опечаток в метках классов (например, приведение «Car» и «car» к одному виду) для обеспечения согласованности классов.

Link to this sectionРеальные приложения#

Очистка данных играет ключевую роль в различных отраслях, где внедряется ИИ.

  • Анализ медицинских изображений: В приложениях ИИ для здравоохранения наборы данных часто содержат сканы с артефактами, неверными метаданными пациента или посторонними шумами. Очистка этих данных гарантирует, что модели анализа медицинских изображений фокусируются исключительно на биологических маркерах, важных для диагностики.
  • Управление запасами в ритейле: Для ИИ в ритейле наборы данных о продуктах могут содержать устаревшие позиции или изображения с неверным соотношением сторон. Очистка этих наборов гарантирует, что модели обнаружения объектов смогут точно определять уровни запасов и сокращать количество ложных срабатываний в реальных условиях.

Link to this sectionОтличие очистки данных от предобработки#

Хотя эти понятия часто используют как взаимозаменяемые, очистка данных отличается от предобработки данных. Очистка данных направлена на исправление ошибок и удаление «плохих» данных. Предобработка же, напротив, предполагает преобразование очищенных данных в формат, подходящий для модели, например, изменение размера изображения, нормализацию или применение аугментации данных для увеличения разнообразия.

Link to this sectionАвтоматизация проверок качества#

Современные рабочие процессы, такие как те, что доступны на Ultralytics Platform, включают автоматизированные проверки для выявления поврежденных изображений или несоответствий в метках перед началом обучения. Ниже приведен простой пример на Python, демонстрирующий, как проверять и выявлять поврежденные файлы изображений с помощью стандартной библиотеки Pillow — это стандартный шаг перед подачей данных в такую модель, как YOLO26.

from pathlib import Path

from PIL import Image


def verify_images(dataset_path):
    """Iterates through a directory to identify corrupt images."""
    for img_path in Path(dataset_path).glob("*.jpg"):
        try:
            with Image.open(img_path) as img:
                img.verify()  # Checks file integrity
        except (OSError, SyntaxError):
            print(f"Corrupt file found: {img_path}")


# Run verification on your dataset
verify_images("./coco8/images/train")

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения