Data-Centric AI

Исследуй ориентированный на данные ИИ (Data-Centric AI) для повышения производительности модели путем приоритизации качества данных. Научись курировать наборы данных для Ultralytics YOLO26 с помощью платформы Ultralytics.

Data-Centric AI — это философия и подход к машинному обучению, которые фокусируются на улучшении качества набора данных, используемого для обучения модели, вместо того чтобы в первую очередь концентрироваться на настройке архитектуры модели или гиперпараметров. В традиционной разработке, ориентированной на модель, инженеры часто оставляют набор данных неизменным, итеративно улучшая алгоритм, чтобы получить более высокую производительность. Data-Centric AI переворачивает эту парадигму, предполагая, что для многих современных приложений архитектура модели уже достаточно совершенна, и наиболее эффективным способом повышения производительности является систематическая работа с самими данными. Это включает в себя очистку, разметку, аугментацию и курирование наборов данных для обеспечения их согласованности, разнообразия и репрезентативности для решения задач реального мира.

Link to this sectionОсновная философия: качество данных важнее количества#

Переход к методологиям, ориентированным на данные, признает, что принцип «мусор на входе — мусор на выходе» является фундаментальной истиной в машинном обучении. Простое увеличение объема данных не всегда является решением, если эти данные зашумлены или содержат предвзятость. Вместо этого такой подход подчеркивает важность высококачественных наборов данных компьютерного зрения. Приоритизируя качество данных и их согласованность, разработчики часто могут достичь более высокой точности с меньшими, хорошо структурированными наборами данных, чем с огромными, но неаккуратными.

Эта философия тесно связана с активным обучением, где модель помогает определить, какие точки данных наиболее ценны для последующей разметки. Инструменты вроде Ultralytics Platform способствуют этому, упрощая разметку данных и управление ими, позволяя командам совместно работать над улучшением качества наборов данных. Это контрастирует с рабочими процессами чисто обучения с учителем, где набор данных часто рассматривается как статический артефакт.

Link to this sectionКлючевые методы в Data-Centric AI#

Внедрение стратегии, ориентированной на данные, включает в себя несколько практических шагов, выходящих за рамки простого сбора данных.

Согласованность разметки: крайне важно обеспечить, чтобы все аннотаторы размечали объекты одинаково. Например, в обнаружении объектов строгое определение того, следует ли включать боковое зеркало автомобиля в ограничивающую рамку (BBox), может существенно повлиять на производительность модели.
Аугментация данных: систематическое применение преобразований к существующим данным для охвата граничных случаев. Ты можешь ознакомиться с нашим полным руководством по аугментации данных, чтобы понять, как такие методы, как поворот и мозаичная аугментация, помогают моделям лучше обобщать.
Анализ ошибок: выявление конкретных классов или сценариев, в которых модель дает сбои, и сбор целевых данных для устранения этих пробелов. Это часто включает проверку матриц ошибок для точечного определения слабых мест.
Очистка данных: удаление дубликатов изображений, исправление ошибочно размеченных примеров и фильтрация низкокачественных данных, которые могут запутать нейронную сеть.

Link to this sectionРеальные приложения#

Подходы, ориентированные на данные, трансформируют отрасли, где надежность не подлежит обсуждению.

Медицинская визуализация: в таких областях, как обнаружение опухолей на медицинских изображениях, получение миллионов изображений невозможно. Вместо этого исследователи фокусируются на создании высокоточных, экспертно проверенных наборов данных. Data-Centric подход гарантирует точность каждого пикселя в маске сегментации, поскольку двусмысленные метки могут привести к опасным для жизни ошибкам.
Контроль качества на производстве: при развертывании систем визуального контроля дефекты, такие как царапины или вмятины, встречаются редко по сравнению с идеальными деталями. Стратегия, ориентированная на данные, предполагает синтез или целенаправленный сбор данных о дефектах для балансировки набора данных, гарантируя, что модель не будет просто предсказывать «годен» для каждого изделия.

Link to this sectionData-Centric AI против Model-Centric AI#

Важно отличать Data-Centric AI от Model-Centric AI. В рабочем процессе, ориентированном на модель, набор данных фиксирован, а цель состоит в улучшении метрик путем изменения архитектуры модели (например, переход с YOLO11 на кастомную ResNet) или настройки параметров, таких как learning rate. В рабочем процессе, ориентированном на данные, архитектура модели фиксирована (например, стандартизация на YOLO26), а цель — улучшить метрики за счет очистки меток, добавления разнообразных примеров или обработки выбросов.

Следующий фрагмент кода демонстрирует простую проверку, ориентированную на данные: поиск поврежденных изображений в наборе данных перед обучением. Это гарантирует, что твой конвейер обучения не выйдет из строя из-за плохих данных.

from ultralytics.data.utils import check_cls_dataset

# Validate a classification dataset structure and integrity
# This helps identify issues with data organization before training begins
try:
    # Checks the dataset defined in a YAML or path structure
    check_cls_dataset("mnist", split="train")
    print("Dataset structure is valid and ready for data-centric curation.")
except Exception as e:
    print(f"Data issue found: {e}")

Link to this sectionИнструменты для разработки, ориентированной на данные#

Для эффективной практики Data-Centric AI разработчики полагаются на надежный инструментарий. Ultralytics Platform служит центральным хабом для управления жизненным циклом твоих данных, предлагая функции автоматической разметки, которые ускоряют процесс маркировки, сохраняя при этом согласованность. Кроме того, использование инструментов исследования позволяет пользователям семантически запрашивать свои наборы данных (например, «найти все изображения красных машин ночью»), чтобы понять распределение и предвзятость.

Фокусируясь на данных, инженеры могут создавать системы, которые более надежны, справедливы и практичны для развертывания в динамических средах, таких как автономные транспортные средства или умная розничная торговля. Этот сдвиг признает, что для многих задач код уже является решенной проблемой, но данные остаются фронтиром инноваций.

Explore solutions

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Data-Centric AI

Link to this sectionОсновная философия: качество данных важнее количества#

Link to this sectionКлючевые методы в Data-Centric AI#

Link to this sectionРеальные приложения#

Link to this sectionData-Centric AI против Model-Centric AI#

Link to this sectionИнструменты для разработки, ориентированной на данные#

Explore solutions

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

Давай строить будущее ИИ вместе!