Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Data-Centric AI (ИИ, ориентированный на данные)

Изучите данные-ориентированный искусственный интеллект, чтобы повысить производительность модели за счет приоритезации качества данных. Научитесь курировать наборы данных для Ultralytics с помощью Ultralytics .

Данные-ориентированный ИИ — это философия и подход к машинному обучению, который фокусируется на улучшении качества набора данных, используемого для обучения модели, а не на настройке архитектуры модели или гиперпараметров. В традиционной модели-ориентированной разработке инженеры часто оставляют набор данных неизменным, а алгоритм повторяют, чтобы добиться лучшей производительности. Данные-ориентированный ИИ переворачивает эту парадигму, предполагая, что для многих современных приложений архитектура модели уже достаточно продвинута, и наиболее эффективный способ улучшить производительность — это систематически проектировать сами данные. Это включает в себя очистку, маркировку, дополнение и курирование наборов данных, чтобы обеспечить их согласованность, разнообразие и репрезентативность реальных проблем.

Основная философия: качество данных превыше всего

Переход к методологиям, ориентированным на данные, признает, что «мусор входит, мусор выходит» — это фундаментальная истина в машинном обучении. Простое добавление большего количества данных не всегда является решением, если эти данные зашумлены или предвзяты. Вместо этого этот подход подчеркивает важность высококачественных наборов данных компьютерного зрения. Уделяя приоритетное внимание качеству и согласованности данных, разработчики часто могут достичь более высокой точности с помощью небольших, тщательно отобранных наборов данных, чем с помощью огромных, беспорядочных.

Эта философия тесно связана с активным обучением, где модель помогает определить, какие точки данных наиболее ценны для последующей маркировки. Такие инструменты, как Ultralytics , облегчают эту задачу, оптимизируя анотацию и управление данными, что позволяет командам совместно работать над улучшением качества наборов данных. Это контрастирует с чисто контролируемыми рабочими процессами обучения, где набор данных часто рассматривается как статический артефакт.

Ключевые технологии в данных-ориентированном искусственном интеллекте

Реализация стратегии, ориентированной на данные, включает в себя несколько практических шагов, которые выходят за рамки простого сбора данных.

  • Согласованность меток: крайне важно обеспечить, чтобы все аннотаторы маркировали объекты одинаково. Например, при обнаружении объектов строгое определение того, следует ли включать боковое зеркало автомобиля в ограничительную рамку, может значительно повлиять на производительность модели.
  • Увеличение объема данных: систематическое применение преобразований к существующим данным для охвата крайних случаев. Вы можете прочитать наше полное руководство по увеличению объема данных, чтобы понять, как такие методы, как ротация и мозаичное увеличение, помогают моделям лучше обобщать.
  • Анализ ошибок: выявление конкретных классов или сценариев, в которых модель дает сбой, и сбор целевых данных для устранения этих пробелов. Часто это включает в себя проверку матриц путаницы для выявления слабых мест.
  • Очистка данных: удаление дубликатов изображений, исправление неправильно помеченных примеров и отфильтровывание некачественных данных, которые могут сбить с толку нейронную сеть.

Применение в реальном мире

Подходы, ориентированные на данные, преобразуют отрасли, в которых надежность является непреложным условием.

  1. Медицинская визуализация: в таких областях, как обнаружение опухолей с помощью медицинской визуализации, получение миллионов изображений невозможно. Вместо этого исследователи сосредоточиваются на создании высокоточных проверенных экспертами наборов данных. Подход, ориентированный на данные, гарантирует точность каждого пикселя в маске сегментации, поскольку неоднозначные метки могут привести к опасным для жизни ошибкам.
  2. Контроль качества производства: при внедрении систем визуального контроля дефекты, такие как царапины или вмятины, встречаются редко по сравнению с идеальными деталями. Стратегия, ориентированная на данные, включает синтез или специальный сбор данных о дефектах для балансировки набора данных, чтобы модель не просто предсказывала «прохождение» для каждого элемента.

ИИ, ориентированный на данные, против ИИ, ориентированного на модели

Важно отличать ИИ, ориентированный на данные, от ИИ, ориентированного на модели. В рабочем процессе, ориентированном на модели, набор данных фиксирован, и цель состоит в улучшении показателей путем изменения архитектуры модели (например, переход от YOLO11 на пользовательский ResNet) или настройкой таких параметров, как скорость обучения. В рабочем процессе, ориентированном на данные, архитектура модели фиксирована (например, стандартизация на YOLO26), и цель состоит в улучшении метрик путем очистки меток, добавления разнообразных примеров или обработки выбросов.

Следующий фрагмент кода демонстрирует простую проверку, ориентированную на данные: проверку набора данных на наличие поврежденных изображений перед обучением. Это гарантирует, что ваш конвейер обучения не выйдет из строя из-за некачественных данных.

from ultralytics.data.utils import check_cls_dataset

# Validate a classification dataset structure and integrity
# This helps identify issues with data organization before training begins
try:
    # Checks the dataset defined in a YAML or path structure
    check_cls_dataset("mnist", split="train")
    print("Dataset structure is valid and ready for data-centric curation.")
except Exception as e:
    print(f"Data issue found: {e}")

Инструменты для разработки, ориентированной на данные

Для эффективного применения ИИ, ориентированного на данные, разработчики полагаются на надежные инструменты. Ultralytics служит центральным узлом для управления жизненным циклом ваших данных, предлагая функции автоматической аннотации, которые ускоряют процесс маркировки , сохраняя при этом согласованность. Кроме того, использование инструментов explorer позволяет пользователям выполнять семантический запрос своих наборов данных (например, «найти все изображения красных автомобилей ночью»), чтобы понять распределение и смещение.

Сосредоточившись на данных, инженеры могут создавать системы, которые являются более надежными, справедливыми и практичными для развертывания в динамичных средах, таких как автономные транспортные средства или умная розничная торговля. Этот сдвиг признает, что для многих проблем код является решенной проблемой, но данные остаются передовой инноваций.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас