Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Data-Centric AI (ИИ, ориентированный на данные)

Откройте для себя Data-Centric AI — подход, направленный на улучшение качества набора данных для повышения производительности модели. Узнайте, почему улучшение данных, а не только модели, является ключом к надежному ИИ.

ИИ, ориентированный на данные, - это стратегический подход к разработке систем искусственного интеллекта (ИИ) при котором основное внимание уделяется улучшению качества обучающих данных, а не итерациям над архитектурой модели. В традиционных рабочих процессах разработчики часто рассматривают набор данных как фиксированный исходный материал и тратят значительные усилия на настройку гиперпараметров или проектирования сложных структуры нейронных сетей (НС). В отличие от этого методология, ориентированная на данные, рассматривает код модели - например, архитектуру Ultralytics YOLO11-как относительно статичный базовый уровень, направляя инженерные усилия на систематическую очистку данных, согласованность маркировки и расширение для повышения производительности. производительности.

Основная философия: Качество превыше количества

Эффективность любой Эффективность любой системы машинного обучения (ML) в корне ограничена принципом "мусор внутрь, мусор наружу". Даже самые совершенные алгоритмы не могут выучить эффективные паттерны из зашумленных или неверно помеченных входных данных. ИИ, ориентированный на данные, утверждает, что для многих практических приложений обучающие данные являются наиболее наиболее важной переменной для достижения успеха. Этот подход подчеркивает, что небольшой, качественный набор данных часто дает лучшие результаты. чем большой и шумный.

Сторонники этой философии, такие как Эндрю Нг, утверждают, что что в сообществе ИИ непропорционально много внимания уделяется инновациям, ориентированным на модели. Чтобы создавать надежные системы, инженеры должны участвовать в активных процессах обучения в ходе которых они итеративно определяют режимы сбоев и исправляют их путем уточнения набора данных. Это предполагает точную точную маркировку данных, удаление дубликатов и обработку случаев, которые модель считает сложными для classify.

Ключевые техники и их реализация

Реализация стратегии, ориентированной на данные, включает в себя несколько технических процессов, направленных на разработку набора данных для достижения максимальной плотности и согласованности информации.

  • Систематическая очистка данных: Это включает в себя обнаружение и исправление ошибок в аннотациях, таких как выявление ограничительных рамок, которые не очень плотно или исправление ошибок несоответствия классов.
  • Расширение данных: Разработчики используют методы расширения данных, чтобы искусственно расширения разнообразия набора данных. Применяя такие преобразования, как поворот, масштабирование и корректировка цвета, модель модель учится лучше обобщать данные в невидимых условиях.
  • Генерация синтетических данных: Когда реальных данных не хватает, команды могут генерировать синтетические данные, чтобы заполнить пробелы в наборе данных, обеспечивая адекватное представление редких классов.
  • Анализ ошибок: Вместо того чтобы смотреть только на совокупные показатели, такие как точность, инженеры анализируют конкретные случаи, когда Модель дает сбой и собирает данные для устранения конкретных недостатков.

Следующий код на Python демонстрирует, как применить техники дополнения, ориентированные на данные, во время обучения, используя ultralytics пакет.

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
    data="coco8.yaml",
    epochs=10,
    degrees=15.0,  # Random rotation up to +/- 15 degrees
    mixup=0.1,  # Apply MixUp augmentation with 10% probability
    copy_paste=0.1,  # Use Copy-Paste augmentation
)

Применение в реальном мире

Принятие подхода, ориентированного на данные, имеет решающее значение для отраслей, где точность компьютерного зрения (КВ) не подлежит обсуждению.

  1. Точное земледелие: На сайте ИИ в сельском хозяйстве, чтобы отличить здорового урожая от урожая с ранней стадией заболевания часто опирается на тонкие визуальные подсказки. Команда, ориентированная на данные, сосредоточится на сбор высококачественного набора данных компьютерного зрения включающего примеры болезней при различных условиях освещения и на разных стадиях роста. чтобы модель не научилась ассоциировать нерелевантные фоновые признаки с классом болезни.
  2. Промышленная инспекция: Для ИИ на производстве, дефекты могут встречаться только один раз из каждых десяти тысяч единиц. При стандартном обучении модели эти редкие события могут быть проигнорированы. Применяя стратегии обнаружения аномалий и вручную поиск или синтез большего количества изображений этих специфических дефектов, инженеры гарантируют, что система достигнет высоких показателей высокие показатели отзыва, необходимые для стандартов контроля качества определенных такими организациями, как ISO.

Различение смежных понятий

Для понимания ИИ, ориентированного на данные, необходимо отличать его от аналогичных терминов в экосистеме машинного обучения.

  • ИИ, ориентированный на модели: это обратный подход, при котором набор данных остается неизменным, а улучшения ищутся путем настройки гиперпараметров или изменения архитектуры изменений. Хотя этот подход необходим для расширения границ современного уровня в научных работах, найденных на сайте IEEE Xplore, в производстве он часто приносит убывающую отдачу по сравнению с очисткой данных. по сравнению с очисткой данных.
  • Большие данные: Большие данные - это прежде всего объем, скорость и разнообразие информации. ИИ, ориентированный на данные, не обязательно требует "больших" данных; скорее, ему нужны "умные" данные. Небольшой, идеально маркированный набор данных часто превосходит массивный и шумный. массивный и шумный.
  • Эксплораторный анализ данных (EDA): Визуализация данных и EDA - это этапы в рамках рабочего процесса, ориентированного на данные. EDA помогает выявить несоответствия, но ИИ, ориентированный на данные, охватывает весь жизненный цикл разработки по устранению этих проблем для улучшения механизм выводов.
  • MLOps: Операции машинного обучения (MLOps) обеспечивает инфраструктуру и конвейеры для управления жизненным циклом производства ИИ. ИИ, ориентированный на данные, - это методология, применяемая в конвейерах MLOps для обеспечения надежности моделей на основе проходящих через них данных.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас