Data-Centric AI (ИИ, ориентированный на данные)
Откройте для себя Data-Centric AI — подход, направленный на улучшение качества набора данных для повышения производительности модели. Узнайте, почему улучшение данных, а не только модели, является ключом к надежному ИИ.
Данные-ориентированный ИИ — это философия и методология в разработке машинного обучения (ML), которая делает акцент на улучшении
качества обучающих данных, а не только на оптимизации архитектуры модели. В традиционных моделях-ориентированных
подходах набор данных часто рассматривается как статический ввод, в то время как инженеры тратят недели на настройку гиперпараметров или
проектирование сложных структур нейронных сетей.
Напротив, подход, ориентированный на данные, рассматривает код модели как фиксированную базовую линию и направляет усилия инженеров на
систематическую очистку данных, обеспечение согласованности меток и
увеличение объема данных для повышения общей производительности системы. Этот сдвиг признает, что для многих практических приложений принцип
«мусор входит, мусор выходит» является основным препятствием на пути к достижению высокой точности.
Основная философия: Качество превыше количества
Основная предпосылка данных-ориентированного ИИ заключается в том, что меньший набор данных высокого качества часто дает лучшие результаты, чем
огромный набор данных с большим количеством шума. Ведущие деятели в этой области, такие как Эндрю Нг,
поддержали этот сдвиг, утверждая, что сообщество ИИ исторически уделяло чрезмерное внимание алгоритмическим инновациям. Чтобы
создать надежные системы, инженеры должны участвовать в
активных процессах обучения, в ходе которых они итеративно
выявляют режимы сбоев и исправляют их путем уточнения набора данных. Это включает в себя точное
маркирование данных, удаление дубликатов и обработку пограничных
случаев, которые модель затрудняется classify.
Ключевые действия в этом рабочем процессе включают:
-
Систематический анализ ошибок: вместо того, чтобы полагаться только на совокупные показатели, такие как
точность, разработчики анализируют конкретные случаи, когда
модель дает сбой, например, при обнаружении небольших объектов на
аэрофотоснимках, и собирают целевые данные для
устранения этих слабых мест.
-
Согласованность меток: крайне важно, чтобы все аннотаторы следовали одним и тем же рекомендациям. Такие инструменты, как
Label Studio, помогают командам контролировать качество аннотаций, чтобы предотвратить появление противоречивых сигналов,
которые сбивают с толку процесс обучения.
-
Увеличение объема данных: разработчики используют
методы увеличения объема данных, чтобы
искусственно расширить разнообразие набора данных. Применяя такие преобразования, как поворот, масштабирование и
корректировка цвета, модель учится лучше обобщать невиданные ранее среды.
-
Генерация синтетических данных: когда реальных данных недостаточно, команды могут генерировать
синтетические данные с помощью симуляторов, таких как
NVIDIA , чтобы восполнить пробелы в наборе данных и обеспечить
адекватное представление редких классов.
Применение в реальном мире
Применение подхода, ориентированного на данные, имеет решающее значение в отраслях, где
точность компьютерного зрения является непреложным условием.
-
Точное земледелие: В
искусственном интеллекте в сельском хозяйстве различение между
здоровыми культурами и культурами, пораженными болезнью на ранней стадии, часто основано на тонких визуальных признаках. Команда, ориентированная на данные, сосредоточится на
создании
высококачественного набора данных для компьютерного зрения
, который будет включать конкретные примеры заболеваний в различных условиях освещения и на разных стадиях роста. Это гарантирует, что
модель не научится связывать нерелевантные фоновые характеристики с классом заболеваний, что является распространенной проблемой, известной как
«ускоренное обучение».
-
Промышленный контроль: в
производстве с использованием ИИ дефекты могут возникать
только один раз на десять тысяч единиц продукции. Стандартная модель обучения может игнорировать эти редкие события из-за дисбаланса классов
. Используя
стратегии обнаружения аномалий и вручную
поискивая или синтезируя больше изображений этих конкретных дефектов, инженеры обеспечивают достижение системой высоких
показателей воспроизводимости, необходимых для стандартов контроля качества,
определенных такими организациями, как ISO.
Внедрение технологий, ориентированных на данные, с помощью Ultralytics
Вы можете применять методы, ориентированные на данные, такие как аугментация, непосредственно в вашем конвейере обучения. Следующий код Python
Python
демонстрирует, как загрузить модель YOLO26 и обучить ее
с использованием агрессивных параметров аугментации для повышения устойчивости к вариациям.
from ultralytics import YOLO
# Load a YOLO26 model (recommended for new projects)
model = YOLO("yolo26n.pt")
# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
data="coco8.yaml",
epochs=10,
degrees=15.0, # Random rotation up to +/- 15 degrees
mixup=0.1, # Apply MixUp augmentation with 10% probability
copy_paste=0.1, # Use Copy-Paste augmentation
)
Различение смежных понятий
Чтобы понять, что такое данных-ориентированный ИИ, необходимо отличать его от схожих терминов в экосистеме машинного обучения.
-
ИИ, ориентированный на модели: это обратный подход, при котором набор данных остается неизменным, а
улучшения ищутся путем
настройки гиперпараметров или изменения архитектуры
изменений. Хотя этот подход необходим для расширения границ современного уровня в научных работах, найденных на сайте
IEEE Xplore, в производстве он часто приносит убывающую отдачу по сравнению с очисткой данных.
по сравнению с очисткой данных.
-
Большие данные: термин «большие данные» в первую очередь относится к
объему, скорости и разнообразию информации. Для данных-ориентированного ИИ не обязательно нужны «большие» данные;
скорее, ему нужны «умные» данные. Небольшой набор данных с идеальными метками часто превосходит по эффективности огромный набор данных с большим количеством шума
, как подчеркивает сообщество данных-ориентированного ИИ.
-
Эксплораторный анализ данных (EDA):
Визуализация данных и EDA являются этапами
в рамках рабочего процесса, ориентированного на данные. EDA помогает выявлять несоответствия с помощью таких инструментов, как
Pandas, но ориентированный на данные ИИ охватывает весь инженерный жизненный цикл
устранения этих проблем для улучшения
механизма вывода.
-
MLOps:
Машинное обучение (MLOps)
предоставляет инфраструктуру и конвейеры для управления жизненным циклом производства ИИ. Данные-ориентированный ИИ — это
методология, применяемая в конвейерах MLOps для обеспечения создания надежных моделей на основе проходящих через них данных.
Платформы, такие как Weights & Biases часто
используются для track изменения данных влияют на метрики модели.