Глоссарий

ИИ, ориентированный на данные

Откройте для себя ИИ, ориентированный на данные, - подход к улучшению качества наборов данных для повышения производительности моделей. Узнайте, почему лучшие данные, а не просто лучшая модель, являются ключом к надежному ИИ.

ИИ, ориентированный на данные, - это подход к созданию систем искусственного интеллекта, при котором приоритет отдается улучшению качества и согласованности набора данных, а не итерациям над архитектурой модели. В этой парадигме модель, например продвинутая архитектура обнаружения объектов, такая как Ultralytics YOLO, рассматривается как фиксированный компонент, а основное внимание уделяется систематическому совершенствованию данных для повышения производительности. Основная идея, популяризированная лидером в области ИИ Эндрю Нг, заключается в том, что для многих практических приложений качество обучающих данных является наиболее значимым фактором успеха модели. Это включает в себя такие процессы, как очистка данных, точная маркировка данных и стратегический поиск данных для создания надежного и прочного ИИ.

Важность высококачественных данных

В машинном обучении (МОО) действует принцип "мусор внутрь, мусор наружу". Сложная нейронная сеть (НС), обученная на зашумленных, противоречивых или плохо помеченных данных, неизбежно даст ненадежные результаты. Подход, ориентированный на данные, позволяет решить эту проблему, сосредоточившись на нескольких ключевых аспектах качества данных. К ним относятся обеспечение согласованности меток, исправление неправильно помеченных примеров, удаление зашумленных или нерелевантных данных и обогащение набора данных, чтобы охватить крайние случаи. Такие методы, как увеличение данных, являются важными инструментами в этом процессе, позволяя разработчикам искусственно расширять разнообразие набора данных. Отдавая предпочтение высококачественным наборам данных для компьютерного зрения, команды могут значительно повысить точность и надежность моделей, затратив на это меньше усилий, чем на сложную переработку моделей.

Применение в реальном мире

Философия ИИ, ориентированного на данные, очень эффективна в различных практических сценариях, где качество данных имеет первостепенное значение.

  1. ИИ в производстве: Рассмотрим систему визуального контроля на производственной линии, предназначенную для обнаружения дефектов в электронных компонентах. Вместо того чтобы постоянно пробовать новые архитектуры моделей, команда, ориентированная на данные, сосредоточилась бы на наборе данных. Они будут систематически собирать больше изображений редких дефектов, следить за тем, чтобы все дефекты были помечены точными ограничивающими рамками, и использовать дополнения для имитации изменений освещения и углов камеры. Платформы, подобные Ultralytics HUB, помогают управлять такими наборами данных и упрощают процесс обучения пользовательских моделей. Такое итеративное совершенствование данных приводит к созданию более надежной системы, способной выявлять тонкие недостатки, что напрямую влияет на качество производства. Подробнее о том, как Google Cloud применяет ИИ для решения производственных задач, читайте далее.
  2. ИИ в здравоохранении: При анализе медицинских изображений можно обучить модель для выявления опухолей на снимках мозга. Стратегия, ориентированная на данные, предполагает тесное сотрудничество с радиологами для разрешения неоднозначных меток в таких наборах данных, как набор данных Brain Tumor. Команда будет активно искать и добавлять примеры недопредставленных типов опухолей и следить за тем, чтобы данные отражали различные демографические характеристики пациентов, чтобы избежать предвзятости набора данных. Такое внимание к созданию высококачественных и репрезентативных наборов данных очень важно для создания надежных диагностических инструментов, на которые могут положиться врачи. Национальные институты здравоохранения (NIH) предоставляют ресурсы о роли ИИ в биомедицинских исследованиях.

Отличие от смежных терминов

  • ИИ, ориентированный на модель: это традиционный подход, при котором набор данных остается неизменным, а разработчики сосредотачиваются на совершенствовании модели. К таким действиям относятся проектирование новых архитектур нейронных сетей, обширная настройка гиперпараметров и внедрение различных алгоритмов оптимизации. Несмотря на важность такого подхода, ориентация на модель может принести убыточную отдачу, если базовые данные несовершенны. Такие проекты, как Data-Centric AI Competition Стэнфордского университета, демонстрируют силу фокусировки на данных, а не на модели.
  • Большие данные: Большие данные - это управление и анализ чрезвычайно больших и сложных массивов данных. Хотя ИИ, ориентированный на данные, может быть применен к большим данным, его основной принцип заключается в качестве данных, а не только в их количестве. Небольшой, тщательно обработанный набор данных часто дает лучшие результаты, чем массивный и шумный. Цель заключается в создании более качественных данных, а не в увеличении их количества.
  • Эксплораторный анализ данных (EDA): EDA - это процесс анализа наборов данных с целью обобщения их основных характеристик, часто с помощью визуальных методов. Хотя EDA является важным шагом в рабочем процессе ИИ, ориентированного на данные, для выявления несоответствий и областей, требующих улучшения, ИИ, ориентированный на данные, - это более широкая философия систематической разработки всего набора данных для повышения производительности ИИ. Такие инструменты, как Ultralytics Dataset Explorer, могут облегчить этот процесс.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена