Изучите данные-ориентированный искусственный интеллект, чтобы повысить производительность модели за счет приоритезации качества данных. Научитесь курировать наборы данных для Ultralytics с помощью Ultralytics .
Данные-ориентированный ИИ — это философия и подход к машинному обучению, который фокусируется на улучшении качества набора данных, используемого для обучения модели, а не на настройке архитектуры модели или гиперпараметров. В традиционной модели-ориентированной разработке инженеры часто оставляют набор данных неизменным, а алгоритм повторяют, чтобы добиться лучшей производительности. Данные-ориентированный ИИ переворачивает эту парадигму, предполагая, что для многих современных приложений архитектура модели уже достаточно продвинута, и наиболее эффективный способ улучшить производительность — это систематически проектировать сами данные. Это включает в себя очистку, маркировку, дополнение и курирование наборов данных, чтобы обеспечить их согласованность, разнообразие и репрезентативность реальных проблем.
Переход к методологиям, ориентированным на данные, признает, что «мусор входит, мусор выходит» — это фундаментальная истина в машинном обучении. Простое добавление большего количества данных не всегда является решением, если эти данные зашумлены или предвзяты. Вместо этого этот подход подчеркивает важность высококачественных наборов данных компьютерного зрения. Уделяя приоритетное внимание качеству и согласованности данных, разработчики часто могут достичь более высокой точности с помощью небольших, тщательно отобранных наборов данных, чем с помощью огромных, беспорядочных.
Эта философия тесно связана с активным обучением, где модель помогает определить, какие точки данных наиболее ценны для последующей маркировки. Такие инструменты, как Ultralytics , облегчают эту задачу, оптимизируя анотацию и управление данными, что позволяет командам совместно работать над улучшением качества наборов данных. Это контрастирует с чисто контролируемыми рабочими процессами обучения, где набор данных часто рассматривается как статический артефакт.
Реализация стратегии, ориентированной на данные, включает в себя несколько практических шагов, которые выходят за рамки простого сбора данных.
Подходы, ориентированные на данные, преобразуют отрасли, в которых надежность является непреложным условием.
Важно отличать ИИ, ориентированный на данные, от ИИ, ориентированного на модели. В рабочем процессе, ориентированном на модели, набор данных фиксирован, и цель состоит в улучшении показателей путем изменения архитектуры модели (например, переход от YOLO11 на пользовательский ResNet) или настройкой таких параметров, как скорость обучения. В рабочем процессе, ориентированном на данные, архитектура модели фиксирована (например, стандартизация на YOLO26), и цель состоит в улучшении метрик путем очистки меток, добавления разнообразных примеров или обработки выбросов.
Следующий фрагмент кода демонстрирует простую проверку, ориентированную на данные: проверку набора данных на наличие поврежденных изображений перед обучением. Это гарантирует, что ваш конвейер обучения не выйдет из строя из-за некачественных данных.
from ultralytics.data.utils import check_cls_dataset
# Validate a classification dataset structure and integrity
# This helps identify issues with data organization before training begins
try:
# Checks the dataset defined in a YAML or path structure
check_cls_dataset("mnist", split="train")
print("Dataset structure is valid and ready for data-centric curation.")
except Exception as e:
print(f"Data issue found: {e}")
Для эффективного применения ИИ, ориентированного на данные, разработчики полагаются на надежные инструменты. Ultralytics служит центральным узлом для управления жизненным циклом ваших данных, предлагая функции автоматической аннотации, которые ускоряют процесс маркировки , сохраняя при этом согласованность. Кроме того, использование инструментов explorer позволяет пользователям выполнять семантический запрос своих наборов данных (например, «найти все изображения красных автомобилей ночью»), чтобы понять распределение и смещение.
Сосредоточившись на данных, инженеры могут создавать системы, которые являются более надежными, справедливыми и практичными для развертывания в динамичных средах, таких как автономные транспортные средства или умная розничная торговля. Этот сдвиг признает, что для многих проблем код является решенной проблемой, но данные остаются передовой инноваций.