Глоссарий

Тренировочные данные

Узнай о важности обучающих данных в искусственном интеллекте. Узнай, как качественные наборы данных позволяют создавать точные и надежные модели машинного обучения для реальных задач.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

В области искусственного интеллекта (AI) и машинного обучения (ML) обучающие данные - это основной набор данных, используемый для обучения моделей выполнению определенных задач, таких как классификация или предсказание. Он включает в себя большую коллекцию примеров, где каждый пример обычно сопоставляет входные данные с соответствующим желаемым выходом или меткой. С помощью таких процессов, как Supervised Learning, модель анализирует эти данные, выявляет основные закономерности и взаимосвязи и настраивает свои внутренние параметры(веса модели), чтобы научиться сопоставлять входы с выходами. Это обучение позволяет модели делать точные прогнозы или принимать решения, когда ей предъявляются новые, ранее не виденные данные.

Что такое тренировочные данные?

Думай об обучающих данных как об учебнике и тренировочных упражнениях для модели искусственного интеллекта. Это тщательно подобранный набор информации, отформатированный специально для того, чтобы служить примерами на этапе обучения. Например, в задачах компьютерного зрения (КВ), таких как обнаружение объектов, обучающие данные состоят из изображений или видеокадров ( входные признаки) в паре с аннотациями (метками), которые определяют местоположение(ограничительные рамки) и класс объектов на этих изображениях. Создание этих меток - важный этап, известный как маркировка данных. Модель итеративно обрабатывает эти данные, сравнивая свои предсказания с истинными метками и настраивая свои параметры с помощью таких методов, как обратное распространение и градиентный спуск, чтобы минимизировать ошибку или функцию потерь.

Важность тренировочных данных

Производительность и надежность модели искусственного интеллекта напрямую зависят от качества, количества и разнообразия обучающих данных. Качественные, репрезентативные данные необходимы для построения моделей, которые достигают высокой точности и хорошо обобщаются на реальные сценарии(обобщение в ML). И наоборот, недостаточные, зашумленные или необъективные обучающие данные могут привести к значительным проблемам, таким как низкая производительность, Overfitting (когда модель хорошо работает на обучающих данных, но плохо на новых) или несправедливые и дискриминационные результаты из-за присущей Dataset Bias. Решение проблемы предвзятости - один из ключевых аспектов этики ИИ. Поэтому тщательный сбор данных, их аннотирование и подготовка - критически важные этапы разработки успешных систем ИИ.

Примеры тренировочных данных в реальных приложениях

Обучающие данные - это топливо для бесчисленных приложений ИИ в различных сферах. Вот два примера:

  1. Автономные транспортные средства: Самоуправляемые автомобили в значительной степени полагаются на обучающие данные для систем восприятия. Эти данные включают в себя огромное количество видеозаписей с камер, LiDAR и радарных датчиков, тщательно промаркированных такими объектами, как другие автомобили, пешеходы, велосипедисты, светофоры и разметка полос движения. Модели, подобные тем, что используются в технологии Waymo, обучаются на таких наборах данных, как Argoverse, чтобы научиться безопасно ориентироваться в сложных средах. Подробнее об искусственном интеллекте в автомобильных решениях.
  2. Анализ настроения: В обработке естественного языка (NLP) модели анализа настроения определяют эмоциональный тон текста. Обучающие данные состоят из образцов текста (например, отзывов покупателей, постов в социальных сетях), помеченных такими настроениями, как "позитивное", "негативное" или "нейтральное"(Sentiment Analysis - Wikipedia). Это позволяет компаниям автоматически оценивать общественное мнение или удовлетворенность клиентов.

Качество и подготовка данных

Обеспечение высокого качества обучающих данных имеет первостепенное значение и включает в себя несколько ключевых этапов. Очистка данных (Википедия) позволяет устранить ошибки, несоответствия и пропущенные значения. Предварительная обработка данных преобразует необработанные данные в подходящий для модели формат. Такие техники, как Data Augmentation, искусственно расширяют набор данных, создавая модифицированные копии существующих данных (например, поворачивая или обрезая изображения), что помогает повысить робастность модели и уменьшить перебор. Понимание твоих данных через исследование, чему способствуют такие инструменты, как Ultralytics Datasets Explorer, также крайне важно перед началом процесса обучения.

Тренировочные данные против валидационных и тестовых данных

В типичном ML-проекте данные разбиваются на три разных набора:

Поддержание строгого разделения между этими наборами данных очень важно для разработки надежных моделей и точной оценки их возможностей. Такие платформы, как Ultralytics HUB, предлагают инструменты для эффективного управления этими наборами данных на протяжении всего жизненного цикла разработки модели. Современные модели, такие как Ultralytics YOLO часто предварительно обучаются на больших эталонных наборах данных, таких как COCO или ImageNet, которые служат обширными обучающими данными.

Читать полностью