Глоссарий

Тренировочные данные

Узнай о важности обучающих данных в искусственном интеллекте. Узнай, как качественные наборы данных позволяют создавать точные и надежные модели машинного обучения для реальных задач.

В области искусственного интеллекта (AI) и машинного обучения (ML) обучающие данные - это основной набор данных, используемый для обучения моделей выполнению определенных задач, таких как классификация или предсказание. Он включает в себя большую коллекцию примеров, где каждый пример обычно сопоставляет входные данные с соответствующим желаемым выходом или меткой. С помощью таких процессов, как Supervised Learning, модель анализирует эти данные, выявляет основные закономерности и взаимосвязи и настраивает свои внутренние параметры(веса модели), чтобы научиться сопоставлять входы с выходами. Это обучение позволяет модели делать точные прогнозы или принимать решения, когда ей предъявляются новые, ранее не виденные данные.

Что такое тренировочные данные?

Думай об обучающих данных как об учебнике и тренировочных упражнениях для модели искусственного интеллекта. Это тщательно подобранный набор информации, отформатированный специально для того, чтобы служить примерами на этапе обучения. Например, в задачах компьютерного зрения (КВ), таких как обнаружение объектов, обучающие данные состоят из изображений или видеокадров ( входные признаки) в паре с аннотациями (метками), которые определяют местоположение(ограничительные рамки) и класс объектов на этих изображениях. Создание этих меток - важный этап, известный как маркировка данных. Модель итеративно обрабатывает эти данные, сравнивая свои предсказания с истинными метками и настраивая свои параметры с помощью таких методов, как обратное распространение и градиентный спуск, чтобы минимизировать ошибку или функцию потерь.

Важность тренировочных данных

Производительность и надежность модели искусственного интеллекта напрямую зависят от качества, количества и разнообразия обучающих данных. Качественные, репрезентативные данные необходимы для построения моделей, которые достигают высокой точности и хорошо обобщаются на реальные сценарии(обобщение в ML). И наоборот, недостаточные, зашумленные или необъективные обучающие данные могут привести к значительным проблемам, таким как низкая производительность, Overfitting (когда модель хорошо работает на обучающих данных, но плохо на новых) или несправедливые и дискриминационные результаты из-за присущей Dataset Bias. Решение проблемы предвзятости - один из ключевых аспектов этики ИИ. Поэтому тщательный сбор данных, их аннотирование и подготовка - критически важные этапы разработки успешных систем ИИ.

Примеры тренировочных данных в реальных приложениях

Обучающие данные - это топливо для бесчисленных приложений ИИ в различных сферах. Вот два примера:

Автономные транспортные средства: Самоуправляемые автомобили в значительной степени полагаются на обучающие данные для систем восприятия. Эти данные включают в себя огромное количество видеозаписей с камер, LiDAR и радарных датчиков, тщательно промаркированных такими объектами, как другие автомобили, пешеходы, велосипедисты, светофоры и разметка полос движения. Модели, подобные тем, что используются в технологии Waymo, обучаются на таких наборах данных, как Argoverse, чтобы научиться безопасно ориентироваться в сложных средах. Подробнее об искусственном интеллекте в автомобильных решениях.
Анализ настроения: В обработке естественного языка (NLP) модели анализа настроения определяют эмоциональный тон текста. Обучающие данные состоят из образцов текста (например, отзывов покупателей, постов в социальных сетях), помеченных такими настроениями, как "позитивное", "негативное" или "нейтральное"(Sentiment Analysis - Wikipedia). Это позволяет компаниям автоматически оценивать общественное мнение или удовлетворенность клиентов.

Качество и подготовка данных

Обеспечение высокого качества обучающих данных имеет первостепенное значение и включает в себя несколько ключевых этапов. Очистка данных (Википедия) позволяет устранить ошибки, несоответствия и пропущенные значения. Предварительная обработка данных преобразует необработанные данные в подходящий для модели формат. Такие техники, как Data Augmentation, искусственно расширяют набор данных, создавая модифицированные копии существующих данных (например, поворачивая или обрезая изображения), что помогает повысить робастность модели и уменьшить перебор. Понимание твоих данных через исследование, чему способствуют такие инструменты, как Ultralytics Datasets Explorer, также крайне важно перед началом процесса обучения.