Глоссарий

Добыча данных

Узнайте, как добыча данных преобразует необработанные данные в полезные сведения, обеспечивая работу искусственного интеллекта, многофункционального анализа и реальных приложений в здравоохранении, розничной торговле и других сферах!

Добыча данных - это процесс обнаружения закономерностей, корреляций и аномалий в больших массивах данных с целью извлечения ценной и ранее неизвестной информации. Он выступает в качестве важнейшего этапа исследования, который преобразует необработанные данные в понятную структуру, часто служащую основой для прогнозирующего моделирования и задач машинного обучения (ML). Используя методы статистики, систем баз данных и искусственного интеллекта, добыча данных помогает обнаружить скрытую информацию, которая может быть использована для разработки бизнес-стратегий, научных исследований и технологических инноваций.

Как работает добыча данных

Процесс добычи данных часто структурируется в соответствии с такими стандартами, как Cross-Industry Standard Process for Data Mining (CRISP-DM). Типичные этапы включают:

  1. Сбор и интеграция данных: Сбор данных из различных источников, которые могут включать структурированные базы данных, неструктурированный текст или изображения из озера данных.
  2. Предварительная обработка данных: Она включает в себя очистку данных для обработки отсутствующих или противоречивых значений и преобразование данных для нормализации или объединения данных для анализа. На этом этапе также может быть использовано расширение данных для обогащения набора данных.
  3. Обнаружение и моделирование закономерностей: Применение алгоритмов для выявления закономерностей. Общие задачи включают классификацию, кластеризацию(K-Means), регрессию и поиск ассоциативных правил. Это этап, на котором алгоритмы ML используются наиболее активно.
  4. Оценка и интерпретация: Оценка обнаруженных закономерностей на предмет их обоснованности и полезности. Визуализация данных - ключевой инструмент, помогающий сделать выводы понятными.
  5. Развертывание знаний: Интеграция обнаруженных знаний в операционные системы, такие как система рекомендаций или система обнаружения мошенничества.

Приложения ИИ и компьютерного зрения в реальном мире

Добыча данных является основой для создания интеллектуальных систем во многих отраслях промышленности.

Добыча данных в сравнении со смежными понятиями

Важно отличать добычу данных от других терминов, связанных с наукой о данных.

  • Машинное обучение (ML): Хотя эти термины часто используются как взаимозаменяемые, они отличаются друг от друга. Добыча данных - это более широкий процесс обнаружения знаний из данных. Машинное обучение - это набор методов и алгоритмов (например, контролируемое обучение, неконтролируемое обучение), которые часто используются в процессе добычи данных для поиска закономерностей. По сути, ML - это инструмент для достижения цели интеллектуального анализа данных.
  • Аналитика данных: Аналитика данных - это более широкая область, занимающаяся изучением наборов данных для получения выводов и поддержки принятия решений. Добыча данных - это специфическая подгруппа аналитики данных, в которой особое внимание уделяется обнаружению ранее неизвестных закономерностей, в то время как аналитика данных может также включать проверку заранее сформулированных гипотез и создание сводных отчетов.
  • Большие данные: Этот термин относится к огромным, сложным и быстро растущим наборам данных. Добыча данных - это процесс, применяемый к большим данным для извлечения из них ценности. Проблемы, связанные с большими данными (объем, скорость, разнообразие), часто требуют специализированных инструментов для добычи данных, таких как экосистема Apache Hadoop.
  • Глубокое обучение (DL): Это специализированная область машинного обучения, в которой используются нейронные сети с большим количеством слоев. Модели DL, подобные тем, что используются в Ultralytics YOLO, могут автоматически выполнять извлечение признаков из необработанных данных, таких как изображения, что является мощной возможностью в рамках рабочего процесса поиска данных для компьютерного зрения (CV). Платформы, подобные Ultralytics HUB, упрощают весь процесс, от управления наборами данных до обучения моделей.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена