Глоссарий

Дерево решений

Открой для себя мощь деревьев решений в машинном обучении для классификации, регрессии и реальных приложений, таких как здравоохранение и финансы.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Дерево решений - это универсальный и широко используемый алгоритм машинного обучения (ML), который относится к категории контролируемого обучения. Он использует древовидную структуру для моделирования решений и их возможных последствий, похожую на блок-схему. Каждый внутренний узел представляет собой тест на атрибут (или признак), каждая ветвь - результат теста, а каждый листовой узел - метку класса (в задачах классификации) или непрерывное значение (в задачах регрессии). Благодаря своей интуитивной структуре деревья решений известны тем, что их относительно легко понять и интерпретировать, что делает их ценными для объясняющего ИИ (XAI).

Как работают деревья решений

Основная идея заключается в том, чтобы разбить набор данных на все более мелкие подмножества на основе значений входных признаков, создавая древовидную структуру. Процесс начинается с корневого узла, который представляет собой весь набор данных. В каждом узле алгоритм выбирает наилучший признак и порог для разбиения данных таким образом, чтобы увеличить чистоту или однородность полученных подмножеств по отношению к целевой переменной. Общими критериями для поиска наилучшего разбиения являются примесь Джини и прирост информации (основанный на энтропии), которые измеряют беспорядок или случайность в наборе. Процесс разбиения продолжается рекурсивно до тех пор, пока не будет достигнут критерий остановки, такой как достижение максимальной глубины, минимальное количество образцов в узле или достижение чистых листовых узлов (узлов, содержащих образцы только одного класса). Чтобы сделать предсказание для новой точки данных, дерево обходит дерево от корня вниз до узла листа, основываясь на результатах тестов признаков, и предсказанием является мажоритарный класс или среднее значение в этом листе. Тщательная предварительная обработка данных и разработка признаков могут существенно повлиять на производительность дерева решений.

Типы деревьев принятия решений

Деревья решений можно в целом разделить на два основных типа:

  • Деревья классификации: Используются, когда целевая переменная является категориальной (например, предсказание "спам" или "не спам"). Листовые узлы представляют метки классов.
  • Регрессионные деревья: Используются, когда целевая переменная является непрерывной (например, при прогнозировании цен на жилье). Листовые узлы представляют собой предсказанное числовое значение, часто являющееся средним значением целевых значений обучающих выборок, которые достигают этого листа.

Преимущества и недостатки

Деревья решений дают несколько преимуществ:

  • Интерпретируемость: Благодаря графической структуре их легко визуализировать и понимать.
  • Минимальная подготовка данных: По сравнению с другими алгоритмами они часто требуют меньшей очистки данных, например, нуждаются в меньшей нормализации данных.
  • Справляется с нелинейными данными: Они могут улавливать нелинейные связи между признаками и целевой переменной.
  • Важность признаков: Они по своей сути обеспечивают меру важности признака, основанную на том, насколько рано или часто признак используется для разделения.

Однако у них есть и недостатки:

  • Переоптимизация: Деревья принятия решений могут легко стать слишком сложными и улавливать шум в обучающих данных, что приведет к плохому обобщению на невидимых тестовых данных. Такие техники, как обрезка или установка ограничений на рост дерева, помогают смягчить переподгонку.
  • Нестабильность: Небольшие вариации в данных могут привести к тому, что будет сгенерировано совершенно другое дерево.
  • Предвзятость: деревья могут быть предвзяты к признакам с большим количеством уровней или доминирующим классам, если набор данных несбалансирован.

Применение в реальном мире

Деревья решений используются в различных областях:

  1. Медицинская диагностика: Помогает врачам, создавая модели, которые предлагают диагнозы на основе симптомов пациента и результатов анализов. Например, дерево может направлять диагноз, последовательно задавая вопросы о симптомах(ИИ в медицинских приложениях).
  2. Прогнозирование оттока клиентов: Предприятия используют деревья решений для определения клиентов, которые, скорее всего, перестанут пользоваться их услугами, на основе моделей использования, демографических данных и истории взаимодействия, что позволяет целенаправленно удерживатьклиентов (Predicting Customer Churn).
  3. Оценка финансовых рисков: Оценка кредитоспособности путем анализа таких факторов, как доход, долг и кредитная история(Модели компьютерного зрения в финансах).
  4. Контроль качества на производстве: Выявление потенциальных дефектов в продукции на основе показаний датчиков или параметров процесса(Improving Manufacturing with Computer Vision).

Взаимосвязь с другими моделями

Деревья решений служат основой для более сложных ансамблевых методов, таких как Random Forests и Gradient Boosted Trees (например, XGBoost или LightGBM). Например, Random Forests строят несколько деревьев решений на разных подмножествах данных и признаков и объединяют их предсказания, что часто приводит к лучшей точности и устойчивости к переоценке по сравнению с одним деревом. Несмотря на то, что деревья решений эффективны для решения многих задач с табличными данными, они существенно отличаются от моделей вроде конволюционных нейронных сетей (CNN) или трансформаторов зрения (ViT), используемых в компьютерном зрении. Такие модели, как Ultralytics YOLO11 используют архитектуры глубокого обучения, оптимизированные для таких задач, как обнаружение объектов, классификация изображений и сегментация экземпляров, которые связаны с обработкой сложных, высокоразмерных данных, таких как изображения, - область, где одиночные деревья решений менее эффективны. Понимание таких основополагающих моделей, как деревья решений, обеспечивает ценный контекст в более широком ландшафте ИИ и прогностического моделирования. Такие инструменты, как Scikit-learn, обеспечивают популярную реализацию деревьев решений, а платформы вроде Ultralytics HUB упрощают разработку и развертывание продвинутых моделей зрения.

Читать полностью