Глоссарий

LightGBM

Откройте для себя LightGBM - быструю и эффективную систему градиентного усиления для больших наборов данных, обеспечивающую высокую точность в приложениях машинного обучения.

LightGBM, что расшифровывается как Light Gradient Boosting Machine, - это высокопроизводительный фреймворк с открытым исходным кодом для градиентного бустинга, разработанный компанией Microsoft. Он отличается высокой скоростью и эффективностью, что делает его отличным выбором для задач машинного обучения (ML), которые включают в себя большие наборы данных и требуют быстрого времени обучения. Основанный на алгоритмах дерева решений, LightGBM использует новую стратегию роста дерева по листьям, что позволяет ему сходиться гораздо быстрее, чем другим алгоритмам форсирования. Его эффективность в работе с большими данными сделала его популярным инструментом как в промышленных приложениях, так и в соревнованиях по науке о данных.

Как LightGBM достигает высокой производительности

Скорость работы LightGBM и низкое потребление памяти обусловлены несколькими ключевыми инновациями, которые отличают его от других методов градиентного усиления. Эти методы работают вместе, чтобы оптимизировать процесс обучения без ущерба для точности.

  • Рост дерева по листьям: В отличие от традиционных алгоритмов, которые выращивают деревья по уровням, LightGBM выращивает их по листьям. Он выбирает для роста лист с максимальной дельтой потерь, что позволяет модели сходиться быстрее и часто приводит к меньшим потерям за то же количество итераций.
  • Односторонняя выборка на основе градиента (GOSS): Этот метод фокусируется на экземплярах данных с большими градиентами (т.е. тех, которые плохо предсказываются). Он сохраняет все экземпляры с большими градиентами и случайным образом отбирает экземпляры с малыми градиентами, что позволяет найти баланс между точностью и скоростью обучения.
  • Объединение эксклюзивных признаков (EFB): Для работы с высокоразмерными и разреженными данными EFB объединяет взаимоисключающие признаки вместе. Такое объединение сокращает количество рассматриваемых признаков, что значительно ускоряет процесс обучения модели.

Для более глубокого технического погружения в оригинальный исследовательский документ LightGBM приведены подробные сведения о его архитектуре и алгоритмах.

Применение в реальном мире

Сильные стороны LightGBM позволяют использовать его в различных приложениях, связанных со структурированными или табличными данными.

  1. Обнаружение мошенничества: В финансовом секторе LightGBM может быстро обрабатывать миллионы записей о транзакциях и выявлять тонкие закономерности, указывающие на мошеннические действия, практически в режиме реального времени. Его скорость крайне важна для своевременного вмешательства, и системы обнаружения мошенничества получают огромную выгоду от его эффективности в ИИ в финансовой сфере.
  2. Предиктивное обслуживание: ИИ в производстве использует LightGBM для анализа данных датчиков оборудования. Обучаясь на исторических данных о работе оборудования и его отказах, модель может предсказывать потенциальные поломки до их возникновения, обеспечивая проактивное обслуживание и сокращая время простоя. Вы можете узнать больше об основных концепциях предиктивного обслуживания.

Среди других распространенных применений - прогнозирование оттока клиентов, рекомендательные системы, прогнозирование частоты кликов и кредитный скоринг. Благодаря своей производительности он стал популярным выбором в соревнованиях по науке о данных, например, на сайте Kaggle.

LightGBM в сравнении с другими моделями

LightGBM является частью семейства моделей градиентного бустинга и должна отличаться от других типов ML-моделей.

  • Сравнение с XGBoost и CatBoost: LightGBM часто сравнивают с XGBoost и CatBoost, поскольку все они являются мощными библиотеками градиентного усиления. Основное различие заключается в алгоритме роста дерева; рост LightGBM по листьям обычно быстрее, чем рост по уровням, используемый в XGBoost. CatBoost отличается встроенной обработкой категориальных признаков, в то время как LightGBM и XGBoost часто требуют предварительной обработки таких данных. Выбор между ними часто зависит от конкретного набора данных и требований к производительности.
  • Сравнение с моделями глубокого обучения: Хотя LightGBM отлично справляется с табличными данными для классических задач ML, он отличается от таких моделей, как Ultralytics YOLO. Модели YOLO - это специализированные архитектуры глубокого обучения (DL), разработанные для задач компьютерного зрения (CV), таких как обнаружение объектов, классификация изображений и сегментация изображений на неструктурированных данных изображений или видео. Платформы, подобные Ultralytics HUB, облегчают разработку и развертывание таких продвинутых моделей CV. LightGBM остается важным инструментом для решения задач, связанных со структурированными данными, где скорость и эффективность работы с большими массивами данных имеют первостепенное значение. Вы можете изучить официальную документацию по LightGBM, чтобы приступить к его внедрению.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена