LightGBM
Откройте для себя LightGBM, быстрый и эффективный фреймворк градиентного бустинга для больших наборов данных, обеспечивающий высокую точность в приложениях машинного обучения.
LightGBM, или Light Gradient Boosting Machine, - это высокопроизводительная система градиентного усиления с открытым исходным кодом.
градиентного бустинга, разработанный Microsoft , который
широко используется для ранжирования, классификации и других
задач машинного обучения (ML). Она специально
специально разработан для обработки больших объемов данных с высокой эффективностью и низким потреблением памяти. В отличие от многих других алгоритмов, которые
LightGBM оптимизирован для работы с огромными массивами данных, что делает его предпочтительным выбором для работы с
большими данными как в промышленных приложениях, так и в конкурентной среде
в промышленных приложениях и конкурентных средах. Используя древовидные алгоритмы обучения, он итеративно улучшает прогнозы для достижения
самых современных результатов.
Основные механизмы и эффективность
Основное преимущество LightGBM заключается в уникальном подходе к построению
деревьев решений. В то время как традиционные повышающие алгоритмы
обычно используют стратегию роста по уровням (по глубине), LightGBM использует стратегию роста по листьям (по лучшему результату). Этот
метод выбирает для роста лист с максимальными дельта-потерями, что позволяет модели сходиться гораздо быстрее и достигать более высокой точности.
более высокой точности.
Для дальнейшего повышения производительности без ущерба для точности в LightGBM используются два новых метода:
-
Односторонняя выборка на основе градиента (GOSS): Эта техника уменьшает выборку экземпляров данных. Она сохраняет
все экземпляры с большими градиентами (большими ошибками) и выполняет случайную выборку для экземпляров с малыми градиентами.
Этот подход предполагает, что точки данных с меньшими градиентами уже хорошо обучены, что позволяет алгоритму оптимизации сосредоточиться на
алгоритму оптимизации сосредоточиться на
более трудных случаях.
-
Исключительное объединение признаков (Exclusive Feature Bundling, EFB): В высокоразмерных данных многие признаки являются взаимоисключающими
(они никогда не бывают ненулевыми одновременно). EFB объединяет эти признаки для уменьшения размерности, что значительно
ускоряя обучение модели.
Применение в реальном мире
LightGBM особенно эффективен при работе со структурированными или табличными данными.
обеспечивает работу критически важных систем в различных отраслях промышленности.
-
Обнаружение финансового мошенничества: В финансовом секторе скорость имеет решающее значение. LightGBM используется для анализа
миллионов записей транзакций в режиме реального времени, чтобы выявить подозрительные действия. Благодаря интеграции с
ИИ в финансах
рабочие процессы, учреждения могут сократить количество ложных срабатываний и предотвратить мошенничество еще до его совершения.
-
Диагностика в здравоохранении: Медицинские работники используют LightGBM для
предиктивного моделирования для оценки рисков пациентов.
Например, он может анализировать историю болезни и жизненные показатели пациента, чтобы предсказать вероятность развития таких заболеваний, как диабет
или сердечно-сосудистых заболеваний, являясь важнейшим компонентом современного
ИИ в здравоохранении.
Сравнение с другими моделями
Чтобы понять, какое место занимает LightGBM в ландшафте ML, необходимо отличить ее от аналогичных библиотек ускорения и
фреймворков глубокого обучения.
-
LightGBM против XGBoost и CatBoost: Пока
XGBoost и
CatBoost также являются популярными библиотеками градиентного усиления,
они различаются по реализации. XGBoost традиционно использует уровневый рост, который более стабилен, но часто медленнее
чем листовой подход LightGBM. CatBoost специально оптимизирован для категориальных данных, тогда как LightGBM часто
требует предварительной обработки, например
инжиниринг признаков для оптимальной работы с категориями
для оптимальной работы с категориями.
-
LightGBM против Ultralytics YOLO: LightGBM отлично справляется с задачами структурированных данных (строки и столбцы). В
напротив, Ultralytics YOLO11 это
фреймворк глубокого обучения (ГОО), разработанный для
неструктурированных данных, таких как изображения и видео. В то время как LightGBM может предсказывать отток клиентов, модели YOLO выполняют
обнаружение объектов и
классификацию изображений. Для создания комплексных ИИ
Разработчики часто используют платформуUltralytics Platform для управления моделями видения наряду с табличными моделями, такими как LightGBM.
модели наряду с табличными моделями, такими как LightGBM.
Пример кода
Следующий фрагмент на Python демонстрирует, как обучить базовый классификатор LightGBM на синтетических данных.
import lightgbm as lgb
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
# Generate synthetic binary classification data
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
# Initialize and train the LightGBM model
model = lgb.LGBMClassifier(learning_rate=0.05, n_estimators=100)
model.fit(X_train, y_train)
# Display the accuracy score
print(f"Test Accuracy: {model.score(X_test, y_test):.4f}")
Для более подробного ознакомления с алгоритмами, лежащими в их основе, вы можете изучить
официальную документацию LightGBM.