Glossar

LichtGBM

Entdecken Sie LightGBM, das schnelle, effiziente Gradient-Boosting-Framework für große Datensätze, das eine hohe Genauigkeit bei Anwendungen des maschinellen Lernens bietet.

LightGBM, die Abkürzung für Light Gradient Boosting Machine, ist ein leistungsstarkes, von Microsoft entwickeltes Open-Source-Framework für Gradient Boosting. Es ist auf Geschwindigkeit und Effizienz ausgelegt und eignet sich daher hervorragend für Aufgaben des maschinellen Lernens (ML), die große Datensätze umfassen und schnelle Trainingszeiten erfordern. LightGBM basiert auf Entscheidungsbaumalgorithmen und verwendet eine neuartige blattweise Baumwachstumsstrategie, die es ihm ermöglicht, viel schneller zu konvergieren als andere Boosting-Algorithmen. Seine Effizienz bei der Verarbeitung großer Datenmengen hat ihn zu einem beliebten Werkzeug sowohl für industrielle Anwendungen als auch für Data-Science-Wettbewerbe gemacht.

Wie LightGBM eine hohe Leistung erreicht

Die Geschwindigkeit und der geringe Speicherbedarf von LightGBM sind auf mehrere wichtige Innovationen zurückzuführen, die es von anderen Gradient-Boosting-Methoden unterscheiden. Diese Techniken arbeiten zusammen, um den Trainingsprozess zu optimieren, ohne die Genauigkeit zu beeinträchtigen.

  • Blattweises Baumwachstum: Im Gegensatz zu herkömmlichen Algorithmen, die Bäume stufenweise wachsen lassen, wächst LightGBM blattweise. Er wählt das Blatt mit dem maximalen Delta-Verlust zum Wachsen aus, wodurch das Modell schneller konvergiert und oft zu einem geringeren Verlust bei gleicher Anzahl von Iterationen führt.
  • Gradientenbasiertes einseitiges Sampling (GOSS): Diese Methode konzentriert sich auf Dateninstanzen mit größeren Gradienten (d.h. solche, die schlecht vorhergesagt werden). Alle Instanzen mit großen Gradienten werden beibehalten, und aus den Instanzen mit kleinen Gradienten werden nach dem Zufallsprinzip Stichproben gezogen, wobei ein Gleichgewicht zwischen Genauigkeit und Trainingsgeschwindigkeit hergestellt wird.
  • Exklusive Merkmalsbündelung (EFB): Um mit hochdimensionalen, spärlichen Daten umzugehen, bündelt EFB sich gegenseitig ausschließende Merkmale zusammen. Durch diese Bündelung wird die Anzahl der zu berücksichtigenden Merkmale reduziert, was den Modellbildungsprozess erheblich beschleunigt.

Einen tieferen Einblick in die Technik bietet das Original-Forschungspapier von LightGBM, in dem die Architektur und die Algorithmen des Systems ausführlich beschrieben sind.

Anwendungen in der realen Welt

Dank seiner Stärken eignet sich LightGBM für verschiedene Anwendungen mit strukturierten oder tabellarischen Daten.

  1. Erkennung von Betrug: Im Finanzsektor kann LightGBM schnell Millionen von Transaktionsdatensätzen verarbeiten, um subtile Muster, die auf betrügerische Aktivitäten hindeuten, nahezu in Echtzeit zu erkennen. Seine Geschwindigkeit ist entscheidend für ein rechtzeitiges Eingreifen, und Betrugserkennungssysteme profitieren stark von seiner Effizienz bei der KI im Finanzwesen.
  2. Vorausschauende Wartung: KI in der Fertigung nutzt LightGBM zur Analyse von Sensordaten von Maschinen. Durch Training mit historischen Daten zu Anlagenleistung und Ausfällen kann das Modell potenzielle Ausfälle vorhersagen, bevor sie auftreten. Sie können mehr über die Kernkonzepte der vorausschauenden Wartung erfahren.

Weitere gängige Anwendungen sind die Vorhersage der Kundenabwanderung, Empfehlungssysteme, die Vorhersage der Klickrate und die Kreditwürdigkeitsprüfung. Seine Leistung hat es zu einer beliebten Wahl bei Data-Science-Wettbewerben gemacht, wie z. B. bei Kaggle.

LightGBM vs. andere Modelle

LightGBM ist Teil einer Familie von Gradient-Boosting-Modellen und sollte von anderen ML-Modellen unterschieden werden.

  • Verglichen mit XGBoost und CatBoost: LightGBM wird oft mit XGBoost und CatBoost verglichen, da es sich bei allen um leistungsstarke Gradient-Boosting-Bibliotheken handelt. Der Hauptunterschied liegt im Algorithmus für das Baumwachstum; LightGBMs blattweises Wachstum ist in der Regel schneller als das von XGBoost verwendete stufenweise Wachstum. CatBoost zeichnet sich durch seine integrierte Verarbeitung kategorischer Merkmale aus, während LightGBM und XGBoost für solche Daten oft eine Vorverarbeitung erfordern. Die Wahl zwischen den beiden Verfahren hängt oft von dem jeweiligen Datensatz und den Leistungsanforderungen ab.
  • Im Vergleich zu Deep Learning-Modellen: LightGBM eignet sich zwar hervorragend für klassische ML-Aufgaben mit tabellarischen Daten, unterscheidet sich aber von Modellen wie Ultralytics YOLO. YOLO-Modelle sind spezialisierte Deep-Learning-Architekturen (DL), die für Computer-Vision-Aufgaben (CV) wie Objekterkennung, Bildklassifizierung und Bildsegmentierung auf unstrukturierten Bild- oder Videodaten entwickelt wurden. Plattformen wie Ultralytics HUB erleichtern die Entwicklung und den Einsatz solcher fortschrittlicher CV-Modelle. LightGBM ist nach wie vor ein unverzichtbares Werkzeug für strukturierte Datenprobleme, bei denen Geschwindigkeit und Effizienz bei großen Datensätzen von größter Bedeutung sind. Sie können die offizielle LightGBM-Dokumentation lesen, um mit seiner Implementierung zu beginnen.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert