Glossar

Entscheidungsbaum

Entdecken Sie die Leistungsfähigkeit von Entscheidungsbäumen beim maschinellen Lernen für Klassifizierung, Regression und reale Anwendungen wie Gesundheitswesen und Finanzen.

Ein Entscheidungsbaum ist ein vielseitiger und weit verbreiteter Algorithmus für maschinelles Lernen (ML), der in die Kategorie des überwachten Lernens fällt. Er verwendet eine baumartige Struktur zur Modellierung von Entscheidungen und deren möglichen Folgen, ähnlich wie ein Flussdiagramm. Jeder interne Knoten steht für einen Test auf ein Attribut (oder Merkmal), jeder Zweig für das Ergebnis des Tests und jeder Blattknoten für ein Klassenlabel (bei Klassifizierungsaufgaben) oder einen kontinuierlichen Wert (bei Regressionsaufgaben). Aufgrund ihrer intuitiven Struktur sind Entscheidungsbäume dafür bekannt, dass sie relativ leicht zu verstehen und zu interpretieren sind, was sie für erklärbare KI (XAI) wertvoll macht.

Wie Entscheidungsbäume funktionieren

Die Kernidee besteht darin, den Datensatz auf der Grundlage der Werte der Eingabemerkmale in immer kleinere Teilmengen aufzuteilen und so eine Baumstruktur zu schaffen. Der Prozess beginnt mit dem Wurzelknoten, der den gesamten Datensatz darstellt. An jedem Knoten wählt der Algorithmus das beste Merkmal und den besten Schwellenwert aus, um die Daten so aufzuteilen, dass die Reinheit oder Homogenität der resultierenden Teilmengen in Bezug auf die Zielvariable erhöht wird. Gängige Kriterien für die Suche nach der besten Aufteilung sind die Gini-Verunreinigung und der Informationsgewinn (basierend auf der Entropie), die die Unordnung oder Zufälligkeit in einer Menge messen. Dieser Aufteilungsprozess wird rekursiv fortgesetzt, bis ein Abbruchkriterium erfüllt ist, z. B. das Erreichen einer maximalen Tiefe, einer Mindestanzahl von Stichproben in einem Knoten oder das Erreichen reiner Blattknoten (Knoten, die Stichproben nur einer Klasse enthalten). Um eine Vorhersage für einen neuen Datenpunkt zu treffen, durchläuft es den Baum von der Wurzel bis zu einem Blattknoten auf der Grundlage der Ergebnisse der Merkmalstests, und die Vorhersage ist die Mehrheitsklasse oder der Durchschnittswert in diesem Blatt. Eine sorgfältige Datenvorverarbeitung und Merkmalstechnik kann die Leistung eines Entscheidungsbaums erheblich beeinflussen.

Arten von Entscheidungsbäumen

Entscheidungsbäume können grob in zwei Haupttypen eingeteilt werden:

  • Klassifizierungsbäume: Werden verwendet, wenn die Zielvariable kategorisch ist (z. B. Vorhersage von "Spam" oder "kein Spam"). Die Blattknoten stellen die Klassenbezeichnungen dar.
  • Regressionsbäume: Werden verwendet, wenn die Zielvariable kontinuierlich ist (z. B. bei der Vorhersage von Hauspreisen). Die Blattknoten stellen einen vorhergesagten numerischen Wert dar, häufig den Durchschnitt der Zielwerte der Trainingsstichproben, die dieses Blatt erreichen.

Vorteile und Benachteiligungen

Entscheidungsbäume bieten mehrere Vorteile:

  • Interpretierbarkeit: Durch ihre grafische Struktur sind sie leicht zu visualisieren und zu verstehen.
  • Minimale Datenvorbereitung: Im Vergleich zu anderen Algorithmen erfordern sie oft weniger Datenbereinigung, z. B. weniger Datennormalisierung.
  • Behandelt nicht-lineare Daten: Sie können nicht-lineare Beziehungen zwischen Merkmalen und der Zielvariablen erfassen.
  • Wichtigkeit der Merkmale: Sie bieten ein inhärentes Maß für die Wichtigkeit eines Merkmals, basierend darauf, wie früh oder wie oft ein Merkmal für die Aufteilung verwendet wird.

Sie haben jedoch auch Nachteile:

  • Überanpassung: Entscheidungsbäume können leicht zu komplex werden und Rauschen in den Trainingsdaten erfassen, was zu einer schlechten Verallgemeinerung auf ungesehene Testdaten führt. Techniken wie das Beschneiden oder das Festlegen von Beschränkungen für das Baumwachstum helfen, die Überanpassung zu verringern.
  • Instabilität: Kleine Abweichungen in den Daten können dazu führen, dass ein völlig anderer Baum erzeugt wird.
  • Voreingenommenheit: Wenn der Datensatz unausgewogen ist, können die Bäume zu Merkmalen mit mehr Stufen oder dominanten Klassen tendieren.

Anwendungen in der realen Welt

Entscheidungsbäume werden in verschiedenen Bereichen eingesetzt:

  1. Medizinische Diagnosen: Unterstützung von Ärzten durch Erstellung von Modellen, die auf der Grundlage von Patientensymptomen und Testergebnissen Diagnosen vorschlagen. Beispielsweise könnte ein Baum die Diagnose anleiten, indem er nacheinander Fragen zu den Symptomen stellt(KI in Anwendungen im Gesundheitswesen).
  2. Vorhersage der Kundenabwanderung: Unternehmen verwenden Entscheidungsbäume, um Kunden zu identifizieren, die ihre Dienste auf der Grundlage von Nutzungsmustern, demografischen Daten und der Interaktionshistorie wahrscheinlich nicht mehr nutzen werden, und können so gezielte Maßnahmen zur Kundenbindung ergreifen(Vorhersage der Kundenabwanderung).
  3. Finanzielle Risikobewertung: Bewertung der Kreditwürdigkeit durch Analyse von Faktoren wie Einkommen, Schulden und Kredithistorie(Computer Vision Models in Finance).
  4. Qualitätskontrolle in der Fertigung: Identifizierung potenzieller Produktfehler anhand von Sensormesswerten oder Prozessparametern(Improving Manufacturing with Computer Vision).

Beziehung zu anderen Modellen

Entscheidungsbäume bilden die Grundlage für komplexere Ensemble-Methoden wie Random Forests und Gradient Boosted Trees (wie XGBoost oder LightGBM). Random Forests beispielsweise erstellen mehrere Entscheidungsbäume auf verschiedenen Teilmengen von Daten und Merkmalen und fassen deren Vorhersagen zusammen, was im Vergleich zu einem einzelnen Baum oft zu einer besseren Genauigkeit und Robustheit gegenüber Überanpassung führt. Obwohl Entscheidungsbäume für viele Probleme mit tabellarischen Daten sehr leistungsfähig sind, unterscheiden sie sich deutlich von Modellen wie Convolutional Neural Networks (CNNs) oder Vision Transformers (ViT), die in der Computer Vision verwendet werden. Modelle wie Ultralytics YOLO11 nutzen Deep-Learning-Architekturen, die für Aufgaben wie Objekterkennung, Bildklassifizierung und Instanzsegmentierung optimiert sind, bei denen komplexe, hochdimensionale Daten wie Bilder verarbeitet werden - ein Bereich, in dem einzelne Entscheidungsbäume weniger effektiv sind. Das Verständnis grundlegender Modelle wie Entscheidungsbäume bietet einen wertvollen Kontext innerhalb der breiteren Landschaft der KI und prädiktiven Modellierung. Tools wie Scikit-learn bieten beliebte Implementierungen für Entscheidungsbäume, während Plattformen wie Ultralytics HUB die Entwicklung und den Einsatz von fortgeschrittenen Bildverarbeitungsmodellen rationalisieren.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert