Entscheidungsbäume A - IfaD · CHAID (Chi-Squared Automatic Interaction Detector) CART...

Preview:

Citation preview

planung&analyse 5/2017 67

wissen&forschung statistik

Ziele. Im Gegensatz zu der zumeist zur Segmentie-rung genutzten Clusteranalyse differenzieren Ent-scheidungsbäume zwischen einer abhängigen Variableund unabhängigen Variablen. Ziel ist es, Segmente ineiner Stichprobe zu finden, die durch die unabhängi-gen Variablen definiert und hinsichtlich der abhängi-gen Variable möglichst homogen sind.

Somit helfen Entscheidungsbäume zu verstehen,wie die abhängige Variable und die unabhängigenVariablen zusammenhängen. Sie ermöglichen es, Re-geln für die Klassifikation von Personen zu formulie-ren. Der Modalwert einer kategorialen abhängigenVariable beziehungsweise der Mittelwert einer me-trischen abhängigen Variable eines Segments ist so-dann eine Prognose eben dieser Variable auch für„neue“ Personen, die diesem Segment zugeordnetwerden.

Beispiel. Auch wenn Entscheidungsbäume für größe-re Stichproben prädestiniert sind, lassen sie sich eben-so gut anhand eines kleinen Datenbeispiels veran-schaulichen. Von sieben Personen sei neben dem Ge-schlecht und dem Alter bekannt, ob sie Käufer oderNicht-Käufer eines Produkts sind (siehe Abbildung 1).

In der Stichprobe befinden sich vier Käufer und dreiNicht-Käufer. Ziel ist es, diese so aufzuteilen, dass sichin den Segmenten entweder möglichst viele Käuferoder möglichst viele Nicht-Käufer befinden. In einemersten Schritt kann anhand des Alters eine Teilgruppeidentifiziert werden, die nur Nicht-Käufer enthält(Knoten 2). Damit ergibt sich eine erste Klassifikati-onsregel respektive Definition eines Segments:

Wenn älter als 49, dann Segment/Knoten 2 (Modal-wert: Nicht-Käufer)

llgemein stellen Entscheidungsbäu-me den Weg zu einer Entscheidunggrafisch dar. In der Marktforschungwerden sie eingesetzt, um Segmente

zu bilden und Klassifikationsregeln zu bestimmen.

Die andere Teilgruppe (Knoten 1) wird in einemzweiten Schritt anhand des Geschlechts aufgeteilt inein Segment, dem nur Käufer angehören (Knoten 3),und ein Segment (Knoten 4), das zwei Käufer undeinen Nicht-Käufer umfasst. Da alle drei weiblich sindund zu der Altersgruppe 40 bis 49 Jahre zählen, kanndieses nicht weiter aufgeteilt werden. Daraus folgenzwei weitere Klassifikationsregeln:

Wenn jünger als 50 und männlich, dann Segment/Knoten 3 (Modalwert: Käufer)

Wenn jünger als 50 und weiblich, dann Segment/Knoten 4 (Modalwert: Käufer)

Abbildung 2 stellt den entsprechenden Entschei-dungsbaum dar. Mit Hilfe der Klassifikationsregelnergibt sich für die Stichprobe eine Trefferquote von 6/7.

Algorithmen. Grundgedanke der Algorithmen zur In-duktion von Entscheidungsbäumen ist das beispielhaftbeschriebene rekursive Zerlegen eines vorliegendenDatensatzes. Jede Aufteilung erfolgt anhand einer un-abhängigen Variable. Für die Auswahl dieser Variableund die genaue Aufteilung spielt die abhängige Varia-ble eine entscheidende Rolle.

Gängige Algorithmen sind● CHAID (Chi-Squared Automatic Interaction

Detector)● CART (Classification and Regression Tree)● CTree (Conditional Inference Tree)

Prinzipiell können die Variablen beliebige Skalen-niveaus aufweisen. Da die Algorithmen damit unter-schiedlich umgehen sowie verschiedene Kriterien fürdie jeweilige Auswahl der Trennungsvariable anlegen,gibt es zu einem Datensatz mehrere mögliche Ent-scheidungsbäume. Diese können beispielsweise hin-sichtlich der Trefferquote miteinander verglichen wer-den.

In Ausgabe 6/2017: Induktion von Entscheidungsbäu-men mit CHAID

Entscheidungsbäume

A

Käufer

Alter ≤ 49 Alter > 49

Geschlecht = weiblichGeschlecht = männlich

Knoten 0

Nicht-Käufer

4

3

Käufer

Knoten 2

Nicht-Käufer

0

2

Käufer

Knoten 1

Nicht-Käufer

4

1E

Käufer

Knoten 3

Nicht-Käufer

2

0

Käufer

Knoten 4

Nicht-Käufer

2

1

Entscheidungsbaum zum Datenbeispiel

Datenbeispiel

Beobachtung Geschlecht Altersgruppe Zuordnung Prognose

Käufer männlich 18−29 Knoten 3 Käufer

Käufer weiblich 40−49 Knoten 4 Käufer

Käufer männlich 30−39 Knoten 3 Käufer

Käufer weiblich 40−49 Knoten 4 Käufer

Nicht-Käufer weiblich 50−59 Knoten 2 Nicht-Käufer

Nicht-Käufer männlich ≥60 Knoten 2 Nicht-Käufer

Nicht-Käufer weiblich 40−49 Knoten 4 Käufer

Quelle: Eyesquare planung&analyse 4/2017

Rokach, L., Maimon,O.Z.: Data Mining withDecision Trees: Theoryand Applications,2. Auflage, Hackensack,2015.

Literatur

Johannes Lüken, Diplom-Psychologe, ist Leiter des Bereichs Data Sciencesbei IfaD.

jlueken@ifad.de

Prof. Dr. Heiko Schimmel-pfennig, Diplom-Kauf-mann, ist Projektleiter fürData Sciences bei IfaD.

hschimmelpfennig@ifad.de

DieAutoren

Recommended