1
planung&analyse 5/2017 67 wissen & forschung statistik Ziele. Im Gegensatz zu der zumeist zur Segmentie- rung genutzten Clusteranalyse differenzieren Ent- scheidungsbäume zwischen einer abhängigen Variable und unabhängigen Variablen. Ziel ist es, Segmente in einer Stichprobe zu finden, die durch die unabhängi- gen Variablen definiert und hinsichtlich der abhängi- gen Variable möglichst homogen sind. Somit helfen Entscheidungsbäume zu verstehen, wie die abhängige Variable und die unabhängigen Variablen zusammenhängen. Sie ermöglichen es, Re- geln für die Klassifikation von Personen zu formulie- ren. Der Modalwert einer kategorialen abhängigen Variable beziehungsweise der Mittelwert einer me- trischen abhängigen Variable eines Segments ist so- dann eine Prognose eben dieser Variable auch für „neue“ Personen, die diesem Segment zugeordnet werden. Beispiel. Auch wenn Entscheidungsbäume für größe- re Stichproben prädestiniert sind, lassen sie sich eben- so gut anhand eines kleinen Datenbeispiels veran- schaulichen. Von sieben Personen sei neben dem Ge- schlecht und dem Alter bekannt, ob sie Käufer oder Nicht-Käufer eines Produkts sind (siehe Abbildung 1). In der Stichprobe befinden sich vier Käufer und drei Nicht-Käufer. Ziel ist es, diese so aufzuteilen, dass sich in den Segmenten entweder möglichst viele Käufer oder möglichst viele Nicht-Käufer befinden. In einem ersten Schritt kann anhand des Alters eine Teilgruppe identifiziert werden, die nur Nicht-Käufer enthält (Knoten 2). Damit ergibt sich eine erste Klassifikati- onsregel respektive Definition eines Segments: Wenn älter als 49, dann Segment/Knoten 2 (Modal- wert: Nicht-Käufer) llgemein stellen Entscheidungsbäu- me den Weg zu einer Entscheidung grafisch dar. In der Marktforschung werden sie eingesetzt, um Segmente zu bilden und Klassifikationsregeln zu bestimmen. Die andere Teilgruppe (Knoten 1) wird in einem zweiten Schritt anhand des Geschlechts aufgeteilt in ein Segment, dem nur Käufer angehören (Knoten 3), und ein Segment (Knoten 4), das zwei Käufer und einen Nicht-Käufer umfasst. Da alle drei weiblich sind und zu der Altersgruppe 40 bis 49 Jahre zählen, kann dieses nicht weiter aufgeteilt werden. Daraus folgen zwei weitere Klassifikationsregeln: Wenn jünger als 50 und männlich, dann Segment/ Knoten 3 (Modalwert: Käufer) Wenn jünger als 50 und weiblich, dann Segment/ Knoten 4 (Modalwert: Käufer) Abbildung 2 stellt den entsprechenden Entschei- dungsbaum dar. Mit Hilfe der Klassifikationsregeln ergibt sich für die Stichprobe eine Trefferquote von 6/7. Algorithmen. Grundgedanke der Algorithmen zur In- duktion von Entscheidungsbäumen ist das beispielhaft beschriebene rekursive Zerlegen eines vorliegenden Datensatzes. Jede Aufteilung erfolgt anhand einer un- abhängigen Variable. Für die Auswahl dieser Variable und die genaue Aufteilung spielt die abhängige Varia- ble eine entscheidende Rolle. Gängige Algorithmen sind CHAID (Chi-Squared Automatic Interaction Detector) CART (Classification and Regression Tree) CTree (Conditional Inference Tree) Prinzipiell können die Variablen beliebige Skalen- niveaus aufweisen. Da die Algorithmen damit unter- schiedlich umgehen sowie verschiedene Kriterien für die jeweilige Auswahl der Trennungsvariable anlegen, gibt es zu einem Datensatz mehrere mögliche Ent- scheidungsbäume. Diese können beispielsweise hin- sichtlich der Trefferquote miteinander verglichen wer- den. In Ausgabe 6/2017: Induktion von Entscheidungsbäu- men mit CHAID Entscheidungsbäume A Käufer Alter 49 Alter > 49 Geschlecht = weiblich Geschlecht = männlich Knoten 0 Nicht-Käufer 4 3 Käufer Knoten 2 Nicht-Käufer 0 2 Käufer Knoten 1 Nicht-Käufer 4 1 E Käufer Knoten 3 Nicht-Käufer 2 0 Käufer Knoten 4 Nicht-Käufer 2 1 Entscheidungsbaum zum Datenbeispiel Datenbeispiel Beobachtung Geschlecht Altersgruppe Zuordnung Prognose Käufer männlich 18−29 Knoten 3 Käufer Käufer weiblich 40−49 Knoten 4 Käufer Käufer männlich 30−39 Knoten 3 Käufer Käufer weiblich 40−49 Knoten 4 Käufer Nicht-Käufer weiblich 50−59 Knoten 2 Nicht-Käufer Nicht-Käufer männlich 60 Knoten 2 Nicht-Käufer Nicht-Käufer weiblich 40−49 Knoten 4 Käufer Rokach, L., Maimon, O.Z.: Data Mining with Decision Trees: Theory and Applications, 2. Auflage, Hackensack, 2015. Literatur Johannes Lüken, Diplom- Psychologe, ist Leiter des Bereichs Data Sciences bei IfaD. [email protected] Prof. Dr. Heiko Schimmel- pfennig, Diplom-Kauf- mann, ist Projektleiter für Data Sciences bei IfaD. [email protected] Die Autoren

Entscheidungsbäume A - IfaD · CHAID (Chi-Squared Automatic Interaction Detector) CART (Classification and Regression Tree) CTree (Conditional Inference Tree) Prinzipiell können

Embed Size (px)

Citation preview

Page 1: Entscheidungsbäume A - IfaD · CHAID (Chi-Squared Automatic Interaction Detector) CART (Classification and Regression Tree) CTree (Conditional Inference Tree) Prinzipiell können

planung&analyse 5/2017 67

wissen&forschung statistik

Ziele. Im Gegensatz zu der zumeist zur Segmentie-rung genutzten Clusteranalyse differenzieren Ent-scheidungsbäume zwischen einer abhängigen Variableund unabhängigen Variablen. Ziel ist es, Segmente ineiner Stichprobe zu finden, die durch die unabhängi-gen Variablen definiert und hinsichtlich der abhängi-gen Variable möglichst homogen sind.

Somit helfen Entscheidungsbäume zu verstehen,wie die abhängige Variable und die unabhängigenVariablen zusammenhängen. Sie ermöglichen es, Re-geln für die Klassifikation von Personen zu formulie-ren. Der Modalwert einer kategorialen abhängigenVariable beziehungsweise der Mittelwert einer me-trischen abhängigen Variable eines Segments ist so-dann eine Prognose eben dieser Variable auch für„neue“ Personen, die diesem Segment zugeordnetwerden.

Beispiel. Auch wenn Entscheidungsbäume für größe-re Stichproben prädestiniert sind, lassen sie sich eben-so gut anhand eines kleinen Datenbeispiels veran-schaulichen. Von sieben Personen sei neben dem Ge-schlecht und dem Alter bekannt, ob sie Käufer oderNicht-Käufer eines Produkts sind (siehe Abbildung 1).

In der Stichprobe befinden sich vier Käufer und dreiNicht-Käufer. Ziel ist es, diese so aufzuteilen, dass sichin den Segmenten entweder möglichst viele Käuferoder möglichst viele Nicht-Käufer befinden. In einemersten Schritt kann anhand des Alters eine Teilgruppeidentifiziert werden, die nur Nicht-Käufer enthält(Knoten 2). Damit ergibt sich eine erste Klassifikati-onsregel respektive Definition eines Segments:

Wenn älter als 49, dann Segment/Knoten 2 (Modal-wert: Nicht-Käufer)

llgemein stellen Entscheidungsbäu-me den Weg zu einer Entscheidunggrafisch dar. In der Marktforschungwerden sie eingesetzt, um Segmente

zu bilden und Klassifikationsregeln zu bestimmen.

Die andere Teilgruppe (Knoten 1) wird in einemzweiten Schritt anhand des Geschlechts aufgeteilt inein Segment, dem nur Käufer angehören (Knoten 3),und ein Segment (Knoten 4), das zwei Käufer undeinen Nicht-Käufer umfasst. Da alle drei weiblich sindund zu der Altersgruppe 40 bis 49 Jahre zählen, kanndieses nicht weiter aufgeteilt werden. Daraus folgenzwei weitere Klassifikationsregeln:

Wenn jünger als 50 und männlich, dann Segment/Knoten 3 (Modalwert: Käufer)

Wenn jünger als 50 und weiblich, dann Segment/Knoten 4 (Modalwert: Käufer)

Abbildung 2 stellt den entsprechenden Entschei-dungsbaum dar. Mit Hilfe der Klassifikationsregelnergibt sich für die Stichprobe eine Trefferquote von 6/7.

Algorithmen. Grundgedanke der Algorithmen zur In-duktion von Entscheidungsbäumen ist das beispielhaftbeschriebene rekursive Zerlegen eines vorliegendenDatensatzes. Jede Aufteilung erfolgt anhand einer un-abhängigen Variable. Für die Auswahl dieser Variableund die genaue Aufteilung spielt die abhängige Varia-ble eine entscheidende Rolle.

Gängige Algorithmen sind● CHAID (Chi-Squared Automatic Interaction

Detector)● CART (Classification and Regression Tree)● CTree (Conditional Inference Tree)

Prinzipiell können die Variablen beliebige Skalen-niveaus aufweisen. Da die Algorithmen damit unter-schiedlich umgehen sowie verschiedene Kriterien fürdie jeweilige Auswahl der Trennungsvariable anlegen,gibt es zu einem Datensatz mehrere mögliche Ent-scheidungsbäume. Diese können beispielsweise hin-sichtlich der Trefferquote miteinander verglichen wer-den.

In Ausgabe 6/2017: Induktion von Entscheidungsbäu-men mit CHAID

Entscheidungsbäume

A

Käufer

Alter ≤ 49 Alter > 49

Geschlecht = weiblichGeschlecht = männlich

Knoten 0

Nicht-Käufer

4

3

Käufer

Knoten 2

Nicht-Käufer

0

2

Käufer

Knoten 1

Nicht-Käufer

4

1E

Käufer

Knoten 3

Nicht-Käufer

2

0

Käufer

Knoten 4

Nicht-Käufer

2

1

Entscheidungsbaum zum Datenbeispiel

Datenbeispiel

Beobachtung Geschlecht Altersgruppe Zuordnung Prognose

Käufer männlich 18−29 Knoten 3 Käufer

Käufer weiblich 40−49 Knoten 4 Käufer

Käufer männlich 30−39 Knoten 3 Käufer

Käufer weiblich 40−49 Knoten 4 Käufer

Nicht-Käufer weiblich 50−59 Knoten 2 Nicht-Käufer

Nicht-Käufer männlich ≥60 Knoten 2 Nicht-Käufer

Nicht-Käufer weiblich 40−49 Knoten 4 Käufer

Quelle: Eyesquare planung&analyse 4/2017

Rokach, L., Maimon,O.Z.: Data Mining withDecision Trees: Theoryand Applications,2. Auflage, Hackensack,2015.

Literatur

Johannes Lüken, Diplom-Psychologe, ist Leiter des Bereichs Data Sciencesbei IfaD.

[email protected]

Prof. Dr. Heiko Schimmel-pfennig, Diplom-Kauf-mann, ist Projektleiter fürData Sciences bei IfaD.

[email protected]

DieAutoren