1
planung&analyse 5/2018 66 termine & tipps statistik Treiber des Erfolgs bei der Fußball-WM 2018. Es wurden die auf kicker.de zur Verfügung stehenden An- gaben zu Ballbesitz (in %), Anzahl Torschüsse, Pass- quote (in %), Zweikampfquote (in %) und Anzahl Stan- dards (= Summe aus Anzahl Foul-/Handspiele des Geg- ners und Anzahl Ecken) der 48 Spiele der Gruppenphase der Fußball-WM 2018 erfasst. Beantwortet werden soll die Frage, welcher von diesen der wichtigste Faktor für einen Sieg ist. Ein mögliches Trennungskriterium zur Induktion ei- nes Entscheidungsbaums ist der Gini-Index. Er misst die „Unreinheit“ eines Knotens. Allgemein ist er für m Kate- gorien der abhängigen Variable definiert durch Gk = p1 · (1 - p1) + p2 · (1 - p2) + ··· + pm · (1 - pm) mit p = Anteil einer Kategorie in einem Knoten k. Bei einer Gleichverteilung über die Kategorien nimmt der Gini-Index mit 0,5 sein Maximum an. Er ist umso geringer, je eindeutiger eine Kategorie in einem Knoten ausgeprägt ist. Über alle Spiele der Gruppen- phase hinweg verließen 41 % aller Teams den Platz als Sieger. Insofern beträgt er im ersten Knoten des Ent- scheidungsbaums in der Abbildung G1 = 0,41 · (1 - 0,41) + 0,59 · (1 - 0,59) = 0,48. Es wird jeweils diejenige Variable für die Trennung ausgewählt, mit der der Gini-Index am meisten verrin- gert werden kann. In dem Beispiel ist dies als Erstes die Zweikampfquote. Von den Teams, die mindestens 52 % der Zweikämpfe gewannen, siegten 67 %. Von den Teams mit einer geringeren Zweikampfquote siegten nur 27 %. Im zweiten Knoten ist somit G2 = 0,27 · (1 - 0,27) + 0,73 · (1 - 0,73) = 0,39 und im dritten G3 = 0,67 · (1 - 0,67) + 0,33 · (1 - 0,33) = 0,44. Damit verbessert sich der Gini- Index durch diesen Split um G1 - (Anteil des Knotens 2 am Knoten 1) · G2 - (Anteil des Knotens 3 am Knoten 1) · G3 = 0,48 - 0,66 · 0,39 - 0,34 · 0,44 = 0,07. Da Variablen in einem Entscheidungsbaum mehr als einmal als Tren- nungsvariable genutzt werden können (siehe Zwei- kampfquote), ist die Bedeutung eines Treibers durch die Summe aller der durch diesen bedingten Verbesserun- gen bestimmt. andom Forests sind nicht nur zur Prognose, sondern zugleich zur Analyse der Treiber einer abhängigen Variable einsetzbar. Ge- genüber vielen anderen Verfahren besitzen sie den Vorteil, dass mühelos Treiber mit unterschiedlichen Skalenniveaus untersucht werden können und keine Annahme über die Form des Zu- sammenhangs zur abhängigen Variable getroffen wird. Zudem stellt Multikollinearität für sie kein Problem dar. Je nach Skalenniveau der abhängigen Variable exis- tieren mehrere Möglichkeiten zur Messung der Bedeu- tung der Treiber, von denen eine anhand eines aktuellen Beispiels näher vorgestellt wird. Analog zu der Idee, eine Prognose nicht auf einen einzigen Baum zu stützen, wird mittels Random Forest ein Ensemble an Entscheidungsbäumen erzeugt. Schließlich entspricht die Bedeutung eines Treibers dem Mittelwert der Summe der Verbesserungen über alle Bäume. Bei 1.000 Bäumen betragen die auf eine Summe von 100 % normierten Wichtigkeiten der Treiber für einen Sieg: Zweikampfquote = 26 %, Anzahl Torschüs- se = 21 %, Anzahl Standards = 19 %, Ballbesitz = 18 %, Passquote = 16 %. Das Ergebnis ist jedoch nicht eindeutig. Es hängt ein wenig ab von der Startlösung und ein wenig mehr von der vorgegebenen Anzahl an Variablen (hier: 2), die bei jedem Split zufällig als Kandidaten für die Trennungs- variable ausgewählt werden. Falls die Kandidaten unter- schiedliche Skalenniveaus besitzen, werden zudem die mit mehr Kategorien als Trennungsvariable bevorzugt. Vor diesem Hintergrund ist es empfehlenswerter, das Ergebnis nur als Rangfolge zu interpretieren. Alternative Messungen der Bedeutung von Treibern. Für jeden mittels Random Forest erzeugten Baum wird generell nur ein Teil des untersuchten Datensatzes ver- wendet. Die Trefferquote für den anderen Teil ist Aus- gangspunkt einer alternativen Messung der Bedeutung eines Treibers einer kategorialen Variable. Diese wird mit der Trefferquote verglichen, die sich ergibt, wenn die Ausprägungen des betrachteten Treibers zufällig ver- tauscht werden. Verringert sie sich kaum, sind die Aus- prägungen des Treibers im Grunde egal und seine Be- deutung dementsprechend gering. Verringert sich die Trefferquote sehr, besitzt der Treiber eine hohe Bedeu- tung. Die endgültige Bedeutung entspricht dann dem Mittelwert der Verschlechterungen über alle Bäume. Bei metrischen abhängigen Variablen können die Ansätze ebenso genutzt werden, die verwendeten Maße basieren dann auf den Residuen. In Ausgabe 6/2018: Kriterien der Prognosegüte Treiberanalyse mit Entscheidungsbäumen R Knoten 1 (100%) Sieg 0,41 Knoten 2 (66%) Sieg 0,27 Knoten 4 (53%) Sieg 0,20 Knoten 5 (12%) Sieg 0,58 Knoten 6 (20%) Sieg 0,53 Knoten 8 (12%) Sieg 0,67 Knoten 9 (7%) Sieg 0,29 Knoten 7 (15%) Sieg 0,86 Knoten 3 (34%) Sieg 0,67 Zweikampfquote <52 Zweikampf- quote <54 Passquote <86 Passquote 86 Standards <22 Standards 22 Zweikampfquote 52 Zweikampf- quote 54 Abbildung: Ausschnitt aus einem mit CART erzeugten Ent- scheidungsbaum Johannes Lüken, Diplom- Psychologe, ist Leiter des Bereichs Data Sciences bei IfaD. [email protected] Prof. Dr. Heiko Schimmel- pfennig, Diplom-Kauf- mann, ist Projektleiter für Data Sciences bei IfaD. [email protected] Breiman, L.: Manual on Setting Up, Using, and Understanding Random Forests V3.1, 2002, http://oz.berkeley.edu/ users/breiman/Using _random_forests_ V3.1.pdf Eberl, M. et al.: Treiber- analysen im Fitness- Check. In: planung &analyse 6/2015, S. 39-43 Grömping, U.: Variable Importance Assessment in Regression: Linear Regression versus Random Forest. In: The American Statistician, Nr. 4/2009, S. 308-319 Literatur

statistik Treiberanalyse mit Entscheidungsbäumen R - ifad.de · 66 planung&analyse 5/2018 termine&tipps statistik Treiber des Erfolgs bei der Fußball-WM 2018. Es wurden die auf

  • Upload
    buikhue

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

Page 1: statistik Treiberanalyse mit Entscheidungsbäumen R - ifad.de · 66 planung&analyse 5/2018 termine&tipps statistik Treiber des Erfolgs bei der Fußball-WM 2018. Es wurden die auf

planung&analyse 5/201866

termine&tipps statistik

Treiber des Erfolgs bei der Fußball-WM 2018. Eswurden die auf kicker.de zur Verfügung stehenden An-gaben zu Ballbesitz (in %), Anzahl Torschüsse, Pass-quote (in %), Zweikampfquote (in %) und Anzahl Stan-dards (= Summe aus Anzahl Foul-/Handspiele des Geg-ners und Anzahl Ecken) der 48 Spiele der Gruppenphaseder Fußball-WM 2018 erfasst. Beantwortet werden solldie Frage, welcher von diesen der wichtigste Faktor füreinen Sieg ist.

Ein mögliches Trennungskriterium zur Induktion ei-nes Entscheidungsbaums ist der Gini-Index. Er misst die„Unreinheit“ eines Knotens. Allgemein ist er für m Kate-gorien der abhängigen Variable definiert durchGk = p1 · (1 - p1) + p2 · (1 - p2) + ··· + pm · (1 - pm) mit p = Anteil einer Kategorie in einem Knoten k.

Bei einer Gleichverteilung über die Kategoriennimmt der Gini-Index mit 0,5 sein Maximum an. Er istumso geringer, je eindeutiger eine Kategorie in einemKnoten ausgeprägt ist. Über alle Spiele der Gruppen-phase hinweg verließen 41 % aller Teams den Platz alsSieger. Insofern beträgt er im ersten Knoten des Ent-scheidungsbaums in der Abbildung G1 = 0,41 · (1 - 0,41)+ 0,59 · (1 - 0,59) = 0,48.

Es wird jeweils diejenige Variable für die Trennungausgewählt, mit der der Gini-Index am meisten verrin-gert werden kann. In dem Beispiel ist dies als Erstes dieZweikampfquote. Von den Teams, die mindestens 52 %der Zweikämpfe gewannen, siegten 67 %. Von den Teamsmit einer geringeren Zweikampfquote siegten nur 27 %.Im zweiten Knoten ist somit G2 = 0,27 · (1 - 0,27) + 0,73 ·(1 - 0,73) = 0,39 und im dritten G3 = 0,67 · (1 - 0,67) +0,33 · (1 - 0,33) = 0,44. Damit verbessert sich der Gini-Index durch diesen Split um G1 - (Anteil des Knotens 2am Knoten 1) · G2 - (Anteil des Knotens 3 am Knoten 1) ·G3 = 0,48 - 0,66 · 0,39 - 0,34 · 0,44 = 0,07. Da Variablen ineinem Entscheidungsbaum mehr als einmal als Tren-nungsvariable genutzt werden können (siehe Zwei-kampfquote), ist die Bedeutung eines Treibers durch dieSumme aller der durch diesen bedingten Verbesserun-gen bestimmt.

andom Forests sind nicht nur zur Prognose,sondern zugleich zur Analyse der Treibereiner abhängigen Variable einsetzbar. Ge-genüber vielen anderen Verfahren besitzensie den Vorteil, dass mühelos Treiber mit

unterschiedlichen Skalenniveaus untersucht werdenkönnen und keine Annahme über die Form des Zu-sammenhangs zur abhängigen Variable getroffen wird.Zudem stellt Multikollinearität für sie kein Problemdar. Je nach Skalenniveau der abhängigen Variable exis-tieren mehrere Möglichkeiten zur Messung der Bedeu-tung der Treiber, von denen eine anhand eines aktuellenBeispiels näher vorgestellt wird.

Analog zu der Idee, eine Prognose nicht auf eineneinzigen Baum zu stützen, wird mittels Random Forestein Ensemble an Entscheidungsbäumen erzeugt.Schließlich entspricht die Bedeutung eines Treibers demMittelwert der Summe der Verbesserungen über alleBäume. Bei 1.000 Bäumen betragen die auf eine Summevon 100 % normierten Wichtigkeiten der Treiber füreinen Sieg: Zweikampfquote = 26 %, Anzahl Torschüs-se = 21 %, Anzahl Standards = 19 %, Ballbesitz = 18 %,Passquote = 16 %.

Das Ergebnis ist jedoch nicht eindeutig. Es hängt einwenig ab von der Startlösung und ein wenig mehr vonder vorgegebenen Anzahl an Variablen (hier: 2), die beijedem Split zufällig als Kandidaten für die Trennungs-variable ausgewählt werden. Falls die Kandidaten unter-schiedliche Skalenniveaus besitzen, werden zudem diemit mehr Kategorien als Trennungsvariable bevorzugt.Vor diesem Hintergrund ist es empfehlenswerter, dasErgebnis nur als Rangfolge zu interpretieren.

Alternative Messungen der Bedeutung von Treibern.Für jeden mittels Random Forest erzeugten Baum wirdgenerell nur ein Teil des untersuchten Datensatzes ver-wendet. Die Trefferquote für den anderen Teil ist Aus-gangspunkt einer alternativen Messung der Bedeutungeines Treibers einer kategorialen Variable. Diese wirdmit der Trefferquote verglichen, die sich ergibt, wenn dieAusprägungen des betrachteten Treibers zufällig ver-tauscht werden. Verringert sie sich kaum, sind die Aus-prägungen des Treibers im Grunde egal und seine Be-deutung dementsprechend gering. Verringert sich dieTrefferquote sehr, besitzt der Treiber eine hohe Bedeu-tung. Die endgültige Bedeutung entspricht dann demMittelwert der Verschlechterungen über alle Bäume.

Bei metrischen abhängigen Variablen können dieAnsätze ebenso genutzt werden, die verwendeten Maßebasieren dann auf den Residuen.

In Ausgabe 6/2018: Kriterien der Prognosegüte

Treiberanalyse mitEntscheidungsbäumen

R Knoten 1 (100%)

Sieg 0,41

Knoten 2 (66%)

Sieg 0,27

Knoten 4 (53%)

Sieg 0,20

Knoten 5 (12%)

Sieg 0,58

Knoten 6 (20%)

Sieg 0,53

Knoten 8 (12%)

Sieg 0,67

Knoten 9 (7%)

Sieg 0,29

Knoten 7 (15%)

Sieg 0,86

Knoten 3 (34%)

Sieg 0,67

Zweikampfquote <52

Zweikampf-quote <54

Passquote <86 Passquote 86

Standards <22

Standards 22

Zweikampfquote 52

Zweikampf-quote 54

Abbildung: Ausschnitt aus einem mit CART erzeugten Ent-

scheidungsbaum

Johannes Lüken, Diplom-Psychologe, ist Leiter des Bereichs Data Sciencesbei IfaD.

[email protected]

Prof. Dr. Heiko Schimmel-pfennig, Diplom-Kauf-mann, ist Projektleiter fürData Sciences bei IfaD.

[email protected]

Breiman, L.: Manual onSetting Up, Using, andUnderstanding RandomForests V3.1, 2002,http://oz.berkeley.edu/users/breiman/Using_random_forests_V3.1.pdf

Eberl, M. et al.: Treiber-analysen im Fitness-Check. In: planung&analyse 6/2015,S. 39-43

Grömping, U.: VariableImportance Assessmentin Regression: LinearRegression versusRandom Forest. In: TheAmerican Statistician,Nr. 4/2009, S. 308-319

Literatur