73
Fakultät Informatik Institut für Systemarchitektur, Professur für Datenbanken Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON PROGNOSEPROZESSEN Tom Fels Matr.-Nr.: 3758512 Betreut durch: Prof. Dr.-Ing. Wolfgang Lehner Eingereicht am 03. November 2015

Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Fakultät Informatik Institut für Systemarchitektur, Professur für Datenbanken

Bachelorarbeit

MERKMALSAUSWAHL ZUROPTIMIERUNG VONPROGNOSEPROZESSENTom FelsMatr.-Nr.: 3758512

Betreut durch:

Prof. Dr.-Ing. Wolfgang Lehner

Eingereicht am 03. November 2015

Page 2: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

ii

Page 3: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

ERKLÄRUNG

Ich erkläre, dass ich die vorliegende Arbeit selbständig, unter Angabe aller Zitate und nur unterVerwendung der angegebenen Literatur und Hilfsmittel angefertigt habe.

Dresden, 03. November 2015

iii

Page 4: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

iv

Page 5: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

ZUSAMMENFASSUNG

Die Prognose von Zeitreihenwerten spielt in vielen wirtschaftlichen Bereichen eine wichtigeRolle. Die Hilfestellung bei Entscheidungsprozessen und die Planung von Investitionen sinddabei nur zwei von vielen Beispielen. Zum Berechnen der Prognosen werden statistische Mo-delle auf verschiedenen Merkmalen der zu prognostizierenden Daten trainiert, welche in derVergangenheit beobachtet wurden. Die dabei erzielte Genauigkeit der Ergebnisse hängt in ho-hem Maße von der Auswahl geeigneter zusätzlicher Merkmale ab, welche als externe Informa-tionen in den Trainingsprozess einbezogen werden können. Ziel dieser Arbeit ist es, die Einflüs-se verschiedener Merkmale auf die Prognosegenauigkeit zu analysieren und zu untersuchen,in welchem Maße sie sich aus den historischen Daten ableiten lassen.Es werden Algorithmen entwickelt und implementiert, die eine automatische Merkmalsreduk-tion vornehmen. Anschließend werden diese auf zwei verschiedenen Datensets und mit meh-reren Modellbildungsverfahren auf ihre Leistungsfähigkeit geprüft.

v

Page 6: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

vi

Page 7: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

INHALTSVERZEICHNIS

Inhaltsverzeichnis vii

Abkürzungsverzeichnis xi

1 Einleitung 1

1.1 Motivation der Variablenauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Regressionsbasierte Prognosemodelle 3

2.1 Gradient Boosting Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.2 Multiple Adaptive Regression Splines . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.3 Multiple Linear Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.4 Ordinary Least Squares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3 Automatisierte Variablenauswahl 7

3.1 Allgemeines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

vii

Page 8: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

INHALTSVERZEICHNIS

3.2 Nutzen im Bereich Forecasting und aktuelle Forschung . . . . . . . . . . . . . . . 8

3.3 Korrelationsbasierte Auswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.4 Regressionsbasierte Auswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.4.1 Forward Stepwise Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.4.2 Forward Stagewise Selection . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.4.3 Least Absolute Shrinkage and Selection Operator . . . . . . . . . . . . . . 11

3.4.4 Least Angle Regression and Selection . . . . . . . . . . . . . . . . . . . . . 11

4 Implementierung der automatisierten Merkmalsauswahl 15

4.1 Allgemeine Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4.2 Tresholdbasierte Merkmalsauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.3 Iterative Merkmalsauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4.4 Iterativ validierte Einzelauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4.5 Merkmalsauswahl mit Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

5 Setup der experimentellen Evaluation 21

5.1 Datensets GEFCom und DREWAG . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

5.1.1 GEFCom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

5.1.2 DREWAG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

5.2 Datenvorverarbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

5.3 Fehlermaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

6 Auswertung der Benchmark-Methoden 27

6.1 Vorbetrachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

6.2 Tresholdbasierte Merkmalsauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . 30

viii

Page 9: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

INHALTSVERZEICHNIS

6.2.1 Setup der Tresholdbasierten Variablenauswahl . . . . . . . . . . . . . . . . 30

6.2.2 Tresholdbasierte Auswahl auf den Daten der DREWAG . . . . . . . . . . 32

6.2.3 Tresholdbasierte Auswahl auf den Daten der GEFCom . . . . . . . . . . . 33

6.2.4 Tresholdbasierte Variablenauswahl mit 150 zusätzlichen Noise-Spalten . . 36

6.3 Iterative Merkmalsauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

6.3.1 Iterative Auswahl mit DREWAG-Daten . . . . . . . . . . . . . . . . . . . . 37

6.3.2 Iterative Auswahl auf GEFCom-Daten . . . . . . . . . . . . . . . . . . . . . 39

6.4 Iterativ validierte Einzelauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

6.4.1 Iterativ validierte Auswahl auf DREWAG-Daten . . . . . . . . . . . . . . . 40

6.4.2 Iterativ validierte Auswahl auf GEFCom-Daten . . . . . . . . . . . . . . . 40

6.5 Merkmalsauswahl mit Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

7 Zusammenfassung und Ausblick 43

A Anhang 45

Literaturverzeichnis 53

Abbildungsverzeichnis 55

Tabellenverzeichnis 57

Liste der Algorithmen 59

ix

Page 10: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

INHALTSVERZEICHNIS

x

Page 11: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

ABKÜRZUNGSVERZEICHNIS

DREWAG . . . .DREWAG - Stadtwerke Dresden GmbH

GBM . . . . . . .Gradient Boosting Machine

GEFCOM . . . .Global Energy Forecasting Competition 2014

GLM . . . . . . .Generalized Linear Model

LARS . . . . . .Least Angle Regression and Selection

LASSO . . . . . .Least Absolute Shrinkage And Selection Operator

MAPE . . . . . .Mean Absolute Percentage Error

MARS . . . . . .Multiple Adaptive Regression Splines

MBE . . . . . . .Mean Bias Error

ML . . . . . . . .Machine Learning

MLR . . . . . . .Multiple Linear Regression

NMAE . . . . . .Normalized Mean Absolute Error

NRMSE . . . . .Normalized Root Mean Square Error

OLS . . . . . . .Ordinary Least Squares

REEF . . . . . . .Renewable Energy Forecasting

xi

Page 12: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Abkürzungsverzeichnis

RSS . . . . . . .Residual Sum Of Squares

SD . . . . . . . .Standard Deviation

xii

Page 13: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

1 EINLEITUNG

1.1 MOTIVATION DER VARIABLENAUSWAHL

Zur Prognose von Zeitreihenwerten werden in vielen Modellen auch exogene Einflüsse be-rücksichtigt, welche die vorherzusagende Größe beeinflussen. Unter der Vielzahl potentiellerEinflussgrößen kann es einige geben, die nur scheinbar mit dem Lastgang korrelieren. DieseScheinkorrelationen können durch eine dritte Größe bedingt sein oder schlicht auftreten, wennsich zwei Zeitreihen in ihrem Verlauf ähnlich sind. Andere Merkmale können die Modellbil-dung negativ beeinflussen, wenn beispielsweise das Modellbildungsverfahren die Werte falschinterpretiert. Dies kann dazu führen, dass eine kleinere Merkmalsmenge die Modellbildung be-schleunigt oder zu präziseren Ergebnissen führt. Als Nebeneffekt wird die Interpretierbarkeitdes Modells erleichtert und die Menge der zu verarbeitenden Daten reduziert.In dieser Arbeit werden Möglichkeiten aufgezeigt, wie die Menge der Merkmale auf die fürverschiedene Vorhersagemodelle wichtigen Einflüsse reduziert werden kann. Dabei können dieangewandten Methoden auf vielfältige Domänen angewandt werden. Weiterhin ist es möglich,die Algorithmen auf hochdimensionale Datensets effizient anzuwenden. Es wird eine möglichstminimale Menge von Merkmalen gefunden, um schnellere oder präzisere Prognosen, sowie ei-ne Reduktion der zu verwaltenden Daten zu ermöglichen.

1

Page 14: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 1 Einleitung

1.2 AUFBAU DER ARBEIT

Die vorliegende Arbeit untergliedert sich in fünf Kapitel. Zunächst wird in Kapitel 2 auf Regres-sionsbasierte Prognosemodelle eingegangen, um aufzuzeigen, welche Modelltypen durch einezusätzliche Variablenauswahl erweitert werden. Anschließend wird in Kapitel 3 die Automati-sierte Variablenauswahl beschrieben. Im Rahmen dieses Kapitels wird sowohl die Korrelations-basierte Auswahl als auch die Kernthematik dieser Arbeit, die Regressionsbasierte Auswahl,betrachtet. Weiterhin werden die implementierten Algorithmen, welche die Merkmalsauswahlrealisieren und prüfen, erläutert. Die Regressionsbasierte Auswahl und Auswertung der Im-plementierungen erfolgt in Kapitel 6 nach der Beschreibung der Rahmenbedingungen in Kapi-tel 5 am Beispiel der Einspeisungsprognose für Strom aus Solarpanelen. Abschließend werdendie Ergebnisse im letzten Kapitel 7 zusammengefasst. Die Begriffe Feature, Variable, Einfluss,Einflussgröße und Merkmal werden im folgenden als synonym betrachtet, da berechnete undgemessene Einflüsse von der Auswahlmethode nicht unterschieden werden.

2

Page 15: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

2 REGRESSIONSBASIERTEPROGNOSEMODELLE

Regressionsverfahren ermitteln funktionale Zusammenhänge einer abhängigen von einer odermehreren unabhängigen Variablen. Dies ermöglicht es, externe Einflüsse in das Vorhersagemo-dell aufzunehmen. Somit kann durch eine Variablenauswahl Einfluss auf die Modellbildunggenommen werden. Im Folgenden wird ein kurzer Überblick über einige bestehende Regres-sionsmodelle gegeben, welche später, in Kapitel 6, zur Prüfung der Qualität der Variablenaus-wahl für die Prognose genutzt werden. Dabei wird besonderer Wert auf die bereits durch denAlgorithmus gegebene Variablenauswahl gelegt.

2.1 GRADIENT BOOSTING MACHINES

Unter Nutzung einer Gradient Boosting Machine (GBM) sind bereits vielversprechende Unter-suchungen zu Einspeisungsprognosen für Photovoltaikanlagen in [UE14] unternommen wor-den, die vor allem die hohe Genauigkeit der GBM-Vorhersagen loben. Ausführlich beschriebenwird GBM in [Fri02] und [NK13].Als Ansatz des Machine Learning (ML) kann GBM als auf Entscheidungsbäumen basierendesLernverfahren angesehen werden. Es gruppiert die Einflussgrößen zunächst in homogene Be-reiche. Die Variablen sind dabei über Kanten verbunden, welche die Bedingung repräsentieren,ob die Variable in das Modell aufzunehmen ist. Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander.Die Variablenauswahl bei GBM erfolgt dabei innerhalb dieser Bäume automatisch durch den

3

Page 16: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 2 Regressionsbasierte Prognosemodelle

Lernalgorithmus selbst. Bei jeder Iteration werden einige Variablen zufällig ausgewählt undModelle auf diesen generiert. Die Modellerzeugung erfolgt durch das Durchlaufen des Ent-scheidungsbaums. Dies wird iterativ bis zu einer definierten Grenze wiederholt, sodass mehre-re unterschiedliche Modelle auf verschiedenen Bäumen gebildet werden. Anschließend wird,basierend auf der Summe der Fehlerquadrate, das beste dieser Modelle gewählt. Dies führt oftdazu, dass viele der Merkmale von GBM verworfen werden, bis das finale Modell gefunden ist[NK13].Nennenswerte Vorteile von GBM sind, dass auch nicht-lineare funktionale Abhängigkeiten be-rechnet werden können und GBM für viele praktische Probleme genutzt werden kann. Aller-dings ist der Speicherplatzbedarf sowie die CPU-Auslastung bei der Berechnung sehr hoch. Zu-dem dauert die Berechnung, im Verhältnis zu den nachfolgend vorgestellten Modellbildungs-verfahren, sehr lange. Diesen Effekten kann, unter Reduktion von Vorhersagegenauigkeit undmit der Gefahr von Überanpassung, durch Reduktion der Anzahl der von GBM aufgespanntenBäume entgegengewirkt werden. Weiterhin ist eine Anpassung der Interaktionstiefe der Varia-blen untereinander möglich, um die Modellbildung zu beschleunigen. [NK13].

2.2 MULTIPLE ADAPTIVE REGRESSION SPLINES

Die Multiple Adaptive Regression Splines (MARS) sind eine Regressionsmethode für hochdi-mensionale Daten, die in [Fri91] präsentiert wird. Im Gegensatz zu GBM wird bei MARS abernicht durch probieren ein optimales Modell gefunden, sondern aufgrund mathematischer Zu-sammenhänge. In [Fri91] wird als optimaler Stichprobenumfang 50 bis 1000 Datensätze und alsgeeignete Dimension1 3 bis 20 Variablen genannt.Prinzipiell spannt auch MARS ähnlich GBM einen Binärbaum auf, in welchem die inneren Kno-ten jeweils eine Variable repräsentieren. Die Kanten bestimmen jeweils, mit welchem Vorzei-chen der Einfluss in eine Basisfunktion aufgenommen wird. Diese Basisfunkionen bilden dieBlätter des Baumes. Abbildung 2.1 zeigt ein einfaches Beispiel für einen solchen, von MARS ge-nerierten, Entscheidungsbaum. An diesem kann die Bildung der Basisfunktionen nachvollzo-gen werden. Diese sind im einfachsten Fall nur eine Konstante β0. Zu diesem y-Offset könnennun weitere Variablen hinzugenommen werden. Wird Variable V1 mit positivem Vorzeichenaufgenommen ergibt sich die Basisfunktion B1 von V1 der Form B1 = β0 + β1 ∗max(0, V1 − c).Dabei sind β1 und c Konstanten, die so gewählt werden, dass die berechneten Werte möglichstnahe an den Messwerten liegen. Analog werden die anderen Funktionen bestimmt. So kommtB3 zustande, indem V1 negativ, V2 positiv und V3 wiederum negativ eingeht. Es ergibt sich B3von -V1,V2 und -V3: B3 = β0 + β1 ∗max(0, c−V1) + β2 ∗max(0, V2 − c) + β3 ∗max(0, c−V3).Die einzelnen Basisfunktionen werden summiert und anschließend mit einer Konstante zurGewichtung, βi, multipliziert, wobei die Faktoren distinkte Variablen beinhalten müssen. Esergibt sich eine teilweise lineare Funktionsgleichung der Form y = ∑i βiBi. MARS fungiert

1Die Dimension des Datensets ist im hier betrachteten Fall mit der Anzahl der Einflussgrößen gleichzusetzen.

4

Page 17: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

2.3 Multiple Linear Regression

Abbildung 2.1: MARS-Entscheidungsbaum (vereinfacht aus [Fri91])

somit als multiple, stückweise lineare Regression. Detaillierter kann der Ablauf der MARS-Modellbildung in [Fri91, S.16ff] nachgelesen werden.

Die Variablenselektionsmethode von MARS basiert auf der Forward Stepwise Selection2, Re-sidual Sum Of Squares (RSS)3 (es werden jene entfernt, welche die kleinste Verbesserung desGeneralized Cross Validation Errors bringen) und der Anzahl der Splinefunktionen, in welchendie Variable auftaucht [HTF09, S.321ff].

2.3 MULTIPLE LINEAR REGRESSION

Multiple Linear Regression (MLR) erweitert die einfache lineare Regression, die nur ein unab-hängiges Merkmal x erlaubt, um mehrere unabhängige Variablen x1, x2, . . . , xk mit abhängigerVariablen y. Voraussetzung ist aber, dass mehr Beobachtungswerte vorliegen als unabhängigeMerkmale betrachtet werden. Die Notation für x als abhängige und y als unabhängige Varia-blen wird im folgenden beibehalten.Im Gegensatz zu GBM und MARS nutzt MLR keine Entscheidungsbäume zur Modellbildung.Das gebildete Modell setzt sich stattdessen aus mehreren Teilmodellen der Form yn = β0 +

β1x1n + β2x2n + . . . + βkxkn + εn zusammen. Dabei ist β0 der y-Achsenabschnitt und die restli-chen β-Parameter sind partielle Koeffizienten. Der Mittelwert aller ε sei 0. Der MLR-Algorithmuskann genutzt werden, um zu bestimmen, wie gut eine Größe durch mehrere Einflussgrößen

2Forward Stepwise Selection siehe Absatz 3.4.13RSS meint die Summe der Fehlerquadrate (Summe der quadrierten Differenzen zwischen Vorhersage und Daten).

5

Page 18: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 2 Regressionsbasierte Prognosemodelle

vorhergesagt werden kann. Die Variablen dürfen untereinander allerdings nicht zu stark korre-lieren [HTF09, S.52ff].

2.4 ORDINARY LEAST SQUARES

Zur Berechnung von Ordinary Least Squares (OLS) werden lineare Funktionen (mit den Ein-flüssen als Koeffizienten) in den Raum der Messwerte gelegt und die Residuen berechnet. Da-mit diese sich nicht gegenseitig aufheben, werden sie quadriert. Abschließend wird die Funk-tion gewählt, welche die geringste Restfehlersumme aufweist. Somit wird die Summe der qua-drierten Fehler minimiert. Diese Methodik ist allerdings anfällig für Ausreißer, da sie eine zuhohe Gewichtung (durch den hohen durch sie verursachten Fehlerwert) erhalten [CSA06]. Aus-führlicher wird Ordinary Least Squares (OLS) in [HTF09, S.11ff] beschrieben.OLS ist aus zwei Gründen nicht als Methode für die lineare Regression zufriedenstellend. DieGenauigkeit ist gering, da die Varianz oft hoch ist. Darüber hinaus ist die Interpretation beivielen Einflussfaktoren schwierig, da keine immanente Auswahl erfolgt [HTF09, S.57]. Das un-ter 3.4.3 vorgestellte Verfahren adressiert beide Probleme durch Beschränkung der Summe derAbsolutbeträge der Koeffizienten.

6

Page 19: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

3 AUTOMATISIERTEVARIABLENAUSWAHL

Insbesondere für Bereiche, in denen große und hochdimensionale Datenmengen anfallen, ist dieAuswahl der wichtigen Einflussgrößen von hoher Bedeutung für die weitere Nutzung. DieseWahl kann nicht immer durch einen Menschen ausgeführt werden, sondern muss automati-siert erfolgen. Denn der Aufwand steigt mit der Zahl der Merkmale, die Übersichtlichkeit fürden Menschen nimmt ab und somit sind beispielsweise die Korrelationen zwischen Merkmalennicht mehr überschaubar.

3.1 ALLGEMEINES

Für eine Antwort y sind Merkmale x1, x2, . . . , xm, welche diese Antwort bedingen, automatischzu ermitteln. Maße für die Güte der ermittelten Einflüsse, also der gewählten Variablen, sindhäufig die Vorhersagegenauigkeit und Minimalität der Menge ausgewählter Einflüsse. Weiter-hin ist die Modellbildungsdauer eine bedeutsame Eigenschaft der Vorhersage. Nach der auto-matisierten Auswahl werden die Methoden durch Vorhersagen mit den unter 2 beschriebenenModellen auf ihre Auswirkungen untersucht. Beachtung muss hierbei finden, dass die Modellejeweils selbst noch eine Variablenauswahl treffen. Somit muss durch die Vorfilterung bereits ei-ne bessere Merkmalsmenge generiert und von der Modellbildung erhalten werden, als der zurEvaluierung genutzte Algorithmus selbst zusammenstellt und die dennoch unabhängig vomTyp des Evaluierungsmodells ist. Besser kann in diesem Kontext sowohl bedeuten, dass a.) mitden vorausgewählten Merkmalen die Vorhersagegenauigkeit optimiert wird, sich b.) die Mo-

7

Page 20: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 3 Automatisierte Variablenauswahl

dellbildungsdauer verringert oder c.) die für das Modell erforderliche Variablenanzahl sinkt.Letzteres minimiert die Abhängigkeiten des Modells von den Daten und lässt eine bessere Er-kennung der Auswirkungen der einzelnen Einflüsse zu, bedingt aber auch a.) und b.).Die vorliegende Arbeit beschränkt sich auf die Betrachtung linearer Abhängigkeiten. Liegenin der Merkmalsmenge nicht-lineare Abhängigkeiten vor, so ist eine nicht-lineare Vorverarbei-tung notwendig. Hierfür kann beispielsweise Quadrieren, Wurzelziehen, Logarithmieren oderInvertieren zum Einsatz kommen [GE03].Es wird in der vorliegenden Arbeit der Fokus auf regressionsbasierter Variablenauswahl liegen.Zum einen sind Filter- und Wrapperansätze bereits in [Spr14] diskutiert worden, zum anderenwird weitestgehend auf ML-basierte Ansätze verzichtet, sodass kein Training erforderlich wird.Dieses kostet Zeit und erfordert Trainingsdaten. Darüber hinaus kann es auch zu einer Überan-passung an die konkret vorliegenden Daten führen. Weitere Nachteile der Wrapper-Methodensind, dass die Daten in Trainings- und Validierungsset gespalten werden müssen und die Be-rechnung NP-hart1 ist, was sie für hochdimensionale Merkmalsmengen ungeeignet macht. Fil-ter sind auch in höherdimensionalen Anwendungen noch geeignet und können als Vorfilter fürWrapper fungieren, wie in [Spr14] vorgeschlagen.Nachfolgend wird ein kurzer Überblick über die aktuelle Forschung und den Nutzen der Va-riablenauswahl für die Vorhersageoptimierung gegeben.

3.2 NUTZEN IM BEREICH FORECASTING UND AKTUELLE FOR-

SCHUNG

Variablenauswahl ist, wie beispielsweise in [GE03] berichtet, zu einem wichtigen Forschungs-schwerpunkt geworden. Dies trifft insbesondere in Bereichen mit hochdimensionalen Daten zu.Sie bietet viele Vorteile, die die Vorhersagequalität erheblich zu steigern vermögen. So kann diePerformance durch effektiver gewählte Mengen von Einflussgrößen erheblich gesteigert wer-den. Dies wird auch in der Evaluation, in Kapitel 6, deutlich. Zudem senken sie die Komplexi-tät der Datenverarbeitung und erleichtern das Verständnis des Prozesses sowie die Erkennungder wesentlichen bestimmenden Faktoren. Im Bereich der Generierung linearer Regressions-modelle wird insbesondere die Zielfunktion vereinfacht und optimiert sowie ein Ranking derEinflussgrößen ermöglicht. Hierdurch wird erreicht, dass die Daten leichter zu visualisierenund schneller zu verstehen sind, Speicherplatz eingespart und die zum Laden der Daten nö-tige Bandbreite und Zeit reduziert werden kann, nachdem die Wahl einer festen Menge vonMerkmalen getroffen wurde [GE03]. Dies alles erhöht die Vorhersageperformanz, insbesonde-re durch effizientere Modellbildung. Daher sind in dieser Arbeit die Vorhersagegenauigkeit undModellbildungsdauer die maßgeblich zum Vergleich genutzten Eigenschaften der evaluiertenModelle. Die zuvor genannten Vorteile werden nicht weiter direkt betrachtet, gehen aber mit

1NP-hart meint so schwer zu lösen wie alle Probleme der Komplexitätsklasse NP, also derjenigen Probleme welchein nichtdeterministischer Polynomialzeit lösbar sind.

8

Page 21: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

3.3 Korrelationsbasierte Auswahl

der Auswahl ebenso einher.Es existiert eine Vielzahl verschiedenster Ansätze um Variablen automatisiert auszuwählen.Ein Beispiel ist die Bewertung und anschließende Filterung der Einflussfaktoren durch Korre-lationskoeffizienten. Diese grundlegende Filtermethode wird im Abschnitt 3.3 beschrieben.

3.3 KORRELATIONSBASIERTE AUSWAHL

Die Korrelationsbasierte Auswahl ist eine Filtermethode welche auf Variablenranking basiert.Die Vorteile dieses Rankings werden in [GE03] beschrieben. Es ist effizient berechenbar undskaliert gut, denn es ist nur für jedes Merkmal die Bewertung zu berechnen und anhand dieserzu filtern. Weiterhin ist es robust gegen Überanpassung, da es Bias (Abweichung des Erwar-tungswerts vom wahren Wert durch systematischen Fehler) erzeugt aber die Varianz erheblichreduzieren kann.Wir nutzen für die Korrelationsbestimmung in dieser Arbeit den Pearson-Korrelationskoeffizienten.Er wird folgendermaßen berechnet, wobei "ψ" ein Platzhalter für ein beliebiges Element sei:

<(i) = cov(Xi, Y)√var(Xi)var(Y)

=∑m

k=1(xk,i − xi)(yk − y)√∑m

k=1(xk,i − xi)2 ∑mk=1(yk − y)2

cov(ψ) : Kovarianz von ψ

var(ψ) : Varianz von ψ

X : Matrix der EinflussgrößenY : Vektor der abhängigen Variablenx : Element aus Xy : Element aus Yψ : Mittelwert von ψ bezüglich Index k

(3.1)

Der Korrelationskoeffizient zwischen der Eingangsvariablen xi und der Vorhersagegröße y seibekannt. Es können nun mehrere Filtermethoden angewandt werden. Ist die Anzahl auszuwäh-lender Merkmale nm definiert, so können diese nach Korrelation absteigend sortiert und an-schließend die besten nm Merkmale in die gewählte Menge übernommen werden. In dieser Ar-beit wird stattdessen ein Treshholdbasierter Filter betrachtet, welcher jene Merkmale entfernt,deren Korrelationskoeffizient kleiner ist als ein festgelegter Prozentwert des größten Korrela-tionskoeffizienten. Dies wird ausführlich beschrieben in 4.2. In dieser Implementierung wirdneben der Korrelation auch die Methode der Regression verwandt, um Merkmale auszuwäh-len. Dies wird nachfolgend, in Absatz 3.4, näher betrachtet.

9

Page 22: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 3 Automatisierte Variablenauswahl

3.4 REGRESSIONSBASIERTE AUSWAHL

Wie in [GE03] beschrieben, stellt der Koeffizient der Determination, <(i)2, den Anteil der ab-soluten Varianz um den Mittelwert y dar, der von der linearen Relation zwischen xi und ybeschrieben wird. Dies erlaubt ein Ranking auf Basis der linearen Annäherung der Variablen.Auch kann der mittlere quadratische Fehler verglichen werden, um Variablen auszuwählen.Voraussetzung ist lediglich, dass die Merkmale skaliert vorliegen, sodass sie vergleichbar sind.Dies schafft eine Möglichkeit der Variablenauswahl durch Regression. In der einfachsten Formkann sie durch Forward Stepwise Selection realisiert werden, wie in Absatz 3.4.1 erläutert.

3.4.1 Forward Stepwise Selection

Als Forward Stepwise Selection wird auch Forward Stepwise Regression verstanden. Erstmaligbeschrieben wird das Vorgehen hierzu in [Rou82]. Zunächst wird das Merkmal xi1 mit der größ-ten absoluten Korrelation zur Antwort y gewählt. Anschließend wird einfache lineare Regressi-on von y auf xi1 angewandt. Resultat dieses Vorgehens ist ein Residuum, das jetzt als Antwortbetrachtet wird. Die Gewichte aller Merkmale werden nun, in Abhängigkeit des Residuums,neu berechnet. Der Prozess wiederholt sich nun mit der Auswahl des Merkmals, welches ammeisten mit dem Residuum korreliert.Nach n Schritten, oder wenn alle Parameter in das Modell aufgenommen wurden, erhält mansomit eine Menge von Merkmalen xi1 , xi2 , xi3 , . . . xin , die jetzt als Parameter eines linearen Mo-delles genutzt werden können. Größter Kritikpunkt dieses Verfahrens ist die Möglichkeit, dassschon beim zweiten Schritt wichtige Merkmale eliminiert werden, wenn sie mit xi1 korrelie-ren [EHJT03, S.2].

3.4.2 Forward Stagewise Selection

Das in 3.4.1 beschriebene Problem, dass untereinander korrelierende Merkmale vorschnell aus-sortiert werden könnten obwohl sie bedeutsam sind, wird durch das in [EHJT03] erläuterte For-ward Stagewise adressiert. Das Vorgehen dieser Methode ist weit kleinschrittiger. Dies hat denVorteil, dass wichtige Einflussgrößen nicht so leicht eliminiert werden, verursacht aber aucheinen erheblichen Aufwand, da weit mehr Schritte nötig sind, bis die Selektion abgeschlossenist.Die Methode ist eine iterative Technik, die stets in Richtung der größten aktuellen Korrelationeinen sehr kleinen, konstanten Schritt ε durchführt. Das Gewicht der betreffenden Variablenwird also nur um ε erhöht, statt das Merkmal in Gänze aus- oder abzuwählen. Wird ε zu großgewählt, so erhält man die in 3.4.1 beschriebene Forward Stepwise Selection. Wählt man ε klein

10

Page 23: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

3.4 Regressionsbasierte Auswahl

genug, um sicherzustellen, dass keine wichtigen Einflussgrößen abgewählt werden, so ist derAlgorithmus nicht mehr effizient.

3.4.3 Least Absolute Shrinkage and Selection Operator

Im Gegensatz zu den bisher eingeführten Methoden der Forward-Selection beschreibt der LeastAbsolute Shrinkage And Selection Operator (LASSO) im Prinzip lediglich ein lineares Modellmit einer Schranke auf die Summe der Koeffizienten. Da diese Koeffizienten letztlich Varia-blen repräsentieren, kann somit die Schranke auch zur Merkmalsauswahl genutzt werden. DerLASSO wird in [Tib94] erstmals eingeführt. Es ist eine erweiterte Form von OLS (siehe 2.4). DerLASSO minimiert die Summe der Fehlerquadrate (siehe Formel 3.2) um das zugrundeliegendelineare Modell an die gemessenen Daten anzupassen.

minimiere(n

∑i(yreali − yolsi

)2) mityreal : Messwertvektoryols : Vektor der von OLS bestimmten Werten : Anzahl der Elemente in yols

(3.2)

OLS wird zu LASSO ergänzt durch eine Beschränkung des Betrages der Summe der Koeffi-zienten der linearen Funktion: ∑n

i=1[|βi|] ≤ S. Dies bedeutet, dass je nach Wahl der Schranke(des Shrinkage-Parameters S) eine bestimmte Anzahl von Koeffizienten auf null reduziert wird.Dies regularisiert OLS, sodass die L1-Norm des Merkmalsvektors den Wert des Shrinkage-Parameters nicht übersteigen kann. Obwohl diese Definition von der in 3.4.2 beschriebenenabweicht, sind die Ergebnisse beider Methoden, wie in [EHJT03] aufgezeigt, beinahe gleich.Dabei lässt sich das LASSO aber effizienter berechnen, beispielsweise mit dem in 3.4.4 vorge-stellten Algorithmus.

3.4.4 Least Angle Regression and Selection

Least Angle Regression and Selection (LARS) wird in [EHJT03] ausführlich beschrieben undvermag alle unter 3.4 beschriebenen Verfahren zu berechnen.In dieser Arbeit wird LARS genutzt, um LASSO zu berechnen. Offensichtlichster Vorteil derNutzung von LARS zur Berechnung von LASSO ist die sehr schnelle und effiziente Berech-nung des LASSO-Pfades2 durch LARS ohne dabei notwendige Schritte auszulassen. LARS be-nötigt daher nur die gleiche Größenordnung an Rechenaufwand wie OLS für alle Merkmaleund liefert dabei die Lösungen für alle möglichen Shrinkage-Parameter von LASSO. Dies wirderreicht, indem eine Näherung des Pfades der Forward Stagewise Selection in weit wenigerSchritten berechnet wird. Im Gegensatz zur Forward Stepwise Selection werden aber Merkmalenicht so aggressiv entfernt. Dadurch erhält man mit LARS ein der Forward Stagewise Selection

2Der Lasso-Pfad beschreibt die Werte der Koeffizienten in Abhängigkeit des Shrinkage-Parameters

11

Page 24: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 3 Automatisierte Variablenauswahl

Abbildung 3.1: Geometrisches Glechnis für die LARS-Berechnung, angepasst auf Grundlage von[EHJT03, S.6]

sehr ähnliches Ergebnis, benötigt aber nur so viel Zeit wie die Forward Stepwise Selection. Einweiterer, maßgeblicher Vorteil von LARS ist, dass es auch effizient ist, wenn die Anzahl derVariablen weit größer ist als die Anzahl der Datensätze. Allerdings ist LARS auch anfällig fürNoise3 [EHJT03].Zur Berechnung des LASSO mit LARS sind zunächst die Merkmalszeitreihen auf Mittelwertnull und einheitliche Länge zu standardisieren. Die Antwort muss den Mittelwert null haben.Mathematisch ausgedrückt muss also gelten:

n

∑i=1

yi = 0,n

∑i=1

Xij = 0,n

∑i=1

X2ij = 1 mit

j = 1, 2, . . . mn : Länge der Messwertzeitreihenm : Anzahl der Messwertzeitreiheny : AntwortvektorX : Matrix der Einflussgrößen

(3.3)

Die Berechnung mit LARS folgt einem geometrischem Gleichnis, welches in Abbildung 3.1 auf-gezeigt und im folgenden erklärt wird. Die Abarbeitung startet, wie in [EHJT03] erläutert, beiµ̂0, indem alle Koeffizienten auf null gesetzt werden. Nun wird das Merkmal xj1 mit der größtenKorrelation mit dem Residuum y2 − µ̂0 gesucht. In Grafik 3.1 sind die Residuen durch grüneLinien dargestellt. Das Merkmal mit der größten Korrelation ist zugleich dasjenige mit demkleinsten Winkel zum Vektor von y. In diesem Beispiel für zwei Merkmale ist dies xj1 , denn derWinkel β ist kleiner als α.Statt jetzt, wie bei Forward Stagewise, die Koeffizienten in Schritten konstanter Länge zu aktua-lisieren, wird der größtmögliche Schritt in Richtung dieses Merkmals xj1 genommen. Dies ge-

3Noise bezeichnet um den Mittelwert null zufällig mit endlicher Varianz verteilte Werte

12

Page 25: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

3.4 Regressionsbasierte Auswahl

schieht, indem der Koeffizient von xj1 , mit dem Vorzeichen seiner Korrelation zu y, erhöht wird.Die nächste Schätzung wird dabei über µ̂1 = µ̂0 + ν1xj1 berechnet. Die Schrittweite ν1 wird sogewählt, dass y2 − µ̂1 den Winkel zwischen xj1 und xj2 halbiert. Entsprechend gilt γ1 = γ2 inAbbildung 3.1 an Pfadposition µ̂1. Danach wird das Residuum berechnet, also die Differenz desMesswertes mit dem, durch die von LARS bisher bestimmte Gleichung, berechnetem Wert.Dies wird so oft wiederholt, bis ein anderes Merkmal xj2 mindestens genau so viel Korrelationmit dem aktuellen Residuum hat wie xj1 . Nun fährt LARS in gleichwinkliger Richtung beiderMerkmale fort (sodass beide gleich korreliert mit y bleiben, in Richtung des blauen Pfeiles mitγ1 = γ2) und erhöht beide Koeffizienten. In Abbildung 3.1 ist der Fall für zwei Merkmale auf-geführt, weshalb bereits mit der nächsten Schätzung µ̂2 = µ̂1 + ν2u2 der Ergebniswert y2 = µ̂2

angenommen wird. u2 liegt auf halber Strecke zwischen µ̂1 und µ̂2. Die dünne, blau eingezeich-nete Treppe zeigt von µ̂1 beginnend einen Pfad für den Forward Stagewise Algorithmus zumVergleich mit dem dick blau eingetragenen LARS-Pfad.Sollten mehr als zwei Merkmale vorliegen, wird dies erneut so lange durchgeführt, bis eine drit-te Variable xj3 gleich viel Korrelation mit dem Residuum hat und in die Menge der gewichtetenMerkmale aufgenommen wird. Dann wird in gleichwinkliger Richtung der drei Merkmale fort-gefahren - daher auch die Bezeichnung "Least Angle Regression and Selection".LARS kann somit als eine Kompromisslösung der Pfadfindung angesehen werden, da es nichtin Richtung eines Merkmals, sondern in gleichwinkliger Richtung der gewählten Merkmalevoranschreitet. Der Algorithmus terminiert, sobald alle Merkmale betrachtet wurden.Um mit LARS den LASSO zu berechnen muss ein Koeffizient, der auf null gesetzt wird, aus deraktiven Merkmalsmenge entfernt werden und die Richtung, in welcher fortgefahren wird, neuberechnet werden.Dies kann auch rückwärts geschehen und somit ist es möglich Merkmale zu eliminieren. Dieswird in der vorliegenden Arbeit aber nicht betrachtet, da hierfür ein Treshold oder rekursiveAusführung von LARS genutzt wird. Tabelle 3.1 zeigt die Unterschiede der vorgestellten Me-thoden anhand der zwei wichtigsten Eigenschaften, der Performanz und der Härte der Aus-wahl, auf. Dabei wird deutlich, dass LARS-LASSO keine harte Auswahl trifft, sondern die Ko-effizienten der gewählten Merkmale gewichtet und diese nicht gänzlich aus der Betrachtungentfernt wie Forward Stepwise. Dabei wird aber durch das oben beschriebene gleichwinkligeVorgehen eine weit schnelle Abarbeitung gewährleistet als bei dem kleinschrittigen ForwardStagewise Algorithmus. Somit vereinigt der LARS-LASSO-Ansatz die Vorteile der beiden an-deren Forward-Selection-Methoden. Er produziert sehr ähnliche Ergebnisse wie die ForwardStagewise Selection in der Zeit, welche die Forward-Stepwise-Auswahl benötigt. Daher solldiese Methode im folgenden für die Implementierung der automatisierten Merkmalsauswahlfür Prognoseprozesse als zentraler Bestandteil genutzt werden.

13

Page 26: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 3 Automatisierte Variablenauswahl

Tabelle 3.1: Vergleich der Vorwärts-Auswahl-Methoden

Algorithmus gewichtet performant

Forward Stepwise Nein JaForward Stagewise Ja Nein

LARS-LASSO Ja Ja

14

Page 27: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

4 IMPLEMENTIERUNG DERAUTOMATISIERTENMERKMALSAUSWAHL

Der Nutzen der LARS-LASSO-Kombination wird durch nachfolgende Implementierungen inR [R C14] geprüft. Es wurden verschiedene Skripte erstellt um die vielfältigen Möglichkeitender Erweiterung aufzuzeigen. Alle Skripte sind weitgehend parametrisiert, um verschiedeneKonfigurationen testen zu können. Die Methoden sind unabhängig von dem Anwendungsge-biet und können auf vielfältige Datensets angewandt werden.

4.1 ALLGEMEINE BEMERKUNGEN

Ausgewertet wird in dieser Arbeit nur ein reduziertes Setup. Die Daten werden nicht vonAusreißern bereinigt und auch nicht logarithmiert. Nachtwerte werden entfernt, wie in [UE14]empfohlen. In der Prognose werden die Werte an entsprechender Stelle ebenfalls nachträglichgenullt. Dieses Verfahren ließe sich noch erweitern indem man Sonnenauf- und Sonnenunter-gangszeiten für das Nullen berücksichtigt, statt jene Zeiten nullzusetzen, in welchen die erfassteEinspeisung minimal ist.Wichtig ist in allen Implementierungen, dass die Daten skaliert vorliegen, um direkt von derGröße des Koeffizienten auf die Bedeutsamkeit des Einflusses schließen zu können.Das für alle Implementierungen genutzte LARS steht als R-Paket bereit [HE15]. Für die Modell-bildung der in 2 beschriebenen Regressionsverfahren wurde auf das Paket Forecast [Hyn15]

15

Page 28: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 4 Implementierung der automatisierten Merkmalsauswahl

zurückgegriffen.

4.2 TRESHOLDBASIERTE MERKMALSAUSWAHL

Der prinzipielle Ablauf der tresholdbasierte Merkmalsauswahl mit LARS wird in Algorithmus4.1 veranschaulicht. Zunächst werden die Trainingsdaten skaliert und Nachtwerte, also jeneDatensätze mit geringster Einspeisung, entfernt (Zeilen 1 und 2 in Algorithmus 4.1). Die Skalie-rung erfolgt, da ansonsten die LASSO-Koeffizienten abhängig von der Einheit der Messgrößewären. Folglich würden ohne Skalierung Merkmale mit kleineren Einheiten eine höhere Bedeu-tung erhalten. Die Löschung der Nachtwerte verbessert ebenfalls das Ergebnis, da beispiels-weise der Niederschlag sonst eine schlechtere Korrelation mit der Einspeisung aufwiese, da erauch Nachts ähnliche Werte erreichen kann wie tagsüber. Dennoch ist der Niederschlag für dieTageswerte eine interessante Größe, da bei höherem Niederschlag eine geringere Einspeisungzu erwarten ist. Nach dem Laden der Daten werden die Korrelationen der einzelnen Einflüssemit der Einspeisung unter Nutzung des Pearson-Korrelationskoeffizienten (siehe Formel 3.1)berechnet (Zeile 3). Werden mehrere Tresholdwerte übergeben, so wird das Folgende für jedendieser Werte ausgeführt. Im Algorithmus 4.1 ist dies durch die optionale forall-Schleife überalle Tresholdwerte von Zeile vier bis zwölf repräsentiert.Innerhalb der Schleife wird der komplette LASSO-Pfad unter Nutzung von LARS berechnet(Zeile 5). Anschließend wird mittels Kreuzvalidierung die optimale Pfadposition, hinsichtlichdes voraussichtlichen Cp einer Vorhersage, bestimmt. Cp beschriebt die Anpassung eines mitOLS und den von LASSO gewählten Merkmalen geschätzten Regressionsmodells an die Daten.Das Resultat sind die LASSO-Koeffizienten für alle Merkmale an der gewählten Position (Zeile6).Für die Modellbildung werden anschließend diejenigen Merkmale gewählt, deren Bewertunggrößer als der aktuelle Treshold ist. Dieses Vorgehen wird auch Hard-Tresholding genannt. DasBilden der Bewertung erfolgt, indem jeder LASSO-Koeffizient ungleich null durch den größ-ten Koeffizienten geteilt wird. Als Ergebnis erhält man Bewertungen der Merkmale zwischennull und eins. Sind alle LASSO- oder Korrelationskoeffizienten gleich, so ist die Bewertungaller Merkmale gleich 1 und alle werden, unabhängig vom Wert des Tresholds, zur Modellbil-dung genutzt. Ist einer der Werte hingegen viel größer als die anderen genügt schon ein kleinerTreshold um alle weiteren Merkmale zu eliminieren (Zeilen 7 und 8). Für das Prognosemodellwerden im Anschluss jene Merkmale gewählt, deren Bewertungen größer sind als der aktuelleTreshold (Zeile 9).Abschließend werden die Modelle gebildet und Vorhersagen mit diesen berechnet (Zeile 10).Auf Grundlage der Güte dieser kann eine Wertung der Eignung des gewählten Tresholds vor-genommen werden. Ist der Vorhersagefehler zu groß, so muss der Treshold angepasst werden.Die Möglichkeit dieser notwendigen Reparametrisierung ist der Nachteil dieser Methode, dadie benötigte Zeit zur Erstellung des finalen Modells von der Anzahl notwendiger Anpassun-

16

Page 29: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

4.3 Iterative Merkmalsauswahl

gen des Tresholds abhängt.Hintergrund der Verwendung eines Tresholds ist die Realisierung der in [AL74, S. 142] empfoh-lene Kombination von Aufbau- und Reduktionsverfahren. Das LARS-LASSO-Verfahren bautzunächst eine Merkmalsmenge auf, indem es einzeln Merkmale anhand ihrer Korrelationen,wie in 3.4.4 beschrieben, in die Menge aufnimmt. Anschließend werden die Merkmale, welchenBewertungen zugeordnet wurden, die kleiner sind als der Treshold, eliminiert. Die Bildung derPearson-Korrelationskoeffizienten (siehe Formel (3.1)) erfolgt hingegen für alle Merkmale, wes-halb hier lediglich der Treshold als Eliminationsmethode zur Merkmalsreduktion genutzt wirdund keine vorhergehende Auswahl erfolgt.Das R-Skript sowie seine Ergebnisse für die einzelnen Lastgänge sind auf dem beiliegendemDatenträger, wie der Tabelle A.1 im Anhang zu entnehmen, hinterlegt.

Algorithmus 4.1: Tresholdbasierte Merkmalsauswahl

1 Hole skalierte Trainingsdaten;2 Entferne Datensätze mit minimaler Einspeisung;3 Berechne Korrelationen der Variablen mit der Einspeisung;4 forall the Tresholdwerte do5 Berechne LASSO-Pfad mit LARS;6 Finde kreuzvalidierten, optimalen Shrinkage-Parameter über maximale

LASSO-Pfadposition mit geringstem erwarteten Fehler;7 Bilde Bewertung der LASSO-Koeffizienten.;8 Filtere LASSO-Koeffizienten mit Bewertung unter halben Treshold;9 Filtere Korrelationskoeffizienten mit Bewertung unter Treshold;

10 Bilde Modelle und berechne Vorhersage für LASSO-, und Korrelations-Parameter;11 end

4.3 ITERATIVE MERKMALSAUSWAHL

Grundlage für diesen Algorithmus ist der Fakt, dass der kreuzvalidiert bestimmte Shrinkage-Parameter des LASSO immer kleiner wird, je weniger Merkmale existieren und je wichtigerdiese zur Schätzung der Einspeisung sind. Folglich werden immer weniger Koeffizienten aufnull gesetzt, bis sich die Auswahl nicht mehr ändert. Dann terminiert der Algorithmus und gibtdie ausgewählten Merkmale zurück.Es wird sowohl die Anfälligkeit des LARS-LASSO für Noise reduziert als auch die Härte derAuswahl erhöht. Beides wird durch die mehrfache Ausführung erreicht, da während der erstenIterationen Noise eliminiert wird und der Algorithmus dann aus den noch verfügbaren Größendie wichtigsten auswählt, ohne dabei zu viel Näherung an OLS zu verlieren.Der vereinfachte Ablauf kann Algorithmus 4.2 entnommen werden. Zuerst werden die skalier-ten Trainingsdaten geladen. Die Skalierung ermöglicht eine einfache Erweiterung durch einenFilter auf die Größe der LASSO-Koeffizienten, welcher die Selektivität des Algorithmus noch zu

17

Page 30: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 4 Implementierung der automatisierten Merkmalsauswahl

erhöhen vermag. Alternativ ist auch die Auswahl der n größten Koeffizienten möglich. BeideErweiterungen wurden für die hier betrachteten Tests nicht vorgenommen, da sie erst bei hö-herdimensionalen Daten sinnvoll sind. Die Nachtwerte werden entfernt, da in der Nacht keineEinspeisung erfolgt und die Ergebnisse folglich durch diese Werte verfälscht würden. Nach-dem diese in Zeile 1 und 2 des Algorithmus aufgezeigte Vorverarbeitung abgeschlossen ist,startet die iterative LARS-LASSO-Berechnung (Zeile 4 bis 8). In der ersten Iteration werden al-le Merkmale betrachtet und auf diesen der LASSO-Pfad bestimmt sowie die Pfadposition mitdem geringsten Fehler berechnet (kreuzvalidiert). Die Koeffizienten an dieser Position werdenals neue gewählte Merkmale gesetzt (Zeile 7 im Algorithmus). Anschließend startet die nächsteIteration mit den zuvor gewählten Merkmalen als Übergabe. Der kreuzvalidierte Shrinkage-Parameter wird nun voraussichtlich kleiner, da mehr Merkmale erhalten bleiben müssen umden Fehler der OLS-Näherung zu minimieren. Auch muss der verfügbare Betrag der Summeder Koeffizienten auf weniger Koeffizienten aufgeteilt werden. Dies ist die Voraussetzung fürdas Terminieren des Algorithmus, wenn kein Merkmal mehr abgewählt wird. Sobald dies derFall ist, werden Modelle auf dieser minimalen, finalen Merkmalsmenge gebildet und die zuge-hörigen Vorhersagen erstellt (Zeile 9 im Algorithmus).

Algorithmus 4.2: Iterative Merkmalsauswahl

1 Hole skalierte Trainingsdaten;2 Entferne Datensätze mit minimaler Einspeisung;3 Setzte alle Merkmale als gewählte Merkmale;4 while gewählte Merkmale gleich zuvor gewählte Merkmale do5 Berechne LASSO-Pfad mit LARS aus bisher gewählten Merkmalen;6 Finde optimalen Shrinkage-Parameter über maximale LASSO-Pfadposition mit

geringstem erwarteten Fehler;7 Setzte neue gewählte Merkmale;8 end9 Bilde Modelle und berechne Vorhersage;

4.4 ITERATIV VALIDIERTE EINZELAUSWAHL

Die grundlegende Idee der iterativ validierten Einzelauswahl ist, dass LARS-LASSO in jedemDurchlauf nur das am höchsten gewichtete Merkmal auswählt und anschließend erneut auf dieverbleibenden, noch nicht gewählten, Merkmale angewandt wird. Dies führt dazu, dass bereitsgewählte Merkmale keine Beachtung mehr für den weiteren Auswahlprozess haben. Daherkann es zur Auswahl hochgradig multikorrelierter Merkmalsmengen kommen. Dies kann nach[GE03] zu einer Verbesserung der mit diesen Merkmalen gebildeten Modelle führen.Algorithmus 4.3 zeigt den vereinfachten Ablauf in Kürze auf. Zuerst erfolgt die gleiche Vor-verarbeitung wie schon in den Absätzen 4.2 und 4.3 beschrieben. Die Trainingsdaten werdenskaliert und Nachtwerte entfernt. Anschließend wird für jedes Merkmal LARS-LASSO auf alle

18

Page 31: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

4.5 Merkmalsauswahl mit Clustering

noch nicht betrachteten Merkmale angewandt und das Merkmal mit dem größten Koeffizientengewählt (Zeilen 5 bis 7). Dies macht auch die Skalierung notwendig, da ansonsten die Einheitder Einflussgröße deren Wertung maßgeblich beeinflussen würde. Um die Wichtigkeit des ge-wählten Merkmals zu verifizieren, wird nach der Auswahl durch LARS noch ein MLR-Modell,mit den bisher gewählten und dem neu hinzugekommenen Merkmal, gebildet. Daher empfiehltsich die Festlegung eines Grenzwertes für die Anzahl auszuwählender Merkmale, um nichtzu viele Modellbildungsprozesse zu durchlaufen (Zeile 4). Das Modellbildungsverfahren kannauch ausgetauscht werden, sollte aber, aufgrund der Ausführung für jeden Test auf Verbesse-rung, schnell sein. Für das gebildete Modell wird eine Vorhersage auf einem Trainingsdatensetgebildet und der Normalized Root Mean Square Error (NRMSE) dieser Vorhersage berechnet(Zeile 8). Ist er besser als der NRMSE aller vorherigen Vorhersagen, so wird das Merkmal in diefinale Ergebnismenge aufgenommen. Ansonsten wird es verworfen (Zeilen 9 bis 12). Anschlie-ßend wird die Auswahl erneut auf alle Merkmale außer der bereits betrachteten angewandtund wieder das Merkmal mit dem größten Koeffizienten gewählt.Ist die Maximalanzahl zu wählender Merkmale erreicht oder wurden alle Merkmale einmaligbetrachtet, so terminiert die Auswahl und das finale Modell kann zur Berechnung von Vorher-sagen genutzt werden (Zeile 14).

Algorithmus 4.3: Iterativ validierte Einzelauswahl

1 Hole skalierte Trainingsdaten;2 Entferne Datensätze mit minimaler Einspeisung;3 Setzte gewählte Merkmale auf alle Merkmale;4 for 1 bis Maximalanzahl zu wählender Merkmale do5 Berechne LASSO-Pfad mit LARS aus gewählten Merkmalen;6 Finde kreuzvalidierten, optimalen Shrinkage-Parameter über maximale

LASSO-Pfadposition mit geringstem erwarteten Fehler;7 Wähle Merkmal mit größtem Koeffizienten in Testmenge;8 Berechne Modell, Forecast und bestimme NRMSE mit Testmenge;9 if NRMSE besser als alle vorherigen then

10 Entferne Merkmal aus gewählten Merkmalen;11 Speichere Merkmal in Rückgabemenge;12 end13 end14 Bilde Modelle mit Rückgabemenge und berechne Vorhersage;

4.5 MERKMALSAUSWAHL MIT CLUSTERING

Algorithmus 4.4 zeigt den grundsätzlichen Ablauf der Methode. Um Redundanz zu schaffen,die nach [GE03] förderlich sein kann, wird LARS-LASSO in dieser Methode nur auf eine sepa-rierte Menge von Merkmalen angewandt. Zunächst wird ein hierarchisches Clustering mittels"Iterative Relocation Algorithm" und "Ascendant Hierarchical Clustering" unter Nutzung des

19

Page 32: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 4 Implementierung der automatisierten Merkmalsauswahl

Packages ClustOfVar [CKLS13] ausgeführt. Die einzelnen Cluster werden über das Kriteriumder Zunahme der Homogenität bei der Zusammenfassung gebildet. Hierfür wird die quadrier-te Korrelation zwischen den Variablen und dem Zentrum des Clusters genutzt, welches durchdie zuerst aufgenommene Variable bestimmt und bei Aufnahme weiterer Variablen aktuali-siert wird. Das hierarchische Cluster wird in der kleinstmöglichen Tiefe mit größtmöglichemRand Index1 aufgespalten. Die Rand Indexe werden über nicht-parametrisiertes Bootstrappingbestimmt, das heißt es werden aus wiederholt zufällige Zerlegungen in Cluster erzeugt undbewertet, dabei kann die gleiche Zerlegung auch mehrfach auftreten. Anschließend wird dieMenge der Merkmale, die im gleichen Cluster wie die Einspeisung liegen, in die Ergebnis-menge fest übernommen. Im Algorithmus 4.4 ist dies in den Zeilen eins bis vier abgebildet.Hierbei wird davon ausgegangen, dass jene Merkmale, welche von der Einspeisung im Ähn-lichkeitsmaß am wenigsten abweichen, für die Vorhersage bedeutsam sind. Daher werden sie,obwohl sie untereinander korrelieren, in die Auswahl fest übernommen. Anschließend werdendurch LASSO weitere Merkmale aus den anderen Clustern zur Ergebnismenge hinzugefügt.Dabei wird LASSO jeweils immer nur auf ein Cluster ausgeführt, sodass jeweils die wichtigstenMerkmale jedes Clusters ausgewählt werden, ohne dass Merkmale eines anderen Clusters denLARS-Algorithmus bei der LASSO-Berechnung beeinflussen. Die LASSO-Koeffizienten werdenper Kreuzvalidierung bestimmt, sodass möglichst viele Koeffizienten null werden und der Feh-ler minimiert wird. Es werden alle Merkmale des aktuell betrachteten Clusters mit dem Clusterder Einspeisung gemeinsam durch LARS-LASSO ausgewertet und alle Merkmale mit Koeffizi-enten größer 0 werden übernommen. Dies ist in den Zeilen 6 bis 10 im Algorithmus 4.4 reprä-sentiert. Nachdem jedes Cluster betrachtet wurde, steht die finale Merkmalsmenge fest und dieModelle können mit dieser gebildet werden (Zeile 11).Grundlagen des hierarchischen Clusteringverfahrens können in Kapitel 2.2 ab Seite 15 in [DT85]nachgelesen werden.

Algorithmus 4.4: Clusterbasierte Auswahl

1 Hole skalierte Trainingsdaten;2 Bilde hierarchische Clusterstruktur;3 Finde geeignete Zerlegung und spalte in n Cluster;4 Wähle alle Merkmale im Cluster der Einspeisung;5 Bilde Modelle und berechne Forecasts mit bisheriger Wahl;6 for i in 1 bis n do7 Berechne LASSO-Pfad mit LARS aus Merkmalen des Clusters i;8 Finde optimalen Shrinkage-Parameter über maximale LASSO-Pfadposition mit

geringstem erwarteten Fehler;9 Füge Merkmale mit absoluten LASSO-Koeffizienten > 0 der ausgewählten Menge

hinzu;10 end11 Bilde Modelle mit durch LASSO ergänzter Auswahl;12 Berechne Vorhersage;

1Der Rand-Index misst den Prozentsatz richtiger Zuordnungen.

20

Page 33: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

5 SETUP DEREXPERIMENTELLENEVALUATION

Die Evaluation erfolgt auf einem Laptop Dell Latitude E6520 mit installiertem Windows 7 En-terprise SP1 64 bit und Intel Core i7-2760QM CPU mit 2.4 GHz mit 4 Kernen sowie 8 GB RAM,298GB HDD und Intel HD Graphics 3000.

5.1 DATENSETS GEFCOM UND DREWAG

Für beide Datensets existierten Beobachtungen der Jahre 2013 und 2014, wobei die Global Ener-gy Forecasting Competition 2014 (GEFCOM)-Datensätze nur das erste Halbjahr 2014 umfassen.Die Originaldaten sind mit Beschreibung sind auf dem beiliegenden Datenträger, wie in TabelleA.1 im Anhang beschrieben, zu finden.

5.1.1 GEFCom

Zur Evaluation der implementierten Algorithmen werden zwei verschiedene Datensets ge-nutzt. Das GEFCOM-Datenset besteht aus drei Lastgängen mit 13 zugehörigen Einflussgrößen.Weiterhin stehen vier vorab berechnete Werte zur Verfügung - Monat, Tag, Stunde und Clears-ky. Letzterer wird über den Maximalwert der Einspeisung aus allen Beobachtungen innerhalb

21

Page 34: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 5 Setup der experimentellen Evaluation

Tabelle 5.1: Technische Parameter der GEFCOM-Installationen nach [EU14]

LG-Nr Maximaleinspeisung Stationshöhe Neigung Ausrichtung Anz.Panele

1 1560W 595m 36 38 82 4940W 602m 35 327 263 4000W 951m 21 31 20

Tabelle 5.2: Variablen der GEFCOM-Daten nach [EU14]

Variable Einheit Beschreibung

VAR078 kg/m2 Vertikalintegral des Flüssigwasseranteils in WolkenVAR079 kg/m2 Vertikalintegral des Eisanteils in WolkenVAR134 Pa OberflächendruckVAR157 % Relative Feuchte bei 1000mbarVAR164 0− 1 Totale WolkenbedeckungVAR165 m/s Westwind in 10 Metern Höhe

VAR166 m/s Südwind in 10 Metern HöheVAR167 K Temperatur in 2 Metern HöheVAR169 J/m2 Akkumulierte OberflächensolarstrahlungVAR175 J/m2 Akkumulierte OberflächenwärmestrahlungVAR178 J/m2 Akkumulierte nichtreflektierte Solarstrahlung (CP+LSP)VAR228 m Totaler Niederschlag

von 10 Tagen vor und nach dem zu berechnendem Zeitpunkt jedes Jahres berechnet. Monat,Tag und Stunde repräsentieren den relativen Zeitpunkt innerhalb eines Jahres, Monats bezie-hungsweise Tages [EU14, S.IV].Die Wetterdaten der GEFCOM sind direkt den gemessenen Einspeisungen zugeordnet. Dietechnischen Parameter der Installationen sind in [EU14] aufgezeigt. Eine Auswahl der wich-tigsten Eigenschaften wird in Tabelle 5.1 wiedergegeben. Zu den Lastgängen fällt auf, dass alledrei über das Jahr relativ konstant bleiben. Am Beispiel des Lastgangs 1 wird dies für 2013 inAbbildung 5.1 veranschaulicht.Die Wetterdaten des GEFCOM-Datensets sind ebenfalls in [EU14] beschrieben und werden inTabelle 5.2 kurz erklärt. Sowohl Wetter- als auch Lastgangdaten wurden von dem RenewableEnergy Forecasting (REEF)-Forschungsprojekt des Instituts für Systemarchitektur der TU Dres-den bereitgestellt.

5.1.2 DREWAG

Die Lastgangdaten der DREWAG - Stadtwerke Dresden GmbH (DREWAG) lagen, ebenfallsdurch das REEF-Projekt bereitgestellt, in Viertelstundenintervallen vor und beinhalteten zu-sätzliche Informationen wie den Status und den Tarif.

22

Page 35: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

5.1 Datensets GEFCom und DREWAG

0 2000 4000 6000 8000

0.0

0.2

0.4

0.6

0.8

Einspeisung GEFCOM 2013 − Lastgang 1

Zeit in Stunden

Ein

spei

sung

in k

w/h

Abbildung 5.1: Lastgang 1 der GEFCOM-Daten für 2013

Tabelle 5.3: Wetterstationen

Stationsname Stations-ID geogr. Breite geogr. Länge Stationshöhe

Dresden-Klotzsche 1048 51,08’N 13,45’O 227mDresden-Strehlen 1051 51,01’N 13,46’O 119m

Die externen Einflüsse zu den DREWAG-Lastgangdaten werden vom Deutschen Wetterdienst(DWD) bereitgestellt. Es handelt sich um Messwerte aus den zwei Dresdener Wetterstationen inDresden-Klotzsche und Dresden-Strehlen. Die Stationsmetadaten können Tabelle 5.3 entnom-men werden. Es ist anzumerken, dass die an den Stationen gemessenen Wetterbedingungennicht zwangsläufig immer mit den Wetterverhältnissen am Standort der Solarpanele überein-stimmen.Die Lastgänge der DREWAG haben sehr unterschiedliche Verläufe. Beispielhaft zeigen dies dieAbbildungen B.9 und B.10 im Anhang. Diese zeigen die Höhe der Einspeisung über die zweibetrachteten Jahre 2013 und 2014. Hierbei fällt insbesondere auf, dass Lastgang 12 dann niedri-ge Werte annimmt, wenn Lastgang 2 hohe Werte aufweist. Im Schnitt ähneln die Lastgänge derDREWAG Lastgang zwei.Die für die DREWAG-Lastgänge genutzten Wettereinflüsse werden in Tabelle 5.4 auf der nächs-ten Seite erläutert.

23

Page 36: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel5

Setup

derexperimentellen

Evaluation

Tabelle 5.4: Variablen der DREWAG-Daten

Stations-ID Variable Einheit Beschreibung

1048 ERDBODENTEMPERATUR.1 ◦C Temperatur im Erdboden in 5 cm Tiefe1048 ERDBODENTEMPERATUR.2 ◦C Temperatur im Erdboden in 10 cm Tiefe1048 ERDBODENTEMPERATUR.3 ◦C Temperatur im Erdboden in 20 cm Tiefe1048 ERDBODENTEMPERATUR.4 ◦C Temperatur im Erdboden in 50 cm Tiefe

1048 MESS_TIEFE.1 m Konstante Messtiefe für ERDBODENTEMPERATUR.1 = 0.051048 MESS_TIEFE.2 m Konstante Messtiefe für ERDBODENTEMPERATUR.2 = 0.11048 MESS_TIEFE.3 m Konstante Messtiefe für ERDBODENTEMPERATUR.3 = 0.21048 MESS_TIEFE.4 m Konstante Messtiefe für ERDBODENTEMPERATUR.4 = 0.5

1048 WINDGESCHWINDIGKEIT m/s Windgeschwindigkeit Messnetz 31048 WINDRICHTUNG ◦ Windrichtung Messnetz 31048 GESAMT_BEDECKUNGSGRAD eighth Bedeckungsgrad aller Wolken1048 LUFTDRUCK_REDUZIERT hPa Reduzierter Luftdruck in Stationshöhe

1048 LUFTDRUCK_STATIONSHOEHE hPa Luftdruck in Stationshöhe1048 NIEDERSCHLAG_GEFALLEN_IND NumCode Indikator Niederschlag ja/nein1048 NIEDERSCHLAGSHOEHE mm stündliche Niederschlagshoehe1048 NIEDERSCHLAGSFORM NumCode stündliche Niederschlagsform

1048 LUFTTEMPERATUR ◦C Lufttemperatur1048 REL_FEUCHTE % Relative Feuchte1048 ATMOSPHAERE_LW_J J/cm2 Stundensumme der langwelligen atmosphaerischen Strahlung1048 DIFFUS_HIMMEL_KW_J J/cm2 Stundensumme der kurzwelligen diffusen Himmelsstrahlung

1048 GLOBAL_KW_J J/cm2 Stundensumme der kurzwelligen Globalstrahlung1048 SONNENSCHEINDAUER min Stundensumme der Sonnenscheindauer1048 SONNENZENIT ◦ Sonnenzenit1051 NIEDERSCHLAG_GEFALLEN_IND_51 NumCode Indikator Niederschlag ja/nein

1051 NIEDERSCHLAGSHOEHE_51 mm stündliche Niederschlagshoehe1051 NIEDERSCHLAGSFORM_51 NumCode stündliche Niederschlagsform1051 LUFTTEMPERATUR_51 ◦C Lufttemperatur1051 REL_FEUCHTE_51 % Relative Feuchte

24

Page 37: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

5.2 Datenvorverarbeitung

5.2 DATENVORVERARBEITUNG

Die Vorbereitung der DREWAG-Daten beinhaltet hauptsächlich deren Zusammenfassung. Diewenigen Fehldaten der 28 Einflussgrößen wurden durch einfache lineare Datenimputation ge-füllt. Die resultierende Auswahl an Merkmalen ist in Tabelle 5.4 aufgezeigt. Weiterhin sind dieFeatures der Stunde des Tages (aufsteigend von null bis zwölf analog der Uhrzeit und dannwieder absinkend auf 0 um jeweils eine Stunde) sowie des Monats (von 1 bis 6 aufsteigend bisJuni, ab Juli von 6 wieder auf 1 absinkend) berechnet und integriert worden.Da die DREWAG-Lastgangdaten in Viertelstundenintervallen vorliegen, ist die Aggregation aufStundenwerte erforderlich, um die Wettereinflüsse sinnvoll interpretieren und eine stundenba-sierte Vorhersage liefern zu können. Alle Informationen außer der Einspeisung selbst werdenaus den Daten entfernt, da sie für die in dieser Arbeit vorgenommenen Betrachtungen keineRolle spielen. Ein Lastgang muss entfernt werden, da hier die zweite Hälfte 2014 fehlerhaft ist.Das untere Drittel der Einspeisung ist für diesen Zeitraum auf ein Drittel gesetzt.Für die verbleibenden Lastgänge werden Fehldaten mit Nullwerten aufgefüllt. Werte, die klei-ner sind als 0.03, werden als Nachtwerte interpretiert und auf null gesetzt. Da die GEFCOM-Daten bereits gut vorbereitet vorliegen, ist hier keinerlei Datenvorbereitung erforderlich.Um die Resistenz der Verfahren gegen Rauschen sowie ihre Performanz im hochdimensionalenUmfeld zu testen, werden jeweils im zweiten Testlauf 150 Noise-Spalten an die Daten angehan-gen. Diese sind generierte Zeitreihen normalverteilter Zufallszahlen, welche alle mit "X" undeiner angehangenen fortlaufenden Zahl benannt werden.

5.3 FEHLERMASSE

Es werden vier verschiedene, häufig genutzte Fehlermaße erfasst. Dies gewährleistet haupt-sächlich die Vergleichbarkeit mit anderen und künftigen Arbeiten. Zum direkten Vergleich wirdzunächst jedoch lediglich der NRMSE genutzt. Er ist ein relatives Maß für die Vorhersagege-nauigkeit und sei definiert als die Wurzel des durchschnittlichen quadrierten Fehlers über derStandardabweichung Standard Deviation (SD) :

NRMSE = 100

√1N ∑N

i=1(Si −Oi)2

SD(O)mit

S : PrognosezeitreiheO : MesswertzeitreiheN : Länge von O = Länge von SSD : Standardabweichung siehe Formel (5.2)

(5.1)

25

Page 38: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 5 Setup der experimentellen Evaluation

mit der Standardabweichung SD :

SD(x) =

√1

n− 1

n

∑i=1

(xi − x)2 mitx : Zeitreihen : Anzahl der Objekte in xx : Mittelwert von x

(5.2)

Je größer der NRMSE, umso höher ist die Varianz der Residuen und umso ungenauer ist derForecast. Die Normalisierung erlaubt den Vergleich zwischen Modellen mit verschieden ska-lierten Zeitreihen. Daher ist es auch möglich, die verschiedenen Ansätze anhand des NRMSEzu vergleichen.Als zusätzliches relatives Fehlermaß wird der Mean Absolute Percentage Error (MAPE), derdurchschnittliche prozentuale Fehler, berechnet:

MAPE =1N

N

∑i=1

∣∣∣∣Oi − SiOi

∣∣∣∣ mitS : PrognosezeitreiheO : MesswertzeitreiheN : Länge von O = Länge von S

(5.3)

Zur Berechnung des MAPE werden nur Werte von Oi und Si genutzt, deren zugehörigen Mess-werte Oi ungleich null sind, da ansonsten eine Division durch null erfolgt. Um einen Prozent-wert zu erhalten, sind die Messungen noch mit 100 zu multiplizieren.Weiterhin wird der Mean Bias Error (MBE) erfasst, um auch den systematischen Fehler zu mes-sen:

MBE =1N

N

∑i=1

(Oi − Si) mitS : PrognosezeitreiheO : MesswertzeitreiheN : Länge von O = Länge von S

(5.4)

Als viertes und letztes Fehlermaß wird der Normalized Mean Absolute Error (NMAE) genutzt:

NMAE =

1N ∑N

i=1 |Oi − Si|SD(O)

mit

S : PrognosezeitreiheO : MesswertzeitreiheN : Länge von O = Länge von SSD : Standardabweichung siehe Formel (5.2)

(5.5)

Er dient als Maß der durchschnittlichen Absolutfehler und wird über die Standardabweichungnormiert, um unabhängig von der Skalierung der Zeitreihe zu sein.

26

Page 39: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

6 AUSWERTUNG DERBENCHMARK-METHODEN

Alle ausgewerteten Methoden wurden exakt wie in Kapitel 4 beschrieben implementiert, aus-geführt und ausgewertet. Es wird, sofern nicht anders beschrieben, für die DREWAG-Datenjeweils ein ganzes Jahr und für die GEFCOM-Daten ein halbes Jahr vorhergesagt.

Es werden nachfolgend nur ausgewählte und zusammengefasste Ergebnisse präsentiert, meistin Form von Durchschnittswerten. Alle Resultate der verschiedenen Tests stehen auf dem beilie-genden Datenträger als digitaler Anhang zur Verfügung. Dies umfasst zahlreiche Diagrammeund kommaseparierte Textdateien. Tabelle A.1 im Anhang zeigt die Struktur, in welcher dieInhalte abgelegt sind. Digital hinterlegt sind, neben den einzelnen Ergebnissen für jeden Last-gang, auch die in dieser Arbeit nicht betrachteten Auswirkungen der Merkmalsauswahl aufGeneralized Linear Model (GLM). Der hintere Teil des Ordnernamens kodiert, ob es sich umDREWAG- oder GEFCOM-Daten handelt.Für alle Methoden wurden die in Tabelle 6.1 angegebenen Parameter genutzt.

Tabelle 6.1: Allgemeingültige Parameter

Parameter GBM-trees GBM-Interaktionstiefe GBM-Schrittweite KreuzvalidierungenWert 10000 10 0.008 10

27

Page 40: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 6 Auswertung der Benchmark-Methoden

Tabelle 6.2: Wichtigste Einflüsse für GEFCOM-Daten, in Klammern jeweils der gerundete durchschnittli-che NRMSE-Wert

Modell wichtigster Einfluss weitere wichtige Einflüsse

GBM CLEARSKY (57) HOUR (76), VAR175 (81), VAR157 (93)MARS CLEARSKY (49) HOUR (76), VAR175 (76), VAR157 (83)MLR CLEARSKY (49) VAR157 (75), HOUR (98)

Tabelle 6.3: Wichtigste Einflüsse für DREWAG-Daten, in Klammern jeweils der gerundete durchschnittli-che NRMSE-Wert

Modell wichtigster Einfluss weitere wichtige Einflüsse

GBM GLOBAL_KW_J (37) SONNENZENIT (67), DIFFUS_HIMMEL_KW_J (70)MARS GLOBAL_KW_J (57) DIFFUS_HIMMEL_KW_J (96)MLR GLOBAL_KW_J (33) SONNENSCHEINDAUER (68)

6.1 VORBETRACHTUNGEN

Zur besseren Auswertbarkeit der Ergebnisse wird zunächst die Wirkung der einzelnen Ein-flüsse auf die unter 2 beschriebenen Modellbildungsverfahren untersucht. Tabelle 6.2 zeigt diewichtigsten Einflüsse für die Daten der GEFCOM und Tabelle 6.3 zeigt dies für die DREWAG-Daten. Unter der Wichtigkeit eines Einflusses ist die durch seine Hinzunahme entstehende Ver-besserung des NRMSE, im Vergleich zum Modell ohne externe Einflussgrößen, gemeint. Eswerden also noch keine Korrelationen der Einflüsse untereinander beachtet.Alle Merkmale der DREWAG-Daten mit NRMSE unter 100 sind Tabelle A.2 im Anhang zu ent-nehmen. Für die GEFCOM sind bereits alle Variablen, die dieses Kriterium erfüllen, in Tabelle6.2 enthalten. Alle Fehlerwerte sind dem beigelegten Datenträger zu entnehmen. Von den soermittelten Variablen ist zu erwarten, dass sie von den untersuchten Methoden zumindest teil-weise ausgewählt werden.

Auffallend ist, dass für die GEFCOM-Daten, bei Einzelbetrachtung der Einflüsse, stets derClearsky-Wert zum geringsten Fehler führt. Beispielhaft zeigt Abbildung 6.2 in Schwarz dieClearsky-Werte des zweiten Datensatzes für die ersten 240 Stunden des Jahres 2014 und zumVergleich die gemessene Einspeisung in Blau. Es fällt auf, dass er die Einspeisung gut appro-ximiert. Allerdings neigt er zur Überschätzung und versagt bei Wetterbedingungen, die dieEinspeisung stark reduzieren (siehe Stunden 10 bis 110).Für die Daten der DREWAG ist die Globalstrahlung GLOBAL_KW_J der Einfluss, der zum ge-ringsten Fehler führt. Abbildung 6.1 zeigt die Korrelation zwischen GLOBAL_KW_J in Schwarzund gemessener Einspeisung in Blau. Im Gegensatz zum Clearsky bei den GEFCOM-Daten ha-ben Wetterbedingungen, welche die Einspeisung reduzieren, auch einen Einfluss auf die Glo-balstrahlung, weshalb diese in jenen Situationen ein geeigneteres Merkmal darstellt.

28

Page 41: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

6.1 Vorbetrachtungen

0 50 100 150 200

020

4060

8010

0

GLOBAL_KW_J und Einspeisung DREWAG 2014 − Lastgang 2

Zeit in Stunden

Wer

t

GLOBAL_KW_JEinspeisung

Abbildung 6.1: Vergleich der ersten 240 Stunden der GLOBAL_KW_J und der Einspeisung des 2. DRE-WAG-Datensatzes für 2014. Dabei wird in Schwarz die GLOBAL_KW_J und in Blau diegemessene Einspeisung dargestellt. Die Korrelation zwischen beiden Größen ist erkenn-bar.

0 50 100 150 200

0.0

0.2

0.4

0.6

0.8

1.0

Clearsky und Einspeisung GEFCOM 2014 − Lastgang 2

Zeit in Stunden

Wer

t

ClearskyEinspeisung

Abbildung 6.2: Vergleich der ersten 240 Stunden des Clearsky- und Einspeisungswertes des 2. GEFCOM-Datensatzes für 2014. Die Korrelation zwischen Clearsky-Wert, schwarz dargestellt, undder gemessenen Einspeisung, in Blau, wird ersichtlich.

29

Page 42: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 6 Auswertung der Benchmark-Methoden

6.2 TRESHOLDBASIERTE MERKMALSAUSWAHL

Die einfache LARS-LASSO-Auswahl mit einem kleinen Treshold hat für beide Datensets sehrgute Ergebnisse erzielt. Zunächst reduziert LARS-LASSO die Merkmalsmenge durch Forward-Selection, anschließend wird die Anzahl der Einflüsse durch die tresholdbasierte Backward-Elimination weiter reduziert. Die besten Ergebnisse werden erzielt, wenn LASSO-Koeffizienten,die kleiner sind als 10 Prozent des größten Koeffizienten, noch eliminiert werden. Zum einenwird die Modellbildungsdauer rechenintensiver Verfahren durch die Variablenreduktion ver-ringert, zum anderen konnte teilweise auch der Prognosefehler verringert werden.

6.2.1 Setup der Tresholdbasierten Variablenauswahl

Mit den entsprechend von Korrelation und LASSO bestimmten Merkmalsmengen werden aufGrundlage des Jahres 2013 verschiedene Vorhersagemodelle erstellt. Dies können je nach WahlGBM-, GLM-, MLR-, MARS- und LARS-Modelle sein. Zusätzlich werden Modelle für alle Merk-male und ohne externe Einflüsse generiert. Je erzeugtem Modell wird eine Vorhersage auf denentsprechenden Daten des Jahres 2014 berechnet.Danach werden die Fehlermaße NRMSE, MAPE, MBE und NMAE berechnet sowie die Lauf-zeiten der Modellbildungsprozesse gesichert und graphisch dargestellt. Ebenfalls werden dieBewertungen der Korrelationskoeffizientenbasierten und LASSO-basierten Merkmalsauswahl-prozesse gespeichert. Dies wird für alle verfügbaren 19 Lastgänge der DREWAG und alle dreiGEFCOM-Lastgänge durchgeführt. Anschließend erfolgt die Berechnung der durchschnittli-chen Fehlerwerte und Laufzeiten über alle Lastgänge je Tresholdwert und deren grafische Auf-bereitung sowie Speicherung für alle Modelle.In der konkreten Implementierung wird für die LASSO-Merkmale der halbe Treshold genutzt,für die Korrelation hingegen der Ganze. Folglich läuft der Treshold, mit frei zu wählenderSchrittweite, für die LASSO-Koeffizienten nur von 0 bis 0.5, hingegen für die Korrelationskoef-fizienten von 0 bis 1. Dies ist für die vorliegenden Daten (ohne Noise) sinnvoll, da für LASSObereits bei einem Treshold von 0.5 meist nur noch ein Merkmal ausgewählt wird. Eine Ausnah-me tritt auf, wenn zwei oder mehr Merkmale die gleichen Koeffizienten und somit eine gleichhohe Bewertung erhalten. Dann bleiben beide bis zum höchsten Tresholdwert erhalten. Somiterfolgt eine feiner granulierte Reduktion der LASSO-Merkmale, ohne dass Testfälle verlorengehen.Es werden Merkmale entfernt, die eine kleinere Bewertung haben als die aktuelle Relevanzgren-ze. In der Praxis spielt dies für die Suche eines geeigneten Tresholds eine Rolle (zwei Beispielim-plementierungen sind auf dem beiliegenden Datenträger zu finden). In der hier präsentiertenImplementierung werden immer 20 Tresholdwerte getestet, weshalb die Relevanzgrenze fürLASSO je Schritt um 0.025 erhöht wird, für die Korrelation hingegen um 0.05.Die Ergebnisse der tresholdbasierten Merkmalsauswahl werden im folgenden für GBM be-

30

Page 43: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

6.2 Tresholdbasierte Merkmalsauswahl

Relevanzgrenzwert

nRM

SE

2030

4050

6070

80

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

nRMSE GBM mit Parametern nach Korrelation

nRMSE GBM mit Parametern nach LASSO

nRMSE GBM mit allen Einflussparametern

nRMSE GBM ohne externe Einflussparameter

Vergleich der nRMSE Werte der Modellbildungsprozesse

Abbildung 6.3: Durchschnitt der NRMSE-Werte der Prognosen mit verschiedenen Treshold-belegtenGBM-Modellen mit DREWAG-Daten

schrieben. Die Ergebnisse für weitere Modellbildungsverfahren können auf dem beiliegendenDatenträger gefunden werden. Hilfestellung hierzu gibt Tabelle A.1 im Anhang. Der Fokus aufGBM ist begründet durch die mögliche Verbesserung von NRMSE und Modellbildungsdauer,während MARS und MLR bereits sehr schnell Modelle generieren. Für MARS kann mit derhier getesteten und unter 4.2 beschriebenen Methode noch eine Verbesserung der Dauer erzieltwerden. MLR hingegen wird durch die Dauer der Auswahl selbst langsamer, als wenn alleMerkmale genutzt und auf die Merkmalsauswahl verzichtet würde. Im folgenden werden dieErgebnisse des Algorithmus, der nur auf die Messwerte angewandt wurde, beschrieben. DieResultate der Anwendung auf ein Datenset mit 150 zufällig normalverteilten Noise-Spalten,die hinzugenommen wurden, ist im Abschnitt "Tresholdbasierte Variablenauswahl mit 150 zu-sätzlichen Noise-Spalten" kurz aufgezeigt und kann detailliert anhand der Diagramme undkommaseparierten Textdateien auf dem beiliegenden Datenträger nachvollzogen werden, des-sen Struktur Tabelle A.1 aufzeigt. In diesem ausgewerteten Beispiel sind 150 zufallsbestimmteSpalten an die Trainingsdaten als Features angefügt, um ein hochdimensionales Setup zu er-zeugen.

31

Page 44: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 6 Auswertung der Benchmark-Methoden

Grenzwert der Relevanz

Ber

echn

ungs

daue

r in

Sek

unde

n

100

200

300

400

500

600

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

Dauer GBM mit Parametern aus Korrelation

Dauer GBM mit Parametern aus LASSO

Dauer GBM mit allen Einflussparametern

Dauer GBM ohne externen Einflussparametern

Modellbildungsdauern

Abbildung 6.4: Durchschnitt der Treshold-belegten Modellbildungsdauern von GBM mit DREWAG-Daten

6.2.2 Tresholdbasierte Auswahl auf den Daten der DREWAG

Die tresholdbasierte Merkmalsauswahl hat insbesondere für GBM eine Verbesserung in derModellbildungsdauer erreicht. In Abbildung 6.3 wird der über alle Lastgänge der DREWAGgemittelte Verlauf des NRMSE für verschiedene Tresholdwerte aufgezeigt. Unter Beachtungder erheblichen Reduktion der Modellbildungsdauer von GBM offenbart sich der Nutzen derMethode. Dabei wird noch nicht berücksichtigt, dass eine Verbesserung der Interpretierbar-keit und auch eine Einsparung von Speicherplatz und Bandbreite durch Reduktion externerEinflüsse erreicht wird. Die NRMSE-Werte der GBM-Vorhersagen für die verschiedenen Tres-holdwerte zeigt Abbildung 6.4. Dargestellt werden hierbei die über alle verfügbaren Lastgängeder DREWAG gemittelten Werte. Der zum Vergleich genutzte korrelationsbasierte Filter wähltfür Treshold 0 im Gegensatz zu LARS alle Merkmale aus und hat daher den gleichen NRMSEwie unter Nutzung aller 30 Merkmale. Die Auswahl erfolgt erst mit steigendem Treshold, derauch auf die LARS-Koeffizienten angewandt wird. Dies bedingt, dass LARS bei Treshold 0.3 oftnur noch ein Merkmal verbleibt. Die Korrelation hat bei gleichem Treshold hingegen noch circa14 bis 15 Merkmale. Für einen Treshold von 1 bleibt nur das am höchsten gewichtete Merkmalübrig, was meist das am höchsten Korrelierte ist. Für diesen Wert wählen beide Verfahren dieGLOBAL_KW_J.

32

Page 45: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

6.2 Tresholdbasierte Merkmalsauswahl

Auffällig ist der erhöhte NRMSE bei Treshold 0.05. Hiervon sind alle Lastgänge außer Last-gang 10 betroffen. Die gewählten Merkmale sind für diesen Treshold: MESS_DATUM, ERDBO-DENTEMPERATUR.3, ERDBODENTEMPERATUR.4, WINDRICHTUNG, NIEDERSCHLAGS-FORM, SONNENSCHEINDAUER, DIFFUS_HIMMEL_KW_J, GLOBAL_KW_J, ATMOSPHAE-RE_LW_J, SONNENZENIT, NIEDERSCHLAGSHOEHE_51, LUFTTEMPERATUR_51,REL_FEUCHTE_51, stunde.Außer den Lastgängen 4,8,18 und 21, die ein Optimum bezüglich der Minimalität des NRM-SE erst bei Tresholdwerten zwischen 0.15 und 0.25 besitzen, haben alle Lastgänge mit Treshold0.1 einen NRMSE welcher besser ist als der NRMSE für alle Merkmale und für andere Tres-holds. Dabei benötigt die Modellbildung nur etwa ein Viertel der Zeit der Modellbildung füralle Merkmale. Die NRMSE-Werte der beiden Fälle sind exemplarisch für die Lastgänge einsund vier im Anhang als Diagramme B.1 und B.2 visualisiert. Aus ihnen wird auch ersichtlich,dass die Eignung des Tresholdwertes von den Daten abhängt.Für Lastgang 18, 8 und 4 wählte LARS mit Treshold 0.1 die Merkmale ERDBODENTEMPERA-TUR.3, ERDBODENTEMPERATUR.4, SONNENSCHEINDAUER, DIFFUS_HIMMEL_KW_J,GLOBAL_KW_J, ATMOSPHAERE_LW_J, SONNENZENIT, LUFTTEMPERATUR_51,REL_FEUCHTE_51. Für Lastgang 21 wurden ERDBODENTEMPERATUR.3, GLOBAL_KW_J,REL_FEUCHTE_51 ausgewählt. Für alle anderen Lastgänge wurden meist die Merkmale ERD-BODENTEMPERATUR.3, DIFFUS_HIMMEL_KW_J, GLOBAL_KW_J, ATMOSPHAERE_LW_J,LUFTTEMPERATUR_51, REL_FEUCHTE_51 und SONNENSCHEINDAUER ausgewählt, häu-fig auch der SONNENZENIT.Aus den oben beschriebenen Beobachtungen lässt sich ableiten, dass eine Teilmenge der Merk-male NIEDERSCHLAGSFORM, MESS_DATUM, WINDRICHTUNG, NIEDERSCHLAGSHOE-HE_51 und Stunde zur Verschlechterung des GBM-Forecasts geführt hat.Für MARS ergibt sich ein sehr ähnliches Resultat, welches durch die soeben vorgenommenenInterpretationen erklärt wird. Ähnlich verhält sich auch MLR. Dieses ist allerdings mit Merk-malsauswahl stets besser als die Nutzung aller Merkmale. Ob hierfür der korrelationsbasier-te Filter oder das LARS-Verfahren genutzt wird hat dabei kaum Auswirkungen. Details zuDurchschnitts- und Einzelergebnissen sind im digitalen Anhang hinterlegt und können, wiein Tabelle A.1 im Anhang beschrieben, gefunden werden.

6.2.3 Tresholdbasierte Auswahl auf den Daten der GEFCom

Für die GEFCOM-Daten steigt der NRMSE mit dem Treshold, bis auf den Relevanzgrenzwert0.45, stetig an. Die Ausnahme für Treshold 0.45 ist dadurch erklärt, dass für jeden TresholdLARS neu berechnet wird und dies kann einen neuen Shrinkage-Parameter und somit eine här-tere LARS-eigene Variablenselektion bedeuten. In dem hier vorliegenden Fall ist dadurch derEinfluss VAR169 als Variable von Lastgang 2 für den Grenzwert 0.45 entfernt wurden. Treshold0.5 sind die gleichen Variablen zugeordnet wie Relevanzgrenzwert 0.4: CLEARSKY, VAR169und VAR178, weshalb beide daraus gebildete GBM-Modelle den gleichen NRMSE aufweisen.

33

Page 46: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 6 Auswertung der Benchmark-Methoden

In den beiden Diagrammen 6.7 und 6.6 wird der Tradeoff zwischen Modellbildungsdauer undNRMSE deutlich. Je mehr Merkmale entfernt werden, umso schneller kann das Modell gebildetwerden. Aber umso höher ist auch der NRMSE. Durch das tresholdbasierte Eliminationsver-fahren kann aber die Dauer bis zu einem Treshold von 0.15 erheblich reduziert werden ohneden NRMSE im gleichen Maße zu erhöhen. Soll der NRMSE möglichst klein sein, empfiehltsich eine Merkmalsauswahl über LARS ohne anschließende Merkmalsreduktion per Treshold.

Wie schon bei den Daten der DREWAG bleibt auch unter Nutzung des GEFCOM-Datensetsder am stärksten mit der Einspeisung korrelierende Einfluss für den Tresholdwert 1 in derAuswahlmenge. Für die GEFCOM ist dies der Clearsky. VAR157, VAR79, VAR178, VAR175,VAR169, VAR167, VAR134 und VAR164 sind ebenfalls häufig gewählte Einflussgrößen aus den17 insgesamt verfügbaren Einflüssen.

MARS liefert hinsichtlich des NRMSE strukturell nahezu identische Ergebnisse, weshalb an die-ser Stelle erneut auf Tabelle A.1 im Anhang und den beigelegten Datenträger verwiesen wird.In Diagramm 6.5 wird der Verlauf des NRMSE mit verschiedenen Tresholdwerten für den MLR-Algorithmus aufgezeigt. Erneut bestätigt sich die besondere Eignung niedriger Trasholdwertefür das bereits sehr selektive LARS-LASSO-Verfahren. Die hohe Selektivität soll im nächstenSetup mit 150 hinzugefügten, zufällig generierten Merkmalen verdeutlicht werden.

Relevanzgrenzwert

nRM

SE

in P

roze

nt

4050

6070

80

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

nRMSE mit Parametern nach Korrelation

nRMSE mit Parametern nach LASSO

nRMSE mit allen Einflussparametern

nRMSE ohne externe Einflussparameter

Vergleich der nRMSE−Werte der Modellbildungsprozesse

Abbildung 6.5: Durchschnitt der NRMSE-Werte der Prognosen mit verschiedenen Treshold-belegtenMLR-Modellen mit GEFCOM-Daten

34

Page 47: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

6.2 Tresholdbasierte Merkmalsauswahl

Relevanzgrenzwert

nRM

SE

in P

roze

nt

3040

5060

70

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

nRMSE mit Parametern nach Korrelation

nRMSE mit Parametern nach LASSO

nRMSE mit allen Einflussparametern

nRMSE ohne externe Einflussparameter

Vergleich der nRMSE−Werte der Modellbildungsprozesse

Abbildung 6.6: Durchschnitt der NRMSE-Werte der Prognosen mit verschiedenen Treshold-belegtenGBM-Modellen mit GEFCOM-Daten

Grenzwert der Relevanz

Ber

echn

ungs

daue

r in

Sek

unde

n

5010

015

020

025

030

035

040

0

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

Dauer mit Parametern aus Korrelation

Dauer mit Parametern aus LASSO

Dauer mit allen Einflussparametern

Dauer ohne externen Einflussparametern

Modellbildungsdauern

Abbildung 6.7: Durchschnitt der Treshold-belegten Modellbildungsdauern von GBM mit GEFCOM-Daten

35

Page 48: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 6 Auswertung der Benchmark-Methoden

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

2025

Grenzwert der Relevanz

Anz

ahl d

er M

erkm

ale

Merkmale nach KorrelationMerkmale nach LASSO

Anzahl der gewählten Merkmale aus 181 Merkmalen

Abbildung 6.8: Anzahl der ausgewählten Merkmale mit DREWAG-Daten und Noise

6.2.4 Tresholdbasierte Variablenauswahl mit 150 zusätzlichen Noise-Spalten

Auf beiden Datensätzen wird deutlich, dass sowohl die Korrelation als auch LARS noch gut ausden jetzt 181 beziehungsweise 167 Einflüssen die Modellbildungsdauer ohne größere Zunahmedes NRMSE zu reduzieren vermögen. Allerdings werden beide Verfahren nicht mehr genau-er als das Modell, welches alle Merkmale nutzt. Dies gilt für alle nachgeschalteten Modellbil-dungsverfahren und zeigt, dass die vorgestellte Methode sich für viele Einflussgrößen nichtmehr zur Reduktion des NRMSE, dafür aber umso mehr zur Senkung der Modellbildungsdau-er eignet. Dies gilt für alle evaluierten Modellbildungsverfahren, insbesondere aber für GBM.Für dieses ist unter Nutzung der DREWAG-Daten zwar der NRMSE gestiegen (von 24.3 auf36.6 bis 38.6), dafür beträgt die Dauer nurmehr etwa 1 Minute statt über eine Stunde. Dies wirdin Diagramm B.3 sowie B.4 im Anhang veranschaulicht. Mit den Daten der GEFCOM stieg derNRMSE von 30.8 auf 38.9 bis 46.5, die Modellbildungsdauer sank von circa 1 Stunde und 25Minuten auf knapp über 2 Minuten. Auch mit der korrelationsbasierten Filterung konnten ähn-lich gute Ergebnisse erreicht werden, allerdings neigt diese zu homogener Auswahl stark mitder Einspeisung korrelierender Einflüsse und somit zur Schaffung von Redundanz. Hierdurchwird der Reduktionsgrad, in welchem der korrelationsbasierte Filter hinreichend gute Ergeb-nisse liefert, limitiert. Dies wird dadurch verschärft, dass der Korrelationsbasierte Filter keineVorauswahl trifft, weshalb nur eine Backward Elimination stattfindet und nicht, wie bei derLARS-LASSO-Implementierung, eine Forward Selection mit anschließender Backward Elimi-nation der gewählten Merkmale. Dies sind mögliche Gründe für die vergleichsweise hohe Va-

36

Page 49: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

6.3 Iterative Merkmalsauswahl

rianz des NRMSE der MARS-Modelle, die basierend auf den durch die Korrelation gefiltertenMerkmalen gebildet werden. Für die GEFCOM-Daten liegt er zwischen 33.7 und 77.5 für denKorrelationsfilter, zwischen 40 und 43.8 für die LARS-LASSO-Umsetzung und bei 34 für alleMerkmale. Werden externe Einflüsse nicht beachtet, so beträgt der NRMSE 81. Die Ergebnissefür MARS auf den GEFCOM-Daten mit 150 Noise-Spalten sind im Anhang in den Diagram-men B.5 und B.6 visualisiert. Es ist festzustellen, dass der Korrelationsfilter für MLR mit denGEFCOM-Daten so lange einen besseren NRMSE ermöglicht als die LARS-LASSO-Auswahl,wie er drei mal mehr Merkmale auswählt. Danach wird er weit schlechter.LARS reduziert bereits ohne Treshold die 181 DREWAG-Einflüsse auf vier bis acht, welche dannper Treshold weiter verringert werden. Der korrelationsbasierte Filter hat für Treshold 0.05 be-reits nur noch ungefähr 25 Einflussgrößen gewählt. Die Entwicklung der Merkmalsanzahl inAbhängigkeit des Tresholds für die DREWAG-Daten mit Noise-Einflüssen zeigt Grafik 6.8 auf.Es wird ersichtlich, dass die Auswahl mit LARS-LASSO auch ohne Treshold eine sehr reduzier-te Auswahl trifft. Dabei wird der NRMSE oder die benötigte Zeit nicht so massiv verschlechtert,wie wenn nur über die Korrelationskoeffizienten Merkmale eliminiert werden, weshalb die fol-genden Methoden sich intensiver mit diesem Prinzip befassen.

6.3 ITERATIVE MERKMALSAUSWAHL

Zur Prüfung der Qualität der iterativen Merkmalsauswahl werden Modelle mit deren Merkma-len, mit einfachen LASSO-Variablen, mit allen Merkmalen und ohne externe Einflüsse gebildetund Prognosen berechnet. Anhand dieser können dann Fehlerwerte und Modellbildungsdau-ern verglichen werden.In der konkreten Implementierung sind, um die Anfälligkeit des rein auf LARS-LASSO basie-renden Verfahrens für Noise zu testen, 150 zufällig generierte, normalverteilte Merkmale ange-fügt. Dies erzeugt zugleich ein Setup von höherer Dimensionalität. Die Noise-Spalten werdenallerdings zuverlässig spätestens in der zweiten Iteration entfernt.Da diese Methode nur auf einem Verfahren beruht und frei von Parametern ist, wird die War-tung und Implementierung erleichtert. Es ist lediglich die Kenntnis der LARS-LASSO-Verfahrensvonnöten.

6.3.1 Iterative Auswahl mit DREWAG-Daten

Die iterative Merkmalsauswahl liefert mit den Daten der DREWAG für GBM einen durch-schnittlichen NRMSE von 43.72 während die einfache Anwendung des LARS-LASSO nur einenNRMSE von 33.55 aufweist. Nutzt man alle Merkmale erreicht man das Optimum von 29.96.Ohne Merkmale beträgt der NRMSE 81.74. Die Differenz zwischen einmaligem und iterativem

37

Page 50: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 6 Auswertung der Benchmark-Methoden

Tabelle 6.4: Anzahl der Lastgänge, in welchen das Merkmal für beide LARS-LASSO Verfahren gewähltwurde aus 21 Lastgängen der DREWAG

Merkmal Einfaches LASSO Iteratives LASSO

MESS_DATUM 21 21ATMOSPHAERE_LW_J 20 18WINDRICHTUNG 19 11GLOBAL_KW_J 19 13SONNENZENIT 18 15MESS_TIEFE.1 18 12ERDBODENTEMPERATUR.1 18 8monat 17 10LUFTDRUCK_REDUZIERT 17 10DIFFUS_HIMMEL_KW_J 17 10NIEDERSCHLAGSHOEHE_51 15 8MESS_TIEFE.4 15 9LUFTTEMPERATUR 15 12NIEDERSCHLAG_GEFALLEN_IND_51 14 9NIEDERSCHLAG_GEFALLEN_IND 14 7NIEDERSCHLAGSFORM_51 14 6GESAMT_BEDECKUNGSGRAD 14 9stunde 13 8NIEDERSCHLAGSFORM 13 4SONNENSCHEINDAUER 11 5REL_FEUCHTE_51 9 5REL_FEUCHTE 9 5MESS_TIEFE.3 9 6NIEDERSCHLAGSHOEHE 7 3LUFTDRUCK_STATIONSHOEHE 6 4MESS_TIEFE.2 3 2

LASSO-Verfahren ist durch die härtere Auswahl des letzteren begründet. Während das einfa-che LARS-LASSO durchschnittlich 17.38 Merkmale wählt sind es bei der iterativen Variantenur noch 10.95. Dies führt unter anderem auch zu einer höheren Modellbildungsgeschwin-digkeit, von 209.39 Sekunden statt 317.42 Sekunden. Für ein Modell aller Merkmale werden552.63, unter Vernachlässigung externer Einflüsse 58.83 Sekunden benötigt. Es zeigt sich erneutder Tradeoff zwischen Modellbildungsdauer und Präzision, der über die Merkmalsauswahlgesteuert werden kann. Tabelle 6.4 zeigt eine Übersicht über die in allen genutzten Lastgängenausgewählten Merkmale und deren weitere Reduktion durch das iterative Vorwärtsauswahl-verfahren. Jedem Merkmal ist dabei die Anzahl derjenigen Lastgänge zugeordnet, in welchenes von den beiden Verfahren ausgewählt wird. Dies zeigt auch die Kerneigenschaft der Metho-de, dass nur Merkmale betrachtet werden, die in der vorhergehenden LARS-LASSO-Iterationauch ausgewählt worden. Einmal abgewählte Merkmale mit Koeffizient null haben folglich kei-ne Chance, wieder in die Menge gewählter Merkmale aufgenommen zu werden.

38

Page 51: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

6.4 Iterativ validierte Einzelauswahl

Tabelle 6.5: Durchschnittlicher NRMSE für MLR, MARS und GBM mit GEFCOM-Daten

Verfahren Einfaches LASSO Iteratives LASSO Alle Merkmale Keine Merkmale

MLR 41.4 41.4 36 79.8MARS 36.4 36.4 33.73 79.77GBM 35.4 35.5 30.73 79.73

Tabelle 6.6: Anzahl der Lastgänge, in welchen das Merkmal für beide LARS-LASSO Verfahren gewähltwurde aus 3 Lastgängen der GEFCOM für GBM

Merkmal Einfaches LASSO Iteratives LASSO

VAR79 3 3VAR178 3 3VAR175 3 3VAR169 3 3VAR167 3 3VAR164 3 3VAR157 3 3VAR134 3 3VAR166 2 2DAY 1 1CLEARSKY 1 1

6.3.2 Iterative Auswahl auf GEFCom-Daten

Unter Nutzung der Zeitreihen der GEFCOM ergibt sich für GBM für die rekursive Anwendungdes LARS-LASSO keine Verbesserung der Merkmalsauswahl. Es werden auch bei rekursiverAusführung keine Variablen mehr eliminiert und die Merkmalsmenge bleibt erhalten. Dabeilag der NRMSE mit iterativer wie auch einzelner Auswahl, im Durchschnitt der drei Lastgänge,auf 35.45. Mit allen Merkmalen wurde ein NRMSE von 30.7, ohne externe Einflüsse von 79.7durchschnittlich erreicht. Die Fehlerwerte für MARS, MLR und GBM können aus Tabelle 6.5entnommen werden, die ausgewählten Merkmale Tabelle 6.6.

6.4 ITERATIV VALIDIERTE EINZELAUSWAHL

In dieser Methode wird, durch die Prüfung der Merkmalsgüte über Erstellung eines Modellesund einer Prognose zur Prüfung, neben Trainingsdaten auch ein erheblicher Teil der Gesamt-zeit für die Modellbildung benötigt. Somit werden insgesamt etwa sieben Sekunden statt einerhalben benötigt bis das finale MLR-Modell generiert und der Forecast berechnet ist.In der hier vorgestellten Implementierung wurde die Hälfte des Forecasthorizontes als Trai-ningshorizont gesetzt. Dies bedeutet, dass diese Methode nur die Hälfte der Zeit (im Vergleich

39

Page 52: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 6 Auswertung der Benchmark-Methoden

mit den anderen vorgestellten Ansätzen) vorhersagt, da der Rest des potentiellen Vorhersage-zeitraums für das Training erforderlich ist.

6.4.1 Iterativ validierte Auswahl auf DREWAG-Daten

Für MLR konnte durch die iterativ validierte Auswahl von Merkmalen der NRMSE auf 18 Pro-zent des NRMSE mit allen Merkmalen reduziert werden, dabei ist allerdings die 15-fache Zeiterforderlich (Durchschnittswerte aus allen Lastgängen). Da aber sieben Sekunden Erstellungs-dauer für ein Modell mit einem durchschnittlichen NRMSE von knapp 29 alle anderen Mo-dellbildungsverfahren übertrifft, wird die mögliche besondere Eignung dieses Vorgehens fürschnelle Modellbildungsverfahren betont. Die Methodik ist vom Verfahren abhängig, das heißtdie gewählten Merkmale verbessern zwar die MLR-Vorhersagen deutlich, eignen sich aber we-der für GBM noch für MARS. Für diese Modelle wurde der NRMSE nicht verbessert, es steigtlediglich der Zeitaufwand.Aus allen Merkmalen wurden dabei 21 mal die GLOBAL_KW_J, 20 mal die REL_FEUCHTE_51,LUFTTEMPERATUR_51 und die ERDBODENTEMPERATUR.3, 19 mal die ERDBODENTEM-PERATUR.2, 18 mal die ERDBODENTEMPERATUR.4, 16 mal die ERDBODENTEMPERATUR.1,15 mal die ATMOSPHAERE_LW_J, 13 mal die SONNENZENIT und SONNENSCHEINDAU-ER, 12 mal die NIEDERSCHLAG_GEFALLEN_IND_51, 9 mal die DIFFUS_HIMMEL_KW_J,8 mal der monat und WINDGESCHWINDIGKEIT, 7 mal die stunde, REL_FEUCHTE, NIE-DERSCHLAGSFORM, LUFTTEMPERATUR und der GESAMT_BEDECKUNGSGRAD, 6 malder NIEDERSCHLAG_GEFALLEN_IND und die NIEDERSCHLAGSHOEHE sowie 5 mal dieLUFTDRUCK_STATIONSHOEHE. Ein Beispiel für die Verbesserung der Vorhersagequalitätmit der Hinzunahme neuer Merkmale ist im Anhang in Diagramm B.7 am Beispiel des Last-gangs elf aufgezeigt.

6.4.2 Iterativ validierte Auswahl auf GEFCom-Daten

Durch die iterative LASSO-Auswahl mit Validierung der Verbesserung auf einer Trainingsmen-ge durch MLR nach jeder Erweiterung der Merkmalsmenge kann bereits eine sehr gute Vorher-sagequalität erreicht werden. Dies zeigt Abbildung 6.9 für die Ausführung des Skriptes aufdem ersten GEFCOM-Lastgang. Er hat schlechtere Ergebnisse geliefert als Lastgang drei aberbessere als Lastgang zwei. Beim Test des Ansatzes auf den GEFCOM-Daten wurden bei zweivon drei Lastgängen mit MLR bessere Ergebnisse erzielt als unter Nutzung aller Merkmale. Al-lerdings ist die Auswahl dann nicht zwangsläufig auch für andere Modellbildungsverfahren,als das zur Validierung genutzte, geeignet. Für GBM und MARS konnte durch die mit MLRverifizierte Variablenauswahl keinerlei Verbesserung erreicht werden.Für MLR lieferte die Methode meist einen etwa um vier Prozent besseren NRMSE, bei einem

40

Page 53: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

6.5 Merkmalsauswahl mit Clustering

3638

4042

4446

Merkmal hinzugenommen

nRM

SE

CLEARSKY VAR79 VAR78 VAR164 VAR157

nRMSE alle Parameter vs. LASSO−Auswahl

Lastgang 1

nRMSE mit Parametern nach rekursiver LASSO−EinzelauswahlnRMSE mit allen Einflussparametern

Abbildung 6.9: Verringerung NRMSE unter Hinzunahme von Merkmalen in das MLR-Modell mitGEFCOM-Daten am Beispiel von Lastgang 1

der drei Lastgänge war der NRMSE allerdings schlechter, als unter Nutzung aller Merkma-le. Aus drei Lastgängen wurden dabei in allen Lastgängen CLEARSKY, VAR79, VAR78 undVAR164, in Lastgang zwei noch VAR167 sowie VAR175 und für die beiden anderen Lastgängenoch VAR157 gewählt.Als Nachteilig ist anzumerken, dass für die geringe Reduktion des NRMSE und die Verringe-rung der Merkmalsanzahl aufgrund der wiederholten Bildung von MLR-Modellen die benötig-te Zeit im Vergleich zur einfachen MLR-Modellbildung mit allen Merkmalen verzwanzigfachtwurde.

6.5 MERKMALSAUSWAHL MIT CLUSTERING

Für die GEFCOM-Daten wird das in Abbildung 6.10 hierarchisches Dendrogramm erzeugt. Of-fensichtlich wird die Einspeisung zusammen mit dem Monat in ein Cluster zugewiesen. Diesführt dazu, dass die Modelle, welche mit den von diesem Algorithmus gewählten Merkmalengebildet werden, sehr schlechte Vorhersagen mit sehr großen NRMSE-Werten erzeugen. Diesekönnen auch Tabelle 6.7 entnommen werden. Häufig liegt eine starke Überschätzung vor. Aufden GEFCOM-Daten versagt dieser Ansatz also gänzlich.Bessere Ergebnisse liefert der Algorithmus auf den Daten der DREWAG. Er erzeugt das in

41

Page 54: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 6 Auswertung der Benchmark-Methoden

Tabelle 6.7: Durchschnittlicher NRMSE für MLR, MARS und GBM mit DREWAG- und GEFCOM-Datenunter Nutzung des clusterbasierten Auswahlverfahrens

DREWAG GEFCOMVerfahren Cluster Mit LASSO Cluster Mit LASSO

MLR 62 55.2 1514069 25088MARS 45.7 24.5 716 714GBM 31.7 24.9 880 880

DAY

HO

UR

VA

R22

8

VA

R13

4

VA

R16

6

pow

er

MO

NT

H

VA

R79

VA

R16

4

VA

R16

5

VA

R16

9

VA

R16

7

VA

R17

5

ME

SS

_DAT

UM

VA

R15

7

VA

R17

8

CLE

AR

SK

Y

VA

R78

0.0

0.5

1.0

1.5

2.0

2.5

Cluster Dendrogram

Hei

ght

Abbildung 6.10: Dendrogramm für GEFCOM-Daten

Abbildung B.8 im Anhang gezeigte Dendrogramm, aus dem ersichtlich ist, dass die Global-strahlung am stärksten mit der Einspeisung korreliert. Die Ergebnisse der Vorhersagen sind fürdieses Datenset, insbesondere für GBM mit einem Bestwert des NRMSE von 16.6, auch we-sentlich besser. Aus diesen Betrachtungen geht, wie Tabelle 6.7 verdeutlicht, hervor, dass dieGüte der Zerlegung in Cluster die Ergebnisqualität maßgeblich beeinflusst. Bei den GEFCOM-Daten führte die Wahl des Monats als am stärksten mit der Einspeisung verwandtes Merkmalzum Versagen der gesamten Methode, während für die DREWAG-Daten gute Ergebnisse er-zielt wurden. Insbesondere GBM und MARS haben mit einem NRMSE von unter 25 eine gutePrognose geliefert.

42

Page 55: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

7 ZUSAMMENFASSUNG UNDAUSBLICK

Es wurde deutlich, dass mit verschiedenen Variationen des LARS-LASSO-Algorithmus eineeffiziente Reduktion der Einflussgrößen für verschiedenste Modellbildungsverfahren erreichtwerden kann. Dabei haben zwei der Methoden nicht in allen Fällen zufriedenstellende Er-gebnisse geliefert. Die Merkmalsauswahl, welche auf dem Clustern der Einflussgrößen basiert(ausgewertet in 6.5), liefert für die GEFCOM-Daten unzureichende Ergebnisqualität. Die Itera-tiv validierte Einzelauswahl versagt für Modelle, auf denen Sie nicht trainiert wurde und istsomit nur für schnelle Modellbildungsverfahren geeignet. Da die Methode der tresholdbasier-ten Merkmalsauswahl nicht parameterfrei ist, wird ein Vorgehen wie in der iterativen Merk-malsauswahl empfohlen. Diese ermittelt eine minimale Anzahl an Merkmalen unter Nutzungwiederholt angewandter, stets gleichbleibender Logik. Der Vorteil dessen ist, dass sie leicht zuimplementieren, zu verstehen und zu warten ist. Da sie keine Parameter benötigt, sind keineAnpassungen an die Daten nötig. Um die Härte der Selektion zu reduzieren, kann eine Maxi-malanzahl an Wiederholungen der LARS-LASSO-Selektion angegeben werden. Des weiterenist auch eine Kombination mit dem Treshold-Ansatz zur Filterung gering bewerteter Merkmaledenkbar. Dies würde die Auswahl dann in hochdimensionalen Setups noch weiter beschleuni-gen.Gegenstand weiterer Untersuchungen könnten effiziente Implementierungen des Elasticnet sein.Dieses nimmt zur L1-Schranke noch eine L2-Regularisierung vor (Zur Schranke auf den Betragder Koeffizienten kommt also eine Beschränkung auf die Quadrate der Koeffizienten hinzu).Die L1-Schranke dient dabei der Merkmalsauswahl (wie LARS-LASSO), per L2-Strafe werdendie Koeffizienten weiter reduziert. Durch diese zusätzliche Gewichtung ist eine Verbesserungder nachgeschalteten Merkmalsreduktion möglich. Auch sind die vorgestellten Algorithmen

43

Page 56: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Kapitel 7 Zusammenfassung und Ausblick

erweiterbar. Sind die Ergebnisse des Clustering-Ansatzes auch aktuell noch unbefriedigend,so könne eine LARS-LASSO-Auswahl über die Cluster selbst (beispielsweise durch vorherigesaggregieren der Merkmale jedes Clusters) durchaus eine geeignete Auswahl treffen.

44

Page 57: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

A ANHANG

A TABELLEN

B GRAFIKEN

45

Page 58: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Anhang A Anhang

Tabelle A.1: Ablagestruktur der Inhalte des beigefügten Datenträgers zu den jeweiligen Abschnitten. Derhier nicht angegebene Ordnersuffix kodiert das genutzte Datenset, die Unterordner das ent-sprechende Setup. Zu den Scripten liegen Einzel- und Durchschnittsergebnisse für GBM,MARS und MLR als Diagramm und .csv-Datei vor.

Zu Ordnerpräfix Beschreibung

4 Scripte R-Scripte, die zur Auswertung genutzt wurden6 Einfluss Ergebnisse der Modelle mit jedem Einfluss einzeln6 Ausgangsdaten Für den Benchmark genutzte Ausgangsdaten und

deren zeitlicher Verlauf als Diagramm6.2 Treshold Ergebnisse des Treshold-Scriptes ohne Noise6.2 TresholdNoise Ergebnisse des Treshold-Scriptes mit Noise6.3 IterativLasso Ergebnisse des Scriptes zur iterativen LASSO-Auswahl6.4 ValidateLasso Ergebnisse des Scriptes zur iterativ validierten Einzelauswahl6.5 ClusterLasso Ergebnisse des Scriptes zur LASSO-Auswahl über Cluster

Tabelle A.2: Alle Merkmale der DREWAG, die Modelle mit NRMSE unter 100 erlauben, wenn keine wei-teren Merkmale genutzt werden

Modell Einfluss NRMSE

GBM GLOBAL_KW_J 37SONNENZENIT 67DIFFUS_HIMMEL_KW_J 70SONNENSCHEINDAUER 83STUNDE 93REL_FEUCHTE_51 97REL_FEUCHTE 99

MARS GLOBAL_KW_J 57DIFFUS_HIMMEL_KW_J 96

MLR GLOBAL_KW_J 33SONNENSCHEINDAUER 68DIFFUS_HIMMEL_KW_J 73REL_FEUCHTE_51 81STUNDE 81LUFTTEMPERATUR_51 86LUFTTEMPERATUR 89REL_FEUCHTE 90ERDBODENTEMPERATUR.1 92ERDBODENTEMPERATUR.2 96

46

Page 59: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

B Grafiken

Relevanzgrenzwert

nRM

SE

3040

5060

7080

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

nRMSE mit Parametern nach Korrelation

nRMSE mit Parametern nach LASSO

nRMSE mit allen Einflussparametern

nRMSE ohne externe Einflussparameter

Vergleich der nRMSE Werte der Modellbildungsprozesse

Lastgang: 1

Abbildung B.1: NRMSE-Werte der Prognosen mit verschiedenen Treshold-belegten GBM-Modellen aufDREWAG-Lastgang 1 ohne Noise

Relevanzgrenzwert

nRM

SE

3040

5060

7080

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

nRMSE mit Parametern nach Korrelation

nRMSE mit Parametern nach LASSO

nRMSE mit allen Einflussparametern

nRMSE ohne externe Einflussparameter

Vergleich der nRMSE Werte der Modellbildungsprozesse

Lastgang: 4

Abbildung B.2: NRMSE-Werte der Prognosen mit verschiedenen Treshold-belegten GBM-Modellen aufDREWAG-Lastgang 4 ohne Noise

47

Page 60: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Anhang A Anhang

Grenzwert der Relevanz

Ber

echn

ungs

daue

r in

Sek

unde

n

010

0020

0030

00

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

Dauer Modell mit Parametern aus KorrelationDauer Modell mit Parametern aus LASSODauer Modell mit allen EinflussparameternDauer Modell ohne externen Einflussparametern

Modellbildungsdauern

Abbildung B.3: Durchschnittliche GBM-Modellbildungsdauer mit DREWAG-Daten und 150 Spalten Noi-se je Tresholdwert

Relevanzgrenzwert

nRM

SE

in %

020

4060

80

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

nRMSE Modell mit Parametern nach KorrelationnRMSE Modell mit Parametern nach LASSOnRMSE Modell mit allen EinflussparameternnRMSE Modell ohne externe Einflussparameter

Vergleich der nRMSE Werte der Modellbildungsprozesse

Abbildung B.4: Durchschnittlicher GBM-NRMSE mit DREWAG-Daten und 150 Spalten Noise je Treshold-wert

48

Page 61: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

B Grafiken

Grenzwert der Relevanz

Ber

echn

ungs

daue

r in

Sek

unde

n

0.0

0.2

0.4

0.6

0.8

1.0

1.2

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

Dauer Modell mit Parametern aus Korrelation

Dauer Modell mit Parametern aus LASSO

Dauer Modell mit allen Einflussparametern

Dauer Modell ohne externen Einflussparametern

Modellbildungsdauern

Abbildung B.5: Durchschnittliche MARS-Modellbildungsdauer mit GEFCOM-Daten und 150 SpaltenNoise je Tresholdwert

Relevanzgrenzwert

nRM

SE

in %

2030

4050

6070

80

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

nRMSE Modell mit Parametern nach Korrelation

nRMSE Modell mit Parametern nach LASSO

nRMSE Modell mit allen Einflussparametern

nRMSE Modell ohne externe Einflussparameter

Vergleich der nRMSE Werte der Modellbildungsprozesse

Abbildung B.6: Durchschnittlicher MARS-NRMSE mit GEFCOM-Daten und 150 Spalten Noise je Tres-holdwert

49

Page 62: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Anhang

AA

nhang

2040

6080

Merkmal hinzugenommen

nRM

SE

ERDBODENTEMPERATUR.3 ERDBODENTEMPERATUR.1 GLOBAL_KW_J REL_FEUCHTE_51 ERDBODENTEMPERATUR.2 ERDBODENTEMPERATUR.4 DIFFUS_HIMMEL_KW_J SONNENZENIT

nRMSE alle Parameter vs. LASSO−Auswahl

Lastgang 11

nRMSE mit Parametern nach rekursiver LASSO−EinzelauswahlnRMSE mit allen Einflussparametern

Abbildung B.7: Gezeigt ist die Verbesserung des MLR-NRMSE mit Hinzunahme von DREWAG-Merkmalen am Beispiel des DREWAG-Lastganges11. Es wird deutlich, dass ab dem Hinzufügen der Globalstrahlung der NRMSE nur noch leicht abnimmt. Ebenfalls kann festgestelltwerden, dass bereits die Erdbodentemperatur.3 ein Modell mit allen Merkmalen hinsichtlich des NRMSE übertrifft.

50

Page 63: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

BG

rafiken

ATM

OS

PH

AE

RE

_LW_J

monat

LUF

TT

EM

PE

RAT

UR

LUF

TT

EM

PE

RAT

UR

_51

ER

DB

OD

EN

TE

MP

ER

ATU

R.1

ER

DB

OD

EN

TE

MP

ER

ATU

R.2

ER

DB

OD

EN

TE

MP

ER

ATU

R.3

ER

DB

OD

EN

TE

MP

ER

ATU

R.4

SO

NN

EN

SC

HE

IND

AU

ER

GLO

BA

L_KW

_J

power

DIF

FU

S_H

IMM

EL_K

W_J

SO

NN

EN

ZE

NIT

stunde

WIN

DG

ES

CH

WIN

DIG

KE

IT

RE

L_FE

UC

HT

E

RE

L_FE

UC

HT

E_51

ME

SS

_DAT

UM

LUF

TD

RU

CK

_RE

DU

ZIE

RT

LUF

TD

RU

CK

_STAT

ION

SH

OE

HE

NIE

DE

RS

CH

LAG

SH

OE

HE

NIE

DE

RS

CH

LAG

SH

OE

HE

_51

WIN

DR

ICH

TU

NG

GE

SA

MT

_BE

DE

CK

UN

GS

GR

AD

NIE

DE

RS

CH

LAG

_GE

FALLE

N_IN

D_51

NIE

DE

RS

CH

LAG

_GE

FALLE

N_IN

D

NIE

DE

RS

CH

LAG

SF

OR

M

0.01.0

2.03.0

Cluster Dendrogram

Height

Abbildung B.8: Dendrogramm für DREWAG-Daten51

Page 64: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

Anhang A Anhang

Lastgang V2 2013 und 2014

Zeit in Stunden

Ein

spei

sung

in k

w/h

0 5000 10000 15000

020

4060

80

Abbildung B.9: Verlauf des DREWAG-Lastgangs 2 über 2 Jahre

Lastgang V12 2013 und 2014

Zeit in Stunden

Ein

spei

sung

in k

w/h

0 5000 10000 15000

01

23

4

Abbildung B.10: Verlauf des DREWAG-Lastgangs 12 über 2 Jahre

52

Page 65: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

LITERATURVERZEICHNIS

[AL74] AHRENS, Heinz ; LÄUTER, Jürgen: Mehrdimensionale Varianzanalyse. 1. Akademie-Verlag, 1974. – ISBN 76157156116

[CKLS13] CHAVENT, Marie ; KUENTZ, Vanessa ; LIQUET, Benoit ; SARACCO, Jerome: ClustOf-Var: Clustering of variables, 2013. – R package version 0.8

[CSA06] CHUMNEY, E.C.G. ; SIMPSON, K.N. ; AMERICAN SOCIETY OF HEALTH-SYSTEM PHAR-MACISTS: Methods and Designs for Outcomes Research. American Society of Health-System Pharmacists, 2006. – 69–105 S. – ISBN 9781585281114

[DT85] DEICHSEL, Guntram ; TRAMPISCH, Hans J.: Clusteranalyse und Diskriminanzanalyse. 1.Gustav Fischer Verlag, 1985. – ISBN 3437203428

[EHJT03] EFRON, Bradley ; HASTIE, Trevor ; JOHNSTONE, Iain ; TIBSHIRANI, Robert: LeastAngle Regression. In: (with discussion) Annals of Statistics; see also http://www-stat.stanford.edu/˜hastie/Papers/LARS/LeastAngle_ data (2003)

[EU14] ESSBAUMER, Andreas ; ULBRICHT, Robert: How we did at GEFCom2014 - Final Reportfor Team RDSsol. (2014)

[Fri91] FRIEDMAN, Jerome H.: Multivariate Adaptive Regression Splines. In: The Annals ofStatistics 19 (1991), Nr. 1. – ISBN 00905364

[Fri02] FRIEDMAN, Jerome H.: Stochastic gradient boosting. In: Computational Statistics andData Analysis 38 (2002), Nr. 4. – ISBN 0167–9473

[GE03] GUYON, I. ; ELISSEEFF, A.: An introduction to variable and feature selection. In: Journalof Machine Learning Research 3 (2003). – ISBN 1877263877

53

Page 66: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

LITERATURVERZEICHNIS

[HE15] HASTIE, Trevor ; EFRON, B.: Package ‘lars’. (2015)

[HTF09] HASTIE, Trevor ; TIBSHIRANI, Robert ; FRIEDMAN, Jerome: The Elements of StatisticalLearning. Bd. 1. 2009. – ISBN 9780387848570

[Hyn15] HYNDMAN, Rob J.: forecast: Forecasting functions for time series and linear models, 2015. –R package version 6.1

[NK13] NATEKIN, Alexey ; KNOLL, Alois: Gradient boosting machines, a tutorial. In: Frontiersin Neurorobotics 7 (2013), Nr. DEC. – ISSN 16625218

[NW72] NELDER, J. ; WEDDERBURN, R. W. M.: Generalized Linear Models. In: J. R. Statist. Soc.A. 135 (1972), Nr. 3

[R C14] R CORE TEAM: R: A Language and Environment for Statistical Computing. Vienna, Austria:R Foundation for Statistical Computing, 2014

[Rou82] ROUSH, F. W.: Applied linear regression. In: Mathematical Social Sciences 3 (1982), July,Nr. 1

[Spr14] SPRANGER, Marcel: Merkmalsauswahl zur Optimierung von Prognoseprozessen aufVerkaufsdaten. (2014)

[Tib94] TIBSHIRANI, Robert: Regression Selection and Shrinkage via the Lasso. In: Journal ofthe Royal Statistical Society B 58 (1994). – ISBN 0849320240

[UE14] ULBRICHT, Robert ; ESSBAUMER, Andreas: Analyse von GBM auf Lastgangsdaten fürdie Solareinspeisung. Dresden, 2014. – Forschungsbericht

54

Page 67: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

ABBILDUNGSVERZEICHNIS

2.1 MARS-Entscheidungsbaum (vereinfacht aus [Fri91]) . . . . . . . . . . . . . . . . . 5

3.1 Geometrisches Glechnis für die LARS-Berechnung, angepasst auf Grundlage von[EHJT03, S.6] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

5.1 Lastgang 1 der GEFCOM-Daten für 2013 . . . . . . . . . . . . . . . . . . . . . . . 23

6.1 Vergleich der GLOBAL_KW_J und Einspeisung . . . . . . . . . . . . . . . . . . . 29

6.2 Vergleich Clearsky mit Einspeisung . . . . . . . . . . . . . . . . . . . . . . . . . . 29

6.3 Durchschnitt der NRMSE-Werte der Prognosen mit verschiedenen Treshold-belegtenGBM-Modellen mit DREWAG-Daten . . . . . . . . . . . . . . . . . . . . . . . . . . 31

6.4 Durchschnitt der Treshold-belegten Modellbildungsdauern von GBM mit DRE-WAG-Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

6.5 Durchschnitt der NRMSE-Werte der Prognosen mit verschiedenen Treshold-belegtenMLR-Modellen mit GEFCOM-Daten . . . . . . . . . . . . . . . . . . . . . . . . . . 34

6.6 Durchschnitt der NRMSE-Werte der Prognosen mit verschiedenen Treshold-belegtenGBM-Modellen mit GEFCOM-Daten . . . . . . . . . . . . . . . . . . . . . . . . . . 35

6.7 Durchschnitt der Treshold-belegten Modellbildungsdauern von GBM mit GEFCOM-Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

55

Page 68: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

ABBILDUNGSVERZEICHNIS

6.8 Anzahl der ausgewählten Merkmale mit DREWAG-Daten und Noise . . . . . . . 36

6.9 Verringerung NRMSE unter Hinzunahme von Merkmalen für MLR . . . . . . . . 41

6.10 Dendrogramm für GEFCOM-Daten . . . . . . . . . . . . . . . . . . . . . . . . . . 42

B.1 NRMSE-Werte der Prognosen mit verschiedenen Treshold-belegten GBM-Modellenauf DREWAG-Lastgang 1 ohne Noise . . . . . . . . . . . . . . . . . . . . . . . . . 47

B.2 NRMSE-Werte der Prognosen mit verschiedenen Treshold-belegten GBM-Modellenauf DREWAG-Lastgang 4 ohne Noise . . . . . . . . . . . . . . . . . . . . . . . . . 47

B.3 Durchschnittliche GBM-Modellbildungsdauer mit DREWAG-Daten und 150 Spal-ten Noise je Tresholdwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

B.4 Durchschnittlicher GBM-NRMSE mit DREWAG-Daten und 150 Spalten Noise jeTresholdwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

B.5 Durchschnittliche MARS-Modellbildungsdauer mit GEFCOM-Daten und 150 Spal-ten Noise je Tresholdwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

B.6 Durchschnittlicher MARS-NRMSE mit GEFCOM-Daten und 150 Spalten Noiseje Tresholdwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

B.7 Verbesserung des MLR-NRMSE mit Hinzunahme von DREWAG-Merkmalen . . 50

B.8 Dendrogramm für DREWAG-Daten . . . . . . . . . . . . . . . . . . . . . . . . . . 51

B.9 Verlauf des DREWAG-Lastgangs 2 über 2 Jahre . . . . . . . . . . . . . . . . . . . . 52

B.10 Verlauf des DREWAG-Lastgangs 12 über 2 Jahre . . . . . . . . . . . . . . . . . . . 52

56

Page 69: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

TABELLENVERZEICHNIS

3.1 Vergleich der Vorwärts-Auswahl-Methoden . . . . . . . . . . . . . . . . . . . . . . 14

5.1 Technische Parameter der GEFCOM-Installationen nach [EU14] . . . . . . . . . . 22

5.2 Variablen der GEFCOM-Daten nach [EU14] . . . . . . . . . . . . . . . . . . . . . . 22

5.3 Wetterstationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

5.4 Variablen der DREWAG-Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

6.1 Allgemeingültige Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

6.2 Wichtigste Einflüsse für GEFCOM-Daten . . . . . . . . . . . . . . . . . . . . . . . 28

6.3 Wichtigste Einflüsse für DREWAG-Daten . . . . . . . . . . . . . . . . . . . . . . . 28

6.4 DREWAG-Auswahl der iterativen Methode . . . . . . . . . . . . . . . . . . . . . . 38

6.5 Durchschnittlicher NRMSE für MLR, MARS und GBM mit GEFCOM-Daten . . . 39

6.6 GEFCOM-Auswahl der iterativen Methode . . . . . . . . . . . . . . . . . . . . . . 39

6.7 Fehlerwerte des Clusterverfahrens . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

A.1 Ablagestruktur der Inhalte des beigefügten Datenträgers . . . . . . . . . . . . . . 46

57

Page 70: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

TABELLENVERZEICHNIS

A.2 Alle Merkmale der DREWAG, die Modelle mit NRMSE unter 100 erlauben, wennkeine weiteren Merkmale genutzt werden . . . . . . . . . . . . . . . . . . . . . . . 46

58

Page 71: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

LISTE DER ALGORITHMEN

4.1 Tresholdbasierte Merkmalsauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4.2 Iterative Merkmalsauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4.3 Iterativ validierte Einzelauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.4 Clusterbasierte Auswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

59

Page 72: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

LISTE DER ALGORITHMEN

60

Page 73: Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON ... · Die Struktur des so gebildeten Entscheidungs-baums modelliert die gegenseitige Beeinflussung der Merkmale untereinander

DANKSAGUNG

Mein herzlicher Dank gilt allen, die mich während der Erstellung dieser Arbeit unterstützten.Besten Dank an meine Betreuer für die vielen fachlichen Anregungen und die Unterstützungund Evaluierung meiner Ideen.Vielen Dank an die Robotron Datenbank-Software GmbH für die stets angenehme, produktiveArbeitsatmosphäre und die Fähigkeiten, die ich erlernen durfte.Weiterhin gilt mein Dank meiner Familie, für Geduld und Unterstützung.Abschließend bedanke ich mich bei dem REEF-Forschungsprojekt der TU Dresden für die Be-reitstellung der DREWAG-Lastgangdaten und der GEFCOM-Daten.

61