Upload
others
View
1
Download
0
Embed Size (px)
www.infoteam.de © 2018 | infoteam Software AG | V 4 ASQF Automation Day 2018 Seite 1
Predictive Analytics
Warum datenbasierte Vorhersagen kein Hexenwerk sind
ASQF Automation Day 2018
Dr. Stefano Signoriello
www.infoteam.de © 2018 | infoteam Software AG | V 4
Inhalte des Vortrags
ASQF Automation Day 2018 Seite 2
Analytics – Von Daten zu Wissen
Von Nachsicht über Einsicht zu Voraussicht
Descriptive, Diagnostic, Predictive & Prescriptive Analytics
Machine Learning
Überblick
Supervised, Unsupervised & Reinforcement Learning
Lernprozess als Optimierungsproblem
Timeline der künstlichen Intelligenz
Data Science
Data Science Venn-Diagramm nach Conway
Warum datenbasierte Vorhersagen kein Hexenwerk sind – It‘s Science!
Vorhersagen mithilfe von Wissenschaft, Beispiel: Positionsvorhersage mittels GPS
www.infoteam.de © 2018 | infoteam Software AG | V 4 ASQF Automation Day 2018 Seite 3
Analytics Von Daten zu Wissen
www.infoteam.de © 2018 | infoteam Software AG | V 4
Analytics Von Nachsicht über Einsicht zu Voraussicht
ASQF Automation Day 2018 Seite 4
Abb. 1 Abb. 2
www.infoteam.de © 2018 | infoteam Software AG | V 4
Analytics Descriptive Analytics – Was ist geschehen?
ASQF Automation Day 2018 Seite 5
Ziele von Descriptive Analytics:
Sammeln, Aufbereiten und Zusammenfassen von historischen Daten
Statistische Berechnungen und Beschreibungen dieser Vergangenheitsdaten
Erstellen von Zusammenfassungen, Visualisierungen und Berichten für ein breites Publikum
Grundlage für weitere Analytics
Abb. 3
www.infoteam.de © 2018 | infoteam Software AG | V 4
Analytics Diagnostic Analytics – Warum ist es geschehen?
ASQF Automation Day 2018 Seite 6
Ziele von Diagnostic Analytics:
Zusammenhänge zwischen Ursache und Wirkung sollen in historischen Daten aufgedeckt werden
Hierzu werden Korrelationen zwischen verschiedenen Variablen berechnet (aber
Vorsicht: Korrelation Kausalität)
Drill-Downs werden genutzt um den Einfluss verschiedener Variablen auf einander zu untersuchen (Problem: confounding / Störfaktoren)
Abb. 4
Abb. 5
www.infoteam.de © 2018 | infoteam Software AG | V 4
Analytics Predictive Analytics – Was wird geschehen?
ASQF Automation Day 2018 Seite 7
Ziele von Predictive Analytics:
mithilfe von Machine Learning sollen zukünftige Ereignisse / Daten basierend auf historischen Daten vorhergesagt werden
Hierzu werden u.a. statistische Modelle und / oder neuronale Netze erstellt, trainiert und evaluiert
Erfolgsmetriken werden zum Vergleich und zur Auswahl geeigneter Modelle herangezogen
Abb. 6
www.infoteam.de © 2018 | infoteam Software AG | V 4
Analytics Prescriptive Analytics – Wie lassen wir es geschehen?
ASQF Automation Day 2018 Seite 8
Ziele von Prescriptive Analytics:
Vorhersagekraft vorangegangener Predictive Analytics wird genutzt
Methoden der Simulation werden verwendet, um optimale Handlungen für konkrete Situationen zu identifizieren
dem Entscheider werden diese Handlungen empfohlen oder sie werden automatisch ausgeführt
Abb. 7
www.infoteam.de © 2018 | infoteam Software AG | V 4 ASQF Automation Day 2018 Seite 9
Machine Learning
www.infoteam.de © 2018 | infoteam Software AG | V 4
Machine Learning Überblick
ASQF Automation Day 2018 Seite 10
Machine Learning liegt in der Schnittmenge von
Mathematik: unser Wissen über theoretisch Mögliches, z.B. in Bezug auf Statistik, lineare Algebra, Analysis und Optimierung, Algorithmik
Informatik und Technik: unser Wissen über praktisch Umsetzbares, z.B. in Bezug auf die Umsetzung und Laufzeit von Algorithmen, Entwicklung und Betrieb von Computern
Abb. 8
Abb. 9
www.infoteam.de © 2018 | infoteam Software AG | V 4
Machine Learning Überblick
ASQF Automation Day 2018 Seite 11
Machine Learning ist in 3 Gebiete untergliedert
Beaufsichtigtes Lernen: Lernen von Vorhersagen mit gegebenen Input-Output-Paaren
Unbeaufsichtigtes Lernen: Komprimierung und Erkennung von Strukturen
Bestärkendes Lernen: Interaktion eines Agenten mit der Umgebung durch ein Belohnungssystem
Abb. 10
www.infoteam.de © 2018 | infoteam Software AG | V 4
Machine Learning Supervised Learning / Beaufsichtigtes Lernen
ASQF Automation Day 2018 Seite 12
Klassifikation
Zu welcher bekannten Klasse K (Label) gehört ein Dateninput x?
Training & Evaluation von Entscheidungsrändern
Linear Classifiers, Logistic Classifiers, Support Vector Machines, Decision Trees, Boosted Trees, Random Forests, Neural Networks, Nearest Neighbor
Regression
Welchen numerischen Wert hat ein Datenoutput y gegeben Dateninput x?
Training & Evaluation von funktionalen Zusammenhängen
Linear & Polynomial Regression, Logistic Regression, Regularization, Regression Trees, Random Forests, Neural Networks
Abb. 11
Abb. 12
www.infoteam.de © 2018 | infoteam Software AG | V 4
Machine Learning Unsupervised Learning / Unbeaufsichtigtes Lernen
ASQF Automation Day 2018 Seite 13
Clustering
In welche und wie viele Cluster / Haufen können die Daten aufgeteilt werden?
Unbeaufsichtigt, da keine Klassen / Labels bekannt sind
K-means Clustering, Mean-Shift Clustering, DBSCAN, Gaussian Mixture Models, Agglomerative Hierarchical Clustering
Dimensionsreduktion
In welche (orthogonalen) Richtungen haben die Daten die größte Streuung?
Projektion auf diese Richtungen zur Komprimierung für Visualisierung und Feature Extraction
Principal Component Analysis, Autoencoders
Abb. 13
Abb. 14
www.infoteam.de © 2018 | infoteam Software AG | V 4
Machine Learning Reinforcement Learning / Bestärkendes Lernen
ASQF Automation Day 2018 Seite 14
Lernverhalten in der Natur soll nachgebildet werden
Im Schritt t befindet sich der Agent im Zustand st einer Umgebungsmenge S
führt eine Aktion at von möglichen Aktionen A(st) gemäß einer Policy / Regel aus
Agent gelangt damit zu einem neuen Zustand st+1
erhält dafür eine gegebene positive oder negative Belohnung rt+1
Belohnung rt+1 wird anhand einer Art von zu erwartender Gesamtbelohnung bewertet
Ziel des Agenten ist, diese Gesamtbelohnung zu maximieren und dabei seine Policy entsprechend anzupassen, d.h. zu lernen
Abb. 15
www.infoteam.de © 2018 | infoteam Software AG | V 4
Machine Learning Lernprozess als Optimierungsproblem
ASQF Automation Day 2018 Seite 15
bestimmte Aufgabe zu lernen = Leistung bei der Ausführung zu erhöhen
Benötigt Maß zur Güte der Ausführung / Verlust-, Kostenfunktion, Score
Algorithmisch wird Lernen durch ein Optimierungsproblem behandelt / Minimieren einer Verlust-, Kostenfunktion oder Maximieren des Scores
Modelle werden auf einem Teil der Daten (Trainingsdaten) trainiert bzw. angelernt, d.h., Modellparameter werden mittels Optimierung bestimmt
Die Güte verschiedener Modelle wird auf einem separaten Teil der Daten (Testdaten) validiert / Simulation von unbekannten Daten
Durch Vergleich der Güte / Erfolgsmetriken verschiedener Modelle wird das optimale Modell ausgewählt
www.infoteam.de © 2018 | infoteam Software AG | V 4
Machine Learning Lernprozess als Optimierungsproblem
ASQF Automation Day 2018 Seite 16
Am Beispiel der polynomialen Regression:
Zu gegebenen Dateninputs xi sollen Datenoutputs yi durch Polynomfunktionen f approximiert werden
Strukturparameter / Koeffizienten für Polynome f werden auf Trainingsdaten optimiert, so dass die Verlustfunktion
𝑦𝑖 − 𝑓 𝑥𝑖2
𝑖
(quadratischer Fehler) minimal ist
der optimale Grad der Polynomfunktion f wird durch Validierung / Verlust auf Testdaten ermittelt
Abb. 16
Abb. 17
www.infoteam.de © 2018 | infoteam Software AG | V 4
Machine Learning Timeline der künstlichen Intelligenz
ASQF Automation Day 2018 Seite 17
Viele der heute im Bereich Machine Learning eingesetzten Methoden beruhen auf alten und guten mathematischen Ideen, z.B. lineare Algebra, Analysis, Statistik und Optimierung
Umsetzbarkeit, Bedeutsamkeit und Rentabilität steigen mit technologischem Fortschritt
„Moore‘s Law ist eine lahme Ente“ (spiegel.de) – zwischen 2012 und 2017 ist die Rechenleistung im Bereich Deep Learning um den Faktor 300.000 gestiegen, d.h., eine Verdoppelung alle 3,5 Monate (openai.com)
Abb. 18 Abb. 19
www.infoteam.de © 2018 | infoteam Software AG | V 4 ASQF Automation Day 2018 Seite 18
Data Science
Warum datenbasierte Vorhersagen kein Hexenwerk sind – It‘s Science!
www.infoteam.de © 2018 | infoteam Software AG | V 4
Data Science Venn-Diagramm nach Conway
ASQF Automation Day 2018 Seite 19
Abb. 20
www.infoteam.de © 2018 | infoteam Software AG | V 4
Warum datenbasierte Vorhersagen kein Hexenwerk sind – It‘s science!
ASQF Automation Day 2018 Seite 20
Data Science = fundierte Anwendung von Machine Learning auf Datenproblem einer Domäne, um spezifische Probleme zu lösen
Gedanke an „lernende“ / „denkende“ Computer mag bei Laien zur Vorstellung eines Hexenwerkes führen
Prozess des Lernens = eventuell schwieriges Optimierungsproblem, das durch technologischen Fortschritt praktisch lösbar wurde bzw. wird
It‘s Science! – Es braucht mathematische Sorgfalt und eine wissenschaftliche Arbeitsweise, andernfalls: Danger Zone!
wir lernen seit hunderten von Jahren von Daten; nur heute nutzen wir dazu mehr Rechenleistung
Abb. 21
Abb. 22
www.infoteam.de © 2018 | infoteam Software AG | V 4
Vorhersagen mithilfe von Wissenschaft Beispiel: Positionsvorhersage mittels GPS
ASQF Automation Day 2018 Seite 21
Vorhersagen von Positionen auf der Erde mittels GPS verstehen wenige Menschen detailliert; u.a. benötigt man
Mathematische und physikalische Kenntnisse zu: Keplersche Gesetze, Sphärische Trigonometrie, Lineare Algebra, Relativitätstheorie, Quantenmechanik
diverse technische Kenntnisse zum Bau und Betrieb von Satelliten, Senden und Empfangen von elektro- magnetischer Strahlung etc.
Äußere Faktoren (z.B. multipathing) führen zu ungenauen Positionsvorhersagen, die heute z.B. von Uber mithilfe von Machine Learning verbessert werden
Wird GPS nicht als Hexenwerk betrachtet, nur weil scheinbar kein „lernendes Programm“ / Optimierung eingesetzt wurde? Oder aufgrund von Erfahrungen?
Abb. 23
www.infoteam.de © 2018 | infoteam Software AG | V 4
Quellen zu den verwendeten Abbildungen
ASQF Automation Day 2018 Seite 22
Abb. 1: https://images.computerwoche.de/bdb/2579388/890x.png
Abb. 2: https://www.gartner.com/binaries/content/assets/events/keywords/catalyst/catus8/2017_planning_guide_for_data_analytics.pdf
Abb. 3: http://www.reportingguru.com/wp-content/uploads/2017/04/home-page-report-image.png
Abb. 4: https://i2.wp.com/unitedstatisticians.com/blog/wp-content/uploads/2016/11/correlation-and-causality-1.jpg
Abb. 5: https://i.pinimg.com/originals/23/7b/85/237b85efe8bd399e166849bcfd67bffb.jpg
Abb. 6: https://www.organisator.ch/wp-content/uploads/2017/11/Die-IT-Trends-2018_Organisator.jpg
Abb. 7: https://upload.wikimedia.org/wikipedia/commons/c/c7/Three_Phases_of_Analytics.png
Abb. 8: http://www.slate.com/content/dam/slate/blogs/quora/2012/10/121002_Quora_MathProblemEX.jpg.CROP.rectangle3-large.jpg
Abb. 9: https://media.coindesk.com/uploads/2017/08/mining-gpu-e1504211668814.jpg
Abb. 10: http://www.cubicsol.com/machine-learning-algorithms/
Abb. 11: https://cdn-images-1.medium.com/max/451/0*DO1oOt94TAhfoHf6.
Abb. 12: https://cdn-images-1.medium.com/max/606/1*yLeh6JjWHenfH4zFOA3HpQ.png
Abb. 13: https://www.codeproject.com/KB/recipes/1120804/clustering1.JPG
Abb. 14: http://what-when-how.com/wp-content/uploads/2012/06/tmpdece21_thumb.png
Abb. 15: https://blog.twitter.com/content/dam/blog-twitter/engineering/en_us/open-source/2016/introducing-torch-twrl/eng_results_003.png.img.fullhd.medium.png
Abb. 16: https://keyscore.files.wordpress.com/2017/08/overfitting_underfitting.png?w=616
Abb. 17: https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRk66ueJz9Y9v-klKTxJ-yUHwB08ZN1Mv4wFq9OLBE807rDe0TU
Abb. 18: https://c1.staticflickr.com/1/542/32509221691_f806cd79e7_b.jpg
Abb. 19: https://cdn-images-1.medium.com/max/1600/0*wNFF7lH8QyswBM6X.png
Abb. 20: https://www.researchgate.net/figure/The-Venn-diagram-for-data-science-graphic-by-author-based-on-Conway-2010_fig7_313020352
Abb. 21: https://pbs.twimg.com/media/DMgd_L-XcAE7L-O.jpg
Abb. 22: https://res.cloudinary.com/teepublic/image/private/s--V9RwBIQM-- /t_Preview/b_rgb:191919,c_limit,f_jpg,h_630,q_90,w_630/v1520753641/production/designs/2455282_0.jpg
Abb. 23: https://timeandnavigation.si.edu/sites/default/files/multimedia-assets/500-si_hiw_gps_fa_la2534dc_0.jpg
www.infoteam.de © 2018 | infoteam Software AG | V 4
Kontakt
Telefon: +49 (0) 9131 / 78 00 -
Telefax: +49 (0) 9131 / 78 00 -
Am Bauhof 9
D-91088 Bubenreuth
www.infoteam.de
ASQF Automation Day 2018 Seite 23
216
Dr. Stefano Signoriello
Vielen Dank für
Ihre Aufmerksamkeit!