Citizen Data Science...Selbständiger Data Scientist SCO2T Roller-Sharing in Wien Citizen Data...

Preview:

Citation preview

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Citizen Data Science

Balázs Bárány

Linuxwochen Wien 2016

29. April 2016

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Inhalt

Einführung: Data Science

Werkzeuge und Methoden

Citizen Data ScienceDaten holenDaten verstehenDaten-VorverarbeitungPrädiktive ModellierungAnwendungen im privaten Kontext

Zusammenfassung

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Über mich

Selbständiger Data Scientist � https://datascientist.at

SCO2T � Roller-Sharing in Wien � https://sco2t.com

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Über mich

Selbständiger Data Scientist � https://datascientist.at

SCO2T � Roller-Sharing in Wien � https://sco2t.com

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

�Sexiest job of the 21st century�

I Sagen Google, LinkedIn, ...

I Wer ist ein Data Scientist?

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

�Sexiest job of the 21st century�

I Sagen Google, LinkedIn, ...

I Wer ist ein Data Scientist?

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Data Science Venn Diagram

(c) Drew Conway, 2010. CC-BY-NC

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Was machen Data Scientists?

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Aufgaben

I Daten holen und zusammenführen

I Verknüpfen und umformen für Analytik

I Analysieren und visualisieren

I Vorhersagen und Handlungen empfehlen

I Operationalisieren

I Big Data?

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Aufgaben

I Daten holen und zusammenführen

I Verknüpfen und umformen für Analytik

I Analysieren und visualisieren

I Vorhersagen und Handlungen empfehlen

I Operationalisieren

I Big Data?

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Aufgaben

I Daten holen und zusammenführen

I Verknüpfen und umformen für Analytik

I Analysieren und visualisieren

I Vorhersagen und Handlungen empfehlen

I Operationalisieren

I Big Data?

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Aufgaben

I Daten holen und zusammenführen

I Verknüpfen und umformen für Analytik

I Analysieren und visualisieren

I Vorhersagen und Handlungen empfehlen

I Operationalisieren

I Big Data?

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Aufgaben

I Daten holen und zusammenführen

I Verknüpfen und umformen für Analytik

I Analysieren und visualisieren

I Vorhersagen und Handlungen empfehlen

I Operationalisieren

I Big Data?

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Aufgaben

I Daten holen und zusammenführen

I Verknüpfen und umformen für Analytik

I Analysieren und visualisieren

I Vorhersagen und Handlungen empfehlen

I Operationalisieren

I Big Data?

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

The Data Mining process

Cross Industry Standard Process for Data Mining (Kenneth Jensen/Wikimedia Commons)

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Fehlende Data Scientists

I Prognosen: 50 % der Stellen nicht besetzbar

I Ausbildung kommt nicht nach

I Citizen Data Scientists

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Fehlende Data Scientists

I Prognosen: 50 % der Stellen nicht besetzbar

I Ausbildung kommt nicht nach

I Citizen Data Scientists

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Werkzeuge und Methoden

Werkzeuge und Methoden

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Scripting und Programmierung

I R

I Python mit Modulen

I Octave/Matlab, andere mathematische Sprachen

I Hadoop, Big Data libraries (Java)

I Cloud services

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Gra�sche Werkzeuge

I (teilweise) Open Source: RapidMiner, KNIME, Orange

I Open-Source-Data-Warehouse-Werkzeuge mit Erweiterungenfür Analytik: Pentaho, Talend

I Kommerzielle Werkzeuge, z. B. SAS, IBM SPSS

I Hadoop-Newcomer: z. B. Datameer

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten-Infrastruktur

I Datenbanken und Datenspeicher

I Relational, NoSQLI Hadoop-ClusterI In-memory

I Datenströme

I Unstrukturiert: Text, Bilder, Video, Audio, ...

I Web APIs

I Open Data

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten holen und zusammenführen

I Daten im �Rohformat�

I Join, Aggregierung, Filterung, Berechnung, ...

I Säuberung

I Fehlende WerteI Ausreiÿer

I Ergebnis: Für Analytik geeignete Tabelle

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten holen und zusammenführen

I Daten im �Rohformat�

I Join, Aggregierung, Filterung, Berechnung, ...

I Säuberung

I Fehlende WerteI Ausreiÿer

I Ergebnis: Für Analytik geeignete Tabelle

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten holen und zusammenführen

I Daten im �Rohformat�

I Join, Aggregierung, Filterung, Berechnung, ...

I Säuberung

I Fehlende WerteI Ausreiÿer

I Ergebnis: Für Analytik geeignete Tabelle

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten holen und zusammenführen

I Daten im �Rohformat�

I Join, Aggregierung, Filterung, Berechnung, ...

I Säuberung

I Fehlende WerteI Ausreiÿer

I Ergebnis: Für Analytik geeignete Tabelle

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Prädiktive Modellierung

I Zielvariable bekannt?

I Supervised/unsupervised (überwacht/unüberwacht)

I Klassi�kation (supervised): Vorhersage einer Kategorie

I Regression (supervised): Vorhersage eines numerischen Wertes

I Clustering (unsupervised): Automatische Gruppierung

I Assoziationsanalyse, Ausreiÿererkennung, Zeitreihen-Prognose,...

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Prädiktive Modellierung

I Zielvariable bekannt?

I Supervised/unsupervised (überwacht/unüberwacht)

I Klassi�kation (supervised): Vorhersage einer Kategorie

I Regression (supervised): Vorhersage eines numerischen Wertes

I Clustering (unsupervised): Automatische Gruppierung

I Assoziationsanalyse, Ausreiÿererkennung, Zeitreihen-Prognose,...

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Prädiktive Modellierung

I Zielvariable bekannt?

I Supervised/unsupervised (überwacht/unüberwacht)

I Klassi�kation (supervised): Vorhersage einer Kategorie

I Regression (supervised): Vorhersage eines numerischen Wertes

I Clustering (unsupervised): Automatische Gruppierung

I Assoziationsanalyse, Ausreiÿererkennung, Zeitreihen-Prognose,...

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Operationalisierung

I Anwendung des Modells auf neue Daten ergibt Vorhersage

I (+ Kon�denz)

I Im ERP- oder CRM-System speichern

I Aufmerksam machen (E-Mail, Popup)

I Markieren (z. B. E-Mail als Spam)

I Transaktion unterbrechen

I Waren nachbestellen

I ...

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Operationalisierung

I Anwendung des Modells auf neue Daten ergibt Vorhersage

I (+ Kon�denz)

I Im ERP- oder CRM-System speichern

I Aufmerksam machen (E-Mail, Popup)

I Markieren (z. B. E-Mail als Spam)

I Transaktion unterbrechen

I Waren nachbestellen

I ...

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Operationalisierung

I Anwendung des Modells auf neue Daten ergibt Vorhersage

I (+ Kon�denz)

I Im ERP- oder CRM-System speichern

I Aufmerksam machen (E-Mail, Popup)

I Markieren (z. B. E-Mail als Spam)

I Transaktion unterbrechen

I Waren nachbestellen

I ...

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Citizen Data Science

Data Science für Alle

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Mein Werkzeugkasten

I Datenbank: PostgreSQL

I Features, Erweiterungen, Ökosystem, ...

I Programmiersprache: R

I Geschmackssache

I Gra�sches Data-Mining-Tool: RapidMiner

I Für Geodaten: QGIS

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Mein Werkzeugkasten

I Datenbank: PostgreSQL

I Features, Erweiterungen, Ökosystem, ...

I Programmiersprache: R

I Geschmackssache

I Gra�sches Data-Mining-Tool: RapidMiner

I Für Geodaten: QGIS

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Mein Werkzeugkasten

I Datenbank: PostgreSQL

I Features, Erweiterungen, Ökosystem, ...

I Programmiersprache: R

I Geschmackssache

I Gra�sches Data-Mining-Tool: RapidMiner

I Für Geodaten: QGIS

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Mein Werkzeugkasten

I Datenbank: PostgreSQL

I Features, Erweiterungen, Ökosystem, ...

I Programmiersprache: R

I Geschmackssache

I Gra�sches Data-Mining-Tool: RapidMiner

I Für Geodaten: QGIS

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten holen

Daten holen

Datenquellen

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten holen

Wetterdaten von Weather Underground

I Gratis-API

I Vorhersage, aktuelles Wetter, historische Daten

I JSON- und XML-Format verfügbar

I Demo mit RapidMiner

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten holen

Wetterdaten von Weather Underground

I Gratis-API

I Vorhersage, aktuelles Wetter, historische Daten

I JSON- und XML-Format verfügbar

I Demo mit RapidMiner

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten holen

Wien: Bezirksgrenzen

I Open Data, in verschiedenen Formaten verfügbar

I Bezirksgrenzen als Polygone; Fläche, Umfang

Beispiel

Einlesen in PostgreSQL in einem Befehl:COPY bezirksgrenzen_wien

FROM PROGRAM 'curl -s "http://data.wien.gv.at/daten/geo?..."'

WITH CSV delimiter ',' HEADER;

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten holen

Wien: Bezirksgrenzen

I Open Data, in verschiedenen Formaten verfügbar

I Bezirksgrenzen als Polygone; Fläche, Umfang

Beispiel

Einlesen in PostgreSQL in einem Befehl:COPY bezirksgrenzen_wien

FROM PROGRAM 'curl -s "http://data.wien.gv.at/daten/geo?..."'

WITH CSV delimiter ',' HEADER;

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten holen

Bezirksgrenzen - Fortsetzung

I Geodaten noch im Textformat

I Umwandlung in echte Geo-Objekte mit PostGIS oder QGIS

Beispiel

PostGIS:ALTER TABLE bezirksgrenzen_wien

ADD COLUMN geo geometry;

UPDATE bezirksgrenzen_wien

SET geo = ST_GeomFromText(shape);

I Demo mit QGIS

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten holen

Bezirksgrenzen - Fortsetzung

I Geodaten noch im Textformat

I Umwandlung in echte Geo-Objekte mit PostGIS oder QGIS

Beispiel

PostGIS:ALTER TABLE bezirksgrenzen_wien

ADD COLUMN geo geometry;

UPDATE bezirksgrenzen_wien

SET geo = ST_GeomFromText(shape);

I Demo mit QGIS

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten holen

Bezirksgrenzen - Fortsetzung

I Geodaten noch im Textformat

I Umwandlung in echte Geo-Objekte mit PostGIS oder QGIS

Beispiel

PostGIS:ALTER TABLE bezirksgrenzen_wien

ADD COLUMN geo geometry;

UPDATE bezirksgrenzen_wien

SET geo = ST_GeomFromText(shape);

I Demo mit QGIS

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten verstehen

Daten verstehen

Data Understanding

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten verstehen

Data understanding

I Erster Schritt nach dem Import neuer Daten

I Was ist enthalten?

I Datenqualität

I Datenmenge

I Schlüssel zu anderen Datenbeständen

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten verstehen

Data understanding

I Erster Schritt nach dem Import neuer Daten

I Was ist enthalten?

I Datenqualität

I Datenmenge

I Schlüssel zu anderen Datenbeständen

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten verstehen

Data understanding

I Erster Schritt nach dem Import neuer Daten

I Was ist enthalten?

I Datenqualität

I Datenmenge

I Schlüssel zu anderen Datenbeständen

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten verstehen

Visualisierung (RapidMiner)

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten verstehen

Visualisierung (R)

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten-Vorverarbeitung

Daten-Vorverarbeitung

Vorverarbeitung = Preprocessing

Bis zu 80 % der Projektzeit!

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten-Vorverarbeitung

Daten-Vorverarbeitung

I Hereinkommende Daten selten �fertig�

I Zusammenführung unterschiedlicher Datensätze

I Filtern, Bereinigung

I Erstellung/Berechnung neuer Attribute

I Aggregierung

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten-Vorverarbeitung

Daten-Vorverarbeitung

I Hereinkommende Daten selten �fertig�

I Zusammenführung unterschiedlicher Datensätze

I Filtern, Bereinigung

I Erstellung/Berechnung neuer Attribute

I Aggregierung

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten-Vorverarbeitung

Daten-Vorverarbeitung

I Hereinkommende Daten selten �fertig�

I Zusammenführung unterschiedlicher Datensätze

I Filtern, Bereinigung

I Erstellung/Berechnung neuer Attribute

I Aggregierung

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten-Vorverarbeitung

Daten-Vorverarbeitung

I Hereinkommende Daten selten �fertig�

I Zusammenführung unterschiedlicher Datensätze

I Filtern, Bereinigung

I Erstellung/Berechnung neuer Attribute

I Aggregierung

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten-Vorverarbeitung

Beispiel in RapidMiner

I 2 Datensätze von OGD Wien

I Bevölkerungsprognose pro BezirkI Bezirksdaten

I Prognose nach Geschlecht gruppiert => aggregieren

I Über Bezirkscode verknüpfen

I Prognostizierte Bevölkerungsdichte berechnen

I Demo

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten-Vorverarbeitung

Beispiel in RapidMiner

I 2 Datensätze von OGD Wien

I Bevölkerungsprognose pro BezirkI Bezirksdaten

I Prognose nach Geschlecht gruppiert => aggregieren

I Über Bezirkscode verknüpfen

I Prognostizierte Bevölkerungsdichte berechnen

I Demo

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten-Vorverarbeitung

Beispiel in RapidMiner

I 2 Datensätze von OGD Wien

I Bevölkerungsprognose pro BezirkI Bezirksdaten

I Prognose nach Geschlecht gruppiert => aggregieren

I Über Bezirkscode verknüpfen

I Prognostizierte Bevölkerungsdichte berechnen

I Demo

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten-Vorverarbeitung

Beispiel in RapidMiner

I 2 Datensätze von OGD Wien

I Bevölkerungsprognose pro BezirkI Bezirksdaten

I Prognose nach Geschlecht gruppiert => aggregieren

I Über Bezirkscode verknüpfen

I Prognostizierte Bevölkerungsdichte berechnen

I Demo

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Daten-Vorverarbeitung

Beispiel in RapidMiner

I 2 Datensätze von OGD Wien

I Bevölkerungsprognose pro BezirkI Bezirksdaten

I Prognose nach Geschlecht gruppiert => aggregieren

I Über Bezirkscode verknüpfen

I Prognostizierte Bevölkerungsdichte berechnen

I Demo

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Prädiktive Modellierung

Prädiktive Modellierung

Prädiktive Modellierung

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Prädiktive Modellierung

Prädiktive Modellierung

I Modell aufbauen (lassen)

I Zielvariable

I Modell auf neue Daten anwenden

I Vorhersage, Kon�denz

I Validierung

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Prädiktive Modellierung

Prädiktive Modellierung

I Modell aufbauen (lassen)

I Zielvariable

I Modell auf neue Daten anwenden

I Vorhersage, Kon�denz

I Validierung

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Prädiktive Modellierung

Prädiktive Modellierung

I Modell aufbauen (lassen)

I Zielvariable

I Modell auf neue Daten anwenden

I Vorhersage, Kon�denz

I Validierung

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Prädiktive Modellierung

Richtige Validierung

I Modell nicht auf Eingangsdaten anwenden!

I Split Validation

I Cross Validation

I Demo in RapidMiner

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Prädiktive Modellierung

Richtige Validierung

I Modell nicht auf Eingangsdaten anwenden!

I Split Validation

I Cross Validation

I Demo in RapidMiner

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Prädiktive Modellierung

Richtige Validierung

I Modell nicht auf Eingangsdaten anwenden!

I Split Validation

I Cross Validation

I Demo in RapidMiner

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Prädiktive Modellierung

Richtige Validierung

I Modell nicht auf Eingangsdaten anwenden!

I Split Validation

I Cross Validation

I Demo in RapidMiner

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Prädiktive Modellierung

Prädiktive Modellierung � Fortsetzung

I Vergleich verschiedener Lernverfahren

I Parameteroptimierung

I Variation der Vorverarbeitung

I Attributselektion

I Attributgenerierung

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Prädiktive Modellierung

Prädiktive Modellierung � Fortsetzung

I Vergleich verschiedener Lernverfahren

I Parameteroptimierung

I Variation der Vorverarbeitung

I Attributselektion

I Attributgenerierung

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Prädiktive Modellierung

Prädiktive Modellierung � Fortsetzung

I Vergleich verschiedener Lernverfahren

I Parameteroptimierung

I Variation der Vorverarbeitung

I Attributselektion

I Attributgenerierung

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Prädiktive Modellierung

Prädiktive Modellierung � Fortsetzung

I Vergleich verschiedener Lernverfahren

I Parameteroptimierung

I Variation der Vorverarbeitung

I Attributselektion

I Attributgenerierung

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Prädiktive Modellierung

Deployment

I Operationalisierung der Ergebnisse

I Automatisierte Vorverarbeitung und Vorhersagen

I Regelmäÿige Evaluierung und Optimierung

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Prädiktive Modellierung

Deployment

I Operationalisierung der Ergebnisse

I Automatisierte Vorverarbeitung und Vorhersagen

I Regelmäÿige Evaluierung und Optimierung

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Prädiktive Modellierung

Deployment

I Operationalisierung der Ergebnisse

I Automatisierte Vorverarbeitung und Vorhersagen

I Regelmäÿige Evaluierung und Optimierung

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Anwendungen im privaten Kontext

Anwendungen im privaten Kontext

I Lebensgestaltung: Open Data, OpenStreetMap

I Kontrolle: Open Government Data, Firmen-Verö�entlichungen

I Hobbies

I Wetter, Geodaten, GPS-Tracks, ...I ...

I �Egometrics�, �Quanti�ed self�

I Fitness- und Gesundheitstracker, Smart Meter, Smart VehicleI Internet of Things

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Anwendungen im privaten Kontext

Anwendungen im privaten Kontext

I Lebensgestaltung: Open Data, OpenStreetMap

I Kontrolle: Open Government Data, Firmen-Verö�entlichungen

I Hobbies

I Wetter, Geodaten, GPS-Tracks, ...I ...

I �Egometrics�, �Quanti�ed self�

I Fitness- und Gesundheitstracker, Smart Meter, Smart VehicleI Internet of Things

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Anwendungen im privaten Kontext

Anwendungen im privaten Kontext

I Lebensgestaltung: Open Data, OpenStreetMap

I Kontrolle: Open Government Data, Firmen-Verö�entlichungen

I Hobbies

I Wetter, Geodaten, GPS-Tracks, ...I ...

I �Egometrics�, �Quanti�ed self�

I Fitness- und Gesundheitstracker, Smart Meter, Smart VehicleI Internet of Things

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Anwendungen im privaten Kontext

Anwendungen im privaten Kontext

I Lebensgestaltung: Open Data, OpenStreetMap

I Kontrolle: Open Government Data, Firmen-Verö�entlichungen

I Hobbies

I Wetter, Geodaten, GPS-Tracks, ...I ...

I �Egometrics�, �Quanti�ed self�

I Fitness- und Gesundheitstracker, Smart Meter, Smart VehicleI Internet of Things

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Zusammenfassung

I Data Science � ein spannendes Thema

I Frei verfügbare, einfach bedienbare Werkzeuge

I Vorgehensweise

I Anwendung im privaten Bereich

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Zusammenfassung

I Data Science � ein spannendes Thema

I Frei verfügbare, einfach bedienbare Werkzeuge

I Vorgehensweise

I Anwendung im privaten Bereich

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Zusammenfassung

I Data Science � ein spannendes Thema

I Frei verfügbare, einfach bedienbare Werkzeuge

I Vorgehensweise

I Anwendung im privaten Bereich

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Zusammenfassung

I Data Science � ein spannendes Thema

I Frei verfügbare, einfach bedienbare Werkzeuge

I Vorgehensweise

I Anwendung im privaten Bereich

Citizen Data Science Linuxwochen Wien 2016

Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung

Fragen?

I Balázs Bárány, <balazs@tud.at>

I https://datascientist.at/

Citizen Data Science Linuxwochen Wien 2016

Recommended