21
© SYNTEGRIS INFORMATION SOLUTIONS GMBH www .syntegris.de Einführung in die Statistik mir R

Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

  • Upload
    doanbao

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH

ww w . syn t egris .de

Einführung in die Statistik mir R

Page 2: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH

GESCHÄFTSFÜHRUNG

Andreas Baumgart, Business Processes and Service Gunar Hofmann, IT Solutions Sven-Uwe Weller, Design und Development Jens Wiemer, Finance & Administration

GRÜNDUNGSJAHR & FIRMENSITZ

2000, Neu-Isenburg bei Frankfurt am Main MITARBEITER

>35 hoch qualifizierte Entwickler, Architekten und Berater mit jahrelanger Projekterfahrung. Wir arbeiten In-House oder bei Ihnen vor Ort. SCHWERPUNKTE

Data Warehouse, Business Process Development, Anwendungsentwicklung, Administration, Schulung

Überblick

Page 3: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH

Syntegris bietet umfassende Unterstützung bei der Planung, Entwicklung, Implementierung und Optimierung von Softwarelösungen.

Dies gilt für das gesamte Spektrum, angefangen bei der fachlichen Konzeption, dem Prozessdesign über die Entwicklung und Modernisierung der Businesslogik mit JEE oder APEX, bis zum produktiven Betrieb der Anwendung, der Administration und dem Tuning von Datenbanken.

Wir erstellen komplette Business Universen, DWH-Architekturen oder einzelne Data Marts für Ihre systemübergreifende betriebliche Steuerung und das Reporting.

Wir konzipieren und erstellen für unsere Kunden individuelle maßgeschneiderte Lösungen.

Syntegris ist von Beginn an Oracle Partner und mittler- weile auch Oracle Gold Partner Database Specialized.

Gegenstand

Page 4: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH © SYNTEGRIS INFORMATION SOLUTIONS GMBH

Geschäftsbereiche

Page 5: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH

Oracle umarmt R

Interaktion zwischen Oracle und R

R ist Bestandteil der Oracle Advanced Analytics Option Oracle R Enterprise erlaubt es den Anwendern der R-Sprache, bestehende Scripts und Statistikmodelle mit Informationen in der Oracle-Datenbank zu verbinden. R-Scripts können über gewöhnliche SQL-Befehle (Structured Query Language) aufgerufen werden. Oracle bietet eine gegenseitige Integration zwischen R und dem Hadoop-Rahmenwerk für die Verarbeitung großer Datenmengen an. Dadurch könnten R-Programmierer ein Script schreiben und dieses dann in verschiedenen Umgebungen einsetzen, einschliesslich in den Big-Data-Appliances der Datenbanker. Auf die Resultate aus dem Advanced-Analytics-Modul kann zudem aus Oracles BI-Suite (Business Intelligence) und aus der Exalytics In-Memory-Appliance heraus zugegriffen werden.

Page 6: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH

R

R ist eine freie Programmiersprache für statistisches Rechnen und statistische Grafiken. R ist Teil des GNU-Projekts und auf vielen Plattformen verfügbar. R gilt zunehmend als die Standardsprache für statistische Problemstellungen sowohl im kommerziellen als auch im wissenschaftlichen Bereich R läuft in einer Kommandozeilenumgebung. Erweiterungsmöglichkeiten • Benutzeroberflächen • Pakete

Page 7: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH

R Studio

Page 8: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH

Statistik Theorie

Was ist Statistik

Statistik „ist die Lehre von Methoden zum Umgang mit quantitativen Informationen“ (Daten). Sie ist eine Möglichkeit, „eine systematische Verbindung zwischen Erfahrung (Empirie) und Theorie herzustellen“. Statistik wird als eigenständige mathematische Disziplin über das Sammeln, die Analyse, die Interpretation oder Präsentation von Daten betrachtet Statistik wird als Teilgebiet der Mathematik, insbesondere der Stochastik, angesehen. Untersuchungsgegenstand der Statistik sind Vorgänge, deren Resultate nicht mit Sicherheit vorhersehbar sind und die man daher als Zufallsexperimente bezeichnet. In diesem Sinne ist jede Messung, deren Resultate streuen, z.B. die Ausbildung der individuellen Körpergröße oder das Steueraufkommen einer Region ein Zufallsexperiment.

Page 9: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH

Statistik Theorie

Teilgebiete der Statistik

Die deskriptive Statistik

Die induktive Statistik

Explorative Statistik

Page 10: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH

Statistik Theorie

Betrachtungsgegenstand der Statistik

Beobachtet werden Attribute (Merkmale) von realen Objekten. Für statistische Auswertungen ist eine Abbildung (Zuordnung) jeder Ausprägung eines Attributes auf eine Zufallsvariable (Zahl) notwendig. Ein wesentliches Augenmerk ist bei der Abbildung einer Ausprägung auf das Skalenniveau zu richten- • Nominales Messniveau

• Ordinales Messniveau

• Kardinales Messniveau •

• Die Statistik betrachtet nur (Zufalls-)Zahlen, keine Einheiten wie Gewicht, Länge, Frequenz, etc.

Page 11: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH

Statistik Theorie

Skalenniveau

Page 12: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH

Statistik

Beispiel Abbildung eines Attributs

Geburtstag einer Person am 01.03.74

Die Art der Abbildung

Page 13: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH

Folgende Kennzahlen und Lageparameter eignen sich für die Beschreibung univariater, d.h. eindimensionaler Daten: • Mittelwert (nur kardinal) • Standardabweichung (nur kardinal) • Varianz (nur kardinal) • Minimum • Maximum • Spannweite • Median • Quantile • Schiefe (nur kardinal)

Die Schiefe beschreibt die Art und Stärke der Asymmetrie einer Verteilung. Sie zeigt an, ob und wie stark die Verteilung nach rechts (positive Schiefe) oder nach links (negative Schiefe) geneigt ist.

• Wölbung (bzw. Excess) (nur kardinal) Die Wölbung ist eine Maßzahl für die Steilheit bzw. „Spitzigkeit“ einer Verteilung. Sie das zentrale Moment 4. Ordnung. Verteilungen mit geringer Wölbung streuen relativ gleichmäßig; bei Verteilungen mit hoher Wölbung resultiert die Streuung mehr aus extremen, aber seltenen Ereignissen. Exzess=0: normalgipflig , > 0 steilgipflig, < 0

Univariate Daten

Page 14: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH

Folgende graphische Darstellungen eignen sich für univariate Daten: • Histogramme • BoxPlots

Univariate Daten

Page 15: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH

Livedemo stetige Attribute

Page 16: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH

Die Korrelation beschreibt den linearer Zusammenhang zwischen kardinalen Daten Der Korrelationskoeffizient liegt zwischen -1 und 1. Oft: • Absolut Wert <= 0.2 kein Zusammenhang • Absolut Wert > 0.2 und <= 0.5 schwacher Zusammenhang • Absolut Wert > 0.5 starker Zusammenhang Eine Korrelation beschreibt jedoch keine Ursache-Wirkungs-Beziehung in die eine und/oder andere Richtung, d.h. aus einem starken Zusammenhang folgt nicht, dass es auch eine eindeutige Ursache-Wirkungs-Beziehung gibt.

yx falsch

Beispiele: • Aus der Tatsache, dass in Sommern mit hohem Speiseeisumsatz viele Sonnenbrände auftreten, kann man

nicht schlussfolgern, dass Eisessen Sonnenbrand erzeugt. • Zwischen dem Rückgang der Störche und einem Rückgang der Anzahl Neugeborener kann es durchaus eine

Korrelation geben, aber weder bringen Störche Kinder noch umgekehrt.

Korrelation

Page 17: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH

Livedemo Korrelation

Page 18: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH

Regressionsanalysen sind statistische Analyseverfahren, die zum Ziel haben, Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen zu modellieren. Sie werden insbesondere verwendet, wenn Zusammenhänge quantitativ zu beschreiben oder Werte der abhängigen Variablen zu prognostizieren sind. Mathematisch kann die Beziehung zwischen den unabhängigen Variablen x und der abhängigen Variablen y im eindimensionalen Fall dargestellt werden als

y=f(x)+e

Regression

Page 19: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH

Livedemo Regression

Page 20: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH

Fazit

„Ich muss meine Daten verstehen, bevor ich eine sinnvolle statistische Aussage treffen kann.“ R ist das Werkzeug!

Page 21: Einführung in die Statistik mir R - syntegris.desyntegris.de/downloads/Statistik_mit_R.pdf · • Schiefe (nur kardinal) Die Schiefe beschreibt die Art und Stärke der Asymmetrie

© SYNTEGRIS INFORMATION SOLUTIONS GMBH

Danke

SYNTEGRIS INFORMATION SOLUTIONS GMBH

HERMANNSTRASSE 54-56

63263 NEU-ISENBURG

FON (06102) 29 86 68

FAX (06102) 55 88 06

[email protected]

SYNTEGRIS.DE