41
Datenhandling und Einstieg in die Analyse mit R Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik FOM Hochschule für Oekonomie & Management

Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

Embed Size (px)

Citation preview

Page 1: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

Datenhandling und Einstieg in die Analyse

mit R

Prof. Dr. Oliver Gansser

Unterlagen zum Selbststudium

ifes Institut für Empirie & Statistik

FOM Hochschule für Oekonomie & Management

Page 2: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

2 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

R ist eine freie Programmiersprache für statistisches Rechnen und

statistische Grafiken.

Der Funktionsumfang von R kann durch eine Vielzahl von Paketen

erweitert und an spezifische statistische Problemstellungen angepasst

werden.

Als grafische Benutzeroberfläche wird in R das Paket R-Commander

(Paketname: Rcmdr) bereitgestellt.

Der R-Commander erleichtert das Datenmanagement und hilft beim

Schreiben von Auswertskripten.

Was ist R?

Page 3: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

3 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Download der FOMPortable-Version unter

fom.de/Meine Hochschule/Tools & Services/Software

Download & Entpacken

Page 4: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

4 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Download der FOMPortable-Version für Windows User in einen

Ordner mit Schreibrechten.

Download & Entpacken

Linux User können die

Software Rcmdr direkt

aus den Paketen des

Distributors installieren

(total simpel, ein Klick)

Mac User beachten bitte

die genaue Anleitung, da

hier einige Schritte mehr

notwendig sind, als auf

den anderen Systemen

Windows user

Page 5: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

5 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Nachdem Sie die FOMPortable-Version von R aus dem Online-

Campus heruntergeladen haben, entpacken Sie die .zip-Datei.

Download & Entpacken für die FOMPortable-Version

Im Hauptverzeichnis

befindet sich die Datei R-

Start.bat mit der Sie die

R-Umgebung öffnen.

Idealerweise verknüpfen

Sie diese Datei mit Ihrem

Desktop.

Im Ordner „user“ wurden

Datensätze, Skripte und

der Fragebogen für Modul

Wissenschaftliche

Methodik hinterlegt

(Master of Science).

Page 6: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

6 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Es öffnen sich die R-Console und der R-Commander

Beide Fenster müssen immer geöffnet bleiben.

Alle Befehle die in der R Console eingegeben werden können,

funktionieren auch im Rcmdr.

Im Rcmdr: Befehl mit Cursor markieren oder hinter den Befehl

setzten und auf

„Befehl ausführen“ klicken.

Benutzeroberflächen

Page 7: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

7 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

R Commander (Rcmdr)

…zeigt die hinter den

jeweiligen Menüpunkten

hinterlegten Funktionen

sowie die verwendeten

Argumente und

Parameter an.

…werden die

Skriptbefehle und die

Ergebnisse von z.B.

Berechnungen

ausgegeben.

…gibt Statusnachrichten

und Fehlermeldungen

aus.

Page 8: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

8 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

R kann zwischen Groß- und Kleinschreibung unterscheiden.

Ein Kommentar in Skripten wird mit # eingeleitet.

Fehlende Werte sind mit NA gekennzeichnet.

Das Dezimaltrennzeichen ,(„Komma“) ist . („Punkt“)

Das ist wichtig, wenn Sie aus anderen Formaten Daten importieren.

Sie müssen in diesem Fall folgendes wissen (s. Folie 19):

Wie sind die Felder der zu importierenden Datei getrennt.

Welches Format haben die Daten beim Dezimaltrennzeichen.

Eine Zuweisung erfolgt über „<-“

Die Daten (und alle Eingaben) werden mit dem Beenden von R (einem

der beiden Fenster) gelöscht.

R-Konventionen

Page 9: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

9 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

R ist eine objektorientierte Sprache, d. h. eine Funktion kann je nach

Typ des Funktionsarguments unterschiedliche Ergebnisse liefern.

Für viele Argumente und Parameter existieren Voreinstellungen die

nicht explizit angegeben werden müssen.

Funktionen werden direkt angewendet.

Häufig werden die Ergebnisse von Funktionen Objekten zugewiesen,

so dass mit den Ergebnissen weitergearbeitet werden kann.

Die Ergebnisse werden im Workspace gespeichert. Der Inhalt kann mittels ls() angezeigt werden.

Mit rm()werden Objekte aus dem Workspace entfernt.

Funktionen

Page 10: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

10 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Vielen Verfahren in R muss das Datenmodell über eine formula

übergeben werden.

Zum Verständnis hier die wichtigsten formula Zeichen (z. B. für die

Regressionanalyse):

~ trennt abhängig von unabhängig: y~x

+ fügt erklärende Variablen hinzu: y~u+v

* fügt erklärende Variablen und Interaktion hinzu: y~u*v

: fügt Interaktion direkt hinzu y~u+v+u:v

. fügt alle Variablen hinzu y~.

R-Modellspezifikation

Page 11: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

11 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Unzählige Bücher und Internetquellen, auch auf Deutsch, eine

Auswahl:

Hatzinger, Hornig & Nagel (2011). R: Einführung durch angewandte Statistik,

Wien: Pearson Studium Statistik Einführung, sehr gutes Buch, an allen FOM

Standorten in der Bibliothek vorhanden.

Ligges, U. (2008). Programmieren mit R. Springer. eher technisch

Luhmann, M. (2010): R für Einsteiger, Weiheim. gutes Einstiegsbuch

Springer Reihe useR! für Spezialgebiete

Im Internet (Auswahl):

http://cran.r-project.org/manuals.html

http://www.r-project.org/other-docs.html

R-Literatur

Page 12: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

12 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Es gibt viele Hilfsquellen (Befehle über R Console oder Rcmdr):

R Hilfe Startseite: help.start()

Direkte Hilfe zu einer Funktion: ?lm

Suchfunktion: help.search("lm")

FAQ: http://cran.r-project.org/doc/FAQ/R-FAQ.html

Mailinglisten, z.B. https://stat.ethz.ch/mailman/listinfo/r-help

Häufig hilft schon eine Internetsuche „R lm“

Oder Sie klicken den Hilfebutton im Rcmdr Menü:

R-Hilfe

Page 13: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

13 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Viele (spezielle) Methoden sind in Paketen enthalten, die teilweise

zunächst installiert (über R Console) und dann geladen werden müssen:

Installieren von Paketen

per Direkteingabe > Install.packages(„Hier der Paketname“)

per Menüführung

Page 14: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

Installierte Pakete müssen zur Nutzung geladen werden. Auch hier gibt

es verschiedene Möglichkeiten:

14 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Laden von Paketen

per Direkteingabe > Library(Hier der Paketname)

per Menüführung

Per Menüführung im

Rcmdr:

Extras/Lade Pakete

Vor dem Laden muss das

Pakt ein mal installiert

werden.

Page 15: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

15 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Folgende Zusatzpakete (contributed) gehören zur (portablen) FOM R-

Standard Installation: Rcmdr (GUI)

conjoint (Conjointanalyse)

CTT (Testtheorie)

linprog (lineare Programmierung)

rela (Relabiliäten, Cronbach‘s alpha etc.)

Matching (Propensity Score Matching)

mvpart (Entscheidungsbäume)

nortest (Normalverteilungstests)

plm (Panelregression)

psych (Psychometrische Methoden, Hauptkomponentenrotation etc.)

pwr (Powerberechnungen)

randomForest (Random Forests)

sampleSelection (Tobit/Heckit Verfahren)

sem (Strukturgleichungen) => wird evtl. durch lavaan ersetzt

tseries (Zeitreihenmethoden, (G)Arch etc.)

Ab SoSe 14 arules und arulesViz (Assoziationsanalyse (Modul (E)CRM))

Ausgewählte Pakete

Page 16: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

16 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Grafische Möglichkeit über den R-Commander (nächste Folien).

Textdateien (ASCII) über read.table().

Diverse Binärformate (z.B. SPSS über read.spss() im Paket

foreign).

Wenn Daten in Excel vorliegen sollte folgendes beachtet werden:

In der ersten Zeile befinden sich normalerweise die Variablennamen. Darunter die

Daten. Diese Daten sollten möglichst ohne Formatierungen vorliegen. Die

Datentabelle muss nicht hübsch sein, sondern zweckmäßig.

Pro Zeile liegen Daten je Auskunftsperson vor (Merkmalsträger, Beobachtung).

Legen Sie, wenn noch nicht geschehen, eine erste Spalte an, die Sie als Variable

Apn.Nr. o. ä. bezeichnen. Diese Nummer sollte auch auf dem Fragebogen stehen.

Alle Spalten die für die Auswertung nicht benötigt werden, können gelöscht

werden.

Daten einlesen und praktische Tipps

Page 17: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

17 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Sie können jetzt entscheiden, ob Sie die Variablennamen nun umbenennen

(Var1=>Geschlecht, Var2=>Alter) oder in einem fortlaufenden Format

behalten.

Wenn Sie eine Datei ohne Variablennamen importieren, vergibt R beim

importieren fortlaufende Variablennamen. Z. B. V1, V2, V3, usw.

Daten einlesen aus Excel

Daten in Excel:

Spalten = Variablen

Zeilen = Auskunftspersonen

Page 18: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

18 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Daten einlesen aus Excel

Hier kann ein Matrixname

eingegeben werden, auf den

sich die Skriptbefehle

beziehen. Dies ist wichtig bei

zu öffnenden Skriptdateien.

Da in Excel meist mehrere

Tabellen gespeichert sind, ist

die Tabelle mit den Rohdaten

einzulesen.

Sollte die Exceldatei im

Ordner nicht angezeigt

werden klicken Sie auf „All

Files(*.*).

Page 19: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

Datenhandling und Einstieg in die Analyse mit R

Aus SPSS (Wenn Daten im SPSS Format

vorliegen):

Wertelabels können als Werteetiketten

übernommen werden.

Variablenlabels werden nicht übernommen.

Aus Textdateien (Wenn Daten im MAC

Format oder Linux Format vorliegen):

Datenfeldtrennzeichen und

Dezimaltrennzeichen beachten.

Wertelabels werden nicht übernommen.

Fehlende Werte werden von R durch NA

(not available) ersetzt.

Wie müssen die Daten vorher

gespeichert werden?

Mac: Speichern unter Windows-

kommagetrennt (.csv)

Linux: Speichern unter CSV (Trennzeichen-

getrennt)

Daten einlesen aus anderen Formaten

19 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Achtung: Das Trennzeichen

beim Import (Mac und Linux)

ist „;“

Page 20: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

20 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Datenhandling

Datenmatrix auswählen, falls

mehrere geladen sind.

Achtung, dies ist beim

Speichern zu berücksichtigen!

(Folie 22 und 25) Datenmatrix bearbeiten (Wie

Excel)

Daten nur betrachten

Page 21: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

21 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Datenmatrix bearbeiten

Variablen oder

Matrixinhalte können

geändert/ergänzt werden

R erkennt mit dem Einlesen,

um was für einen Datentyp

es sich handelt:

• Felder mit Buchstaben

werden als Charakter-

Variablen eingelesen.

• Felder mit Zahlen werden

als Numerische Variablen

eingelesen.

Page 22: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

22 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Menüführung im Rcmdr

• Skripte aus dem

Skriptfenster, die

später noch benötigt

werden, können

gespeichert werden.

• Gespeicherte Skripte

können geöffnet

werden.

• Bsp: Skript zur PCS

im Ordner „user“.

Ergebnisse im

Ausgabefenster können

gespeichert werden.

• Daten können im R-Format gespeichert werden (*.Rdata).

• Eine Datendatei kann mehrere Datenmatrizen enthalten.

• Eine einzelne Datenmatrix wird besser unter Datenmanagement

gespeichert (s. Folie 25).

Page 23: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

23 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Menüführung im Rcmdr

Grundsätzlich können alle drei Fenster des Rcmdr wie mit jedem Editor

bearbeitet werden. Alle üblichen Strg-Funktionen sind möglich.

Page 24: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

24 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Menüführung im Rcmdr

Eine Datenmatrix im *RData Format

kann neu erstellt oder eine bereits

gespeicherte Datei (mit mehreren

Matrizen) oder Matrix kann geladen

werden.

Merge data sets aggregiert mehrere

Matrizen zu einer Matrix. Dieses Feld

ist nur aktiv, wenn auch mehrere

Matrizen geladen sind.

Hier befinden sich alle Operationen,

die mit der gesamten Datenmatrix

durchgeführt werden können.

Hier befinden sich alle Operationen,

die mit einzelnen Variablen

durchgeführt werden können.

Page 25: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

25 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Menüführung im Rcmdr

Für bestimmte Verfahren

(z. B. die PCA) ist es

notwendig, Teilmengen

zu bilden.

Teilmengen können mit oder ohne Anweisung erfolgen.

Nützliche Operatoren sind: >, <, ==, etc, (siehe nächste Folie!)

Speichern oder

exportieren einer

einzelnen Matrix (vgl.

Folie 22)

Page 26: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

26 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Operatoren in R

Quelle:http://www.statmethods.net/

Quelle:http://www.statmethods.net/

Page 27: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

27 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Aktive Datenmatrix/Teilmenge der aktiven Datenmatrix

Page 28: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

28 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Merge data set

Über das Skript können so sehr viele

Datenmatrizen sehr schnell aggregiert werden,

Bspw:.

MergedDataset <- mergeRows(Datenmatrix1,

Datenmatrix2, common.only=FALSE)

MergedDataset <- mergeRows(MergedDataset,

Datenmatrix3, common.only=FALSE)

MergedDataset <- mergeRows(MergedDataset,

Datenmatrix4, common.only=FALSE)

usw.

Zwei oder mehrere

Matrizen zu einer

Matrix

zusammenführen

Page 29: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

29 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Aktive Datenmatrix/Aggregate variables in aktive data set

Die Aggregationsregeln

können mittels der

Operatoren individuell

festgelegt werden.

Page 30: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

30 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Aktive Datenmatrix/Variablen übereinander platzieren

• Variablen können so

transponiert werden.

• Variablennamen werden

so zu Faktoren.

Page 31: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

31 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Menüführung im Rcmdr

Auf den nachfolgende Folien sind die wichtigsten Befehle erläutert. Auswahl des

entsprechenden Menüpunktes ist im Folientitel sichtbar.

Page 32: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

32 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Variablen bearbeiten/Rekodiere Variable

Achtung, mit diesem Haken

entscheiden Sie, ob die

Variable metrisch bleibt, oder

zum Faktor wird.

Wenn Items bei einer

Stapelskalierung im

Fragebogen negativ und

positiv formuliert sind, ist

eine Recodierung

erforderlich, da sonst z. B.

eine Mittelwertbildung keinen

Sinn macht.

Page 33: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

33 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Variablen bearbeiten/Erzeuge neue Variable

Hier wird deutlich, welche

Vorteile eine fortlaufende

Nummerierung der

Variablen hat.

Skriptbefehle können

einfach kopiert und für

andere Operationen

abgeändert werden.

Page 34: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

34 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Variablen bearbeiten/Konvertiere numerische Variablen in Faktoren

Liegen nominale

Daten in metrischer

(numerischer) Form

vor, dann sind diese

Daten in Faktoren zu

konvertieren.

Page 35: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

35 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Variablen bearbeiten/Konvertiere numerische Variablen in Faktoren

• Sollten die Daten in

numerischer Form

nicht mehr benötigen

werden, kann die

Variable

überschreiben

werden.

• Alternativ wird die

Variable neu benannt.

Datenmatrix$Geschlecht <- factor(Datenmatrix$Geschlecht, labels=c('männlich','weiblich'))

Dazugehöriger Skriptbefehl im

Skriptfenster.

Page 36: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

36 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Variablen bearbeiten/Gruppiere nummerische Variable

Page 37: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

Datenhandling und Einstieg in die Analyse mit R

Skripbefehl in R:

cut(x, breaks, labels = NULL, include.lowest = FALSE,

right = TRUE, dig.lab = 3, ordered_results = FALSE)

x - Umzuwandelnder numerischer Wert

breaks - Entweder einzelner Integer mit Anzahl der gewünschten Intervalle oder

ein numerischer Vektor mit den gewünschten Intervallgrenzen

labels - Labels für die Ausprägungen des Ergebnisvektors

include.lowest - Logischer Wert der steuert, ob ein Wert auf einer offenen

Intervallgrenze mit hinzugezählt werden soll oder nicht

right - Logischer Wert, der steuert, ob Intervalle rechts geschlossen und links

offen sein sollen

dig.lab - Anzahl Dezimalstellen für berechnete Faktorlabels (wenn labels nicht

gesetzt wird)

ordered_results - Logischer Wert der steuert, ob das Ergebnis ordinaler Faktor ist

(Danke an Joachim Schwarz für die Recherche des Befehls)

Festlegung individueller Intervallgrenzen über das Skriptfenster

37 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Page 38: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

Datenhandling und Einstieg in die Analyse mit R

Beispiel:

Datenmatrix$Altergruppe2 <- cut(Datenmatrix$Var2,

breaks=c(0,20,30,40,50,60), ordered_results = TRUE)

Festlegung individueller Intervallgrenzen über das Skriptfenster

38 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Page 39: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

39 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Variablen bearbeiten/Variablen umbenennen und löschen

• Es können beliebig viele

Variablen umbenannt

werden.

• Alternativ kann die

Variable auch über den

Button „Datenmatrix

bearbeiten“ umbenannt

werden (s. Folie 21).

Page 40: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

40 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Deskriptive Statistik

Deskriptive Statistik

aller Variablen der

aktiven Datenmatrix.

Gute

Kontrollmöglichkeit, ob

Daten im richtigen Typ

und ohne Eingabefehler

vorhanden sind.

Page 41: Datenhandling und Einstieg in die Analyse mit R - fom.de · Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik ... Matching (Propensity Score

Kontakt

3. Februar 2014

Stellvertretender Direktor

Prof. Dr. Oliver Gansser

[email protected]

Kontakt

ifes Institut für Empirie & Statistik

Standort München

FOM Hochschule für Oekonomie & Management

Hopfenstraße 4 | 80335 München

Telefon 089 202452-23 | Fax 089 202452-29 | Web www.fom-ifes.de

Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 41