47
Fak. Elektrotechnik & Informationstechnik Institut für Automatisierungstechnik Professur für Prozessleittechnik Statistische Methoden MMST-1 Beschreibung der Stichprobe VL MMS Wintersemester 2011 Professur für Prozessleittechnik L. Urbas, J. Ziegler

Statistische Methoden MMST-1 Beschreibung der Stichprobe · Fak. Elektrotechnik & Informationstechnik Institut für Automatisierungstechnik Professur für Prozessleittechnik Statistische

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik

Statistische Methoden MMST-1Beschreibung der Stichprobe

VL MMSWintersemester 2011Professur für Prozessleittechnik

L. Urbas, J. Ziegler

Evaluation mittels Stichprobe

14.12.2010 MMST (c) Urbas 2010 2

Stichproben-ziehung

BeschreibendeStatistik

Population Stichprobenmitglieder

Inferenz-statistischer

Schluss

Übersicht deskriptive Statistik

• Typen von Messgrößen, Skalenniveaus– Nominal, Ordinal, Reell (Interval,Verhältnis,Absolut)

• Tabellarische & grafische Analyse– Häufigkeitsverteilung diskreter Daten– Empirische Verteilungsfunktion– Klassifizierung/Kategorisierung stetiger Daten

• Verteilungsmaße– zentrale Tendenz, Streuung, Schiefe

• Standardisierung– Z-Standardisierung, Standardisierte Mittelwertsdifferenz

• Korrelation zweier intervallskalierter Merkmale

14.12.2010 MMST (c) Urbas 2010 3

Rechenbeispiele in R

• R is a system for statistical computation and graphics. It consists of a language plus a run-time environment with graphics, a debugger, access to certain system functions, and the ability to run programs stored in script files.

• R has a home page at http://www.R-project.org/. It is free software distributed under a GNU-style copyleft, and an official part of the GNU project (“GNU S”).

14.12.2010 MMST (c) Urbas 2010 4

Einführung

• Messreihe (Stichprobe, Datensatz)X1, X2, …, Xn

n: Stichprobenumfang

• Beschreibende Statistik:– Übersichtliche Darstellung von Eigenschaften der

Messreihe

• Explorative Statistik:– Auffinden von unbekannten Strukturen der Messreihe

14.12.2010 5MMST (c) Urbas 2010

Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik

Typen von Messgrößen / Skalen

14.12.2010MMST (c) Urbas 2010 6

Typen von Messgrößen (Skalen)

• Anzahl der auftretenden Ausprägungen xi– Endlich oder abzählbar unendlich: diskret– Alle Werte x eines Intervalls: stetig

• Struktur des Wertebereichs– Abstandbegriff vorhanden?– Ordnungsbegriff vorhanden?

Abstand? Ordnung? Beispiel

Reell Ja Ja Temperatur [K]

Ordinal Nein Ja Schulnote 1..6

Zirkulär Ja Nein Uhrzeit

Nominal Nein Nein Studiengang

14.12.2010 7MMST (c) Urbas 2010

Reelle Messgrößen

• Intervallskala– Nullpunkt & Maßeinheit nicht eindeutig festgelegt– Lineartransformation zwischen Intervallskalen:– Beispiele:

• Temperatur in Celsius/Fahrenheit, Kalenderzeit

• Verhältnisskala– Fester Nullpunkt– Proportionale Transformation zw. Verhältnissk.:– Beispiele:

• Länge, Masse, Dauer, Winkel, Preise, Temperatur in K

• Absolutskala– Einheit festgelegt: Häufigkeit, Anzahl Personen/Hörsaal

14.12.2010 8MMST (c) Urbas 2010

xbby 10 +=

0; 11 >= bxby

Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik

Tabellarische & grafische Analyse

14.12.2010MMST (c) Urbas 2010 9

Häufigkeitsverteilung diskreter Daten

14.12.2010 MMST (c) Urbas 2010 10

• Beispiel: Beobachtung eines Operators über 14 Tage– Aufzeichnung der Fehler/Tag– Urliste Häufigkeitstabelle

UrlisteBeobachtungs-

tagAnzahl Fehler

xi

1 12 23 04 25 06 17 38 29 4

10 211 112 013 214 1

Nummerische Häufigkeitstabelle

Anzahl Fehler xi

Anzahl Tage n(xi)=ni

Anteil der Tage h(xi)=hi

Kummulierte absolute

Häufigkeit Ni

Kummulierte relative

Häufigkeit Fi

0 3 0,21 3 0,211 4 0,29 7 0,502 5 0,36 12 0,863 1 0,07 13 0,934 1 0,07 14 1,00

Summe 14 1

Häufigkeit der MerkmalsausprägungStab/Balkendiagramm

01

23

45

xi

n i

0 1 2 3 4 0 1 2 3 4

xin i

01

23

45

14.12.2010 MMST (c) Urbas 2010 11

Empirische Verteilungsfunktion

•Kummulierte relative Häufigkeit / relative Summenhäufigkeit

•Empirische Verteilungsfkt.

14.12.2010 MMST (c) Urbas 2010 12

-1 0 1 2 3 4 50.

00.

20.

40.

60.

81.

0

ecdf(x)

x

Fn(

x)

R:

• Häufigkeitstabelle, H.verteilung, empirische Verteilungsfkt.

• Was tun, wenn eine realisierbare Merkmalsausprägung nichtin den beobachteten vorkommt?

14.12.2010 MMST (c) Urbas 2010 13

Häufigkeitsverteilung stetiger, mindestens intervallskalierter Merkmale•Häufigkeitstabelle

–Aufteilung in k disjunkte Klassen

• √n•

–Tabellieren: Anzahl der Punkte der Messreihe, die in einer Klasse liegen

•Beispiel: Verkehrstote in UK 1969-1984

14.12.2010 14MMST (c) Urbas 2010

Verteilungsarten

• Symetrie– Symetrisch (Körpergröße) – Asymetrisch (Einkommen)

• Modalität– unimodal (Einkommen BRD)– bimodal (Einkommen in Stadt mit Armenviertel)– multimodal

• Breite– Schmalgipflig (Laufzeiten Profis)– Breitgipflig (Laufzeiten untrainierte Personen)

• Schiefe– linkssteil(rechtsschief) : Streckenlänge mit Auto, Bier/PartyTN– rechtssteil(linksschief): Frage: WS dass GER gg. AUS gewinnt?

14.12.2010 MMST (c) Urbas 2010 15

Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik

Verteilungskennwerte

14.12.2010MMST (c) Urbas 2010 16

Verteilungskennwerte

• Kennzahlen sind häufig prägnanter als Grafiken• Vergleich von Verteilungen zweier Stichproben mit

dem Ziel statistische Entscheidungen zu treffen:– Zeigen zwei Gruppen (z.B. mit altem/neuem UI) im

Durchschnitt unterschiedliche Ausprägungen in einem abhängigen Merkmal (z.B. Leistung)?

• Maße der zentralen Tendenz (Mittelwerte)– Zentrum einer Verteilung

• Maße der Streuung (Dispersion)– Ausmaß an Unterschiedlichkeit in einer Verteilung

• Maße der Schiefe– Symetrie der Verteilung

14.12.2010 MMST (c) Urbas 2010 17

Maße für die zentrale Tendenz (1/2)

• Modus / Modalwert – Merkmalsausprägung xi, die am

häufigsten gemessen wird– Wenig aussagekräftig bei multimodalen Verteilungen,– Bereits für nominalskalierte Merkmale sinnvoll

• Median (50%-Wert, Zentralwert)– Der Wert xi für den gilt, dass 50% aller Werte größer

und 50% kleiner sind• N ungerade: ((N+1)/2)-ter Wert der geordneten Reihe• N ungerade : arith. Mittel (N/2)-ter, ((N+2)/2)-ter

– Mindestens ordinalskalierte Merkmale

14.12.2010 MMST (c) Urbas 2010 18

)(maxargmod xhxixx∈

=

Maße für die zentrale Tendenz (2/2)

• Arithmetisches Mittel („Durchschnitt“)

– Mindestens intervallskalierte Messwerte

• Eigenschaften– Summe der Abweichungen der Messwerte vom MW = 0– Summe der quadrierten Abweichungen = min– Lineare Transformation der Einzelwerte führt zu gleicher

Trafo bei arithm. Mittel

14.12.2010 MMST (c) Urbas 2010 19

∑=

=n

iix

nx

1

1

Beispiel: Fehler / Tag

• R hat keine Modus-Funktion – selbst definieren

• modus(x) : 2

• median(x) : 1.5

• mean(x) : 1.571

14.12.2010 MMST (c) Urbas 2010 20

Arithm. Mittel NICHT bei ordinalskaliertenDaten einsetzen!

• Wie würden Sie die Fachkompetenz der folgenden Politiker einschätzen?1=sehr niedrig, 2=eher hoch, 3=hoch, 4=sehr hoch

• mean(PA): 2.06, mean(PB): 2.03 – Für beide zwischen „eher hoch“ und „hoch“, obwohl PAs

Fachkompetenz von mehr als der Hälfte der Befragten als „sehr niedrig“ eingeschätzt wurde

• median(PA): 1, median(PB): 214.12.2010 MMST (c) Urbas 2010 21

Politiker 1 2 3 4

PA 16 3 6 6

PB 2 26 3 0

Arithm. Mittel und Ausreisser

• Beispiel: Monatliches Budget von 30 Studenten– 29 mit Finanzbudget zwischen 400 - 700 EUR,

Mittelwert ~ 550 EUR – Ein Student mit 5000 EUR

• Mittelwert über alle: 700 EUR– Optimale Repräsentation nach Kriterium der kleinsten

Quadrate, zur Schätzung der Einzelwerte jedoch nahezu nutzlos

• 29 Personen überschätzt, 1 Person drastisch unterschätzt

• Bessere Repräsentation durch Median– Unbeeinflusst von Ausreißer!

14.12.2010 MMST (c) Urbas 2010 22

Beschreibung der Streuung (1/2)mindestens ordinalskaliert

• Spannweite (Range)

– Informationsverlust bei Ausreissern

• Quartilabstand (Interquartilbereich)– Qdif = Q3-Q1=P75-P25

• Box-and-Whisker-Plot– Kombination Median, Interquartilbereich, Range– Ausreißer: z.B. mehr als eine Box-Breite

außerhalb Box (je nach Library)

14.12.2010 MMST (c) Urbas 2010 23

Beschreibung der Streuung (1/2)mindestens intervallskaliert

• Mittlere absolute Abweichung

• Stichprobenvarianz (mittl. quadratische Abweichung)

• Streuung (Standardabweichung)

14.12.2010 MMST (c) Urbas 2010 24

∑=

−=n

ii xx

nx

1MAD )(1

∑=

−=n

ii xx

ns

1

22 )(1

2ss =

Beschreibung der Streuung (2/2)mindestens intervallskaliert

• …• Stichprobenvarianz

• Schätzung der Varianz der Population aufgrund einer Stichprobe des Umfangs n

14.12.2010 MMST (c) Urbas 2010 25

∑=

−=n

ii xx

ns

1

22 )(1

∑=

−−

=n

ii xx

n 1

22 )(1

1σ̂ 22

1ˆ s

nn−

Interpretation

• Beispiel– Arithmetisches Mittel der Teilnehmer MMST: 176 cm– Mittlere durchschnittliche Abweichung: 9 cm

• Aufgabe: Schätze im voraus die Größe des nächsten Seminarteilnehmers der den Raum betritt:

– 176 cm: beste Prognose nach Kriterium kleinster Fehlerquadrate!

• Interpretation – MAD: Wir liegen fast immer falsch: Im Durchschnitt

werden wir uns um 9cm verschätzen– Streuung: Abweichung wird mit sich selbst gewichtet!

Maß für Unterschiedlichkeit der Werte der Stichprobe

14.12.2010 MMST (c) Urbas 2010 26

Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik

Standardisierung

14.12.2010MMST (c) Urbas 2010 27

Vergleich verschiedener Merkmale

• Beispiel: – Stichprobe Äpfel: xA=150g, sA=10g– Stichprobe Birnen: xB=180g, sB=10g

• Common Sense:– Ein Apfel mit 160g ist ein relativ schwerer Apfel– Eine Birne mit 170g ist eine relative leichte Birne

• Standardisierung?

14.12.2010 MMST (c) Urbas 2010 28

Z-Standardisierung

• Z-Wert: – Wie viele Standardabweichungen und in welche

Richtung weicht ein Messwert xi vom arithmetischen Mittel ab

• Lineartransformation:

• Form der Verteilung wird nicht verändert!• Für z gilt: mean(z): 0, sd(z)=1

14.12.2010 MMST (c) Urbas 2010 29

sxx

sxx

sz i

ii−

=−=1

01=−=

sxx

sz 11)( == s

szs

Standardisierte Mittelwertsdifferenz d

• Aufgabe: Vergleich von Mittelwertsdifferenzen aus unterschiedlichen Untersuchungen

• Effektstärke d– Um wieviele Standardabweichungen unterscheiden sich

zwei Mittelwerte?

• Gepoolte Standardabweichung

14.12.2010 MMST (c) Urbas 2010 30

pooled

BA xxdσ−

=

)1()1(ˆ)1(ˆ)1( 22

−+−−+−

=BA

BBAApooled nn

nn σσσ

Beispiel

• Fragestellung– Unterscheiden sich ältere Nutzer (Stichprobe A)

hinsichtlich ihrer Interaktion mit mobilen Geräten von jungen Nutzern (Stichprobe B).

• Klas sifikation von Cohen (1988)– |d| ~ 0.2: schwacher Effekt– |d| ~ 0.5: mittlerer Effekt– |d| ~ 0.8: starker Effekt

14.12.2010 MMST (c) Urbas 2010 31

Gruppe ØAlter x σ² N

A 40 37 144 51

B 20 33 121 71

Schiefe einer Verteilung

• Differenz arithm. Mittel – Median

– dif > 0: tendenziell linkssteil/rechtsschief– dif < 0: tendenziell rechtssteil/linksschief– dif ~ 0: tendenziell symetrisch

• Schiefe

14.12.2010 MMST (c) Urbas 2010 32

medxxdif −=

∑=

−=

n

i

i

xsxx

na

1

3

)()(1

Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik

Lineare Korrelations- und Regresssionsanalyse

14.12.2010MMST (c) Urbas 2010 33

Zusammenhangssaussagen

• MMST-Fragen lassen sich häufig als Zusammen-hangssaussagen (wenndann, jedesto) formulieren

• Beispiel 1: Mobile Interaktion ist für Kontext Instandhaltung sinnvoll

– Wenn ein mobiles Gerät genutzt wird, dann werden weniger Fehler gemacht

• Merkmal A: Mobiles Gerät vs. kein Mobiles Gerät • Merkmal B: Anzahl Fehler

– Wenn ein bestimmtes mobiles Gerät genutzt wird, dann werden deutlich weniger Fehler gemacht

• Merkmal A: verschiedene mobile Geräte• Merkmal B: Anzahl Fehler

14.12.2010 MMST (c) Urbas 2010 34

Zusammenhangssaussagen

• …• Beispiel 2: Selbstwirksamkeitsüberzeugung korreliert

mit Lerngeschwindigkeit – Je höher die Selbstwirksamkeitsüberzeugung, desto

schneller werden wenige bis keine Fehler gemacht• Merkmal A: Selbstwirksamkeitsüberzeugung• Merkmal B: Lerngeschwindigkeit

• In allen Beispielen werden Merkmale in Beziehung gesetzt

– Beispiel 1: nominal <-> intervall (nächste VL)– Beispiel 2: intervall <-> intervall

14.12.2010 MMST (c) Urbas 2010 35

Analysearten:

• Mittelwertvergleich:– Unterscheiden sich Gruppen hinsichtlich der

durchschnittlichen Ausprägung eines Merkmals?

• Zusammenhangsanalyse (Korrelationsanalyse):– Gehen hohe/niedrige Werte in einem Merkmal mit

hohen/niedrigen Werten eines anderen Merkmals einher?

• Regressionsanalyse:– Wie lässt sich ein Merkmal X aus einem korrelierten

Merkmal Y am besten vorhersagen? – Welche Transformation der x-Werte führt zu einer

möglichst präzise Schätzung der y-Werte?

14.12.2010 MMST (c) Urbas 2010 36

Streudiagramm

14.12.2010 MMST (c) Urbas 2010 37

DriversK

1000 1500 2000 2500 300 400 500 600 0.08 0.10 0.12 0.0 0.2 0.4 0.6 0.8 1.0

6012

018

0

1000

2000

drivers

front

400

800

1200

300

500

rear

kms

8000

1600

0

0.08

0.11

PetrolPr

VanKille

510

15

60 100 140 180

0.0

0.4

0.8

400 600 800 1000 8000 12000 16000 20000 5 10 15

law

Korrelationsrechnung

• Gesucht: Maß für Stärke eines linearen Zusammenhangs zwischen zwei Größen:

• Wie stark spiegeln sich Veränderungen in einem Merkmal in einem anderen wider?

• Ansätze:– ( Fechners Korrelationsindex rF )– Kovarianz (zentrales Produktmoment) COV– Pearsons Produkt-Moment-Korrelation r

14.12.2010 MMST (c) Urbas 2010 38

Fechners Korrelationsindex F

• Einfaches und anschauliches Maß– Abweichungsprodukt awp:

– k = Anzahl der Objekte mit awp >0– d = Anzahl der Objekte mit awp <0

• Interpretation:– F=-1 Nur gegengerichtete Objekte– F=0 Gleich/gegengerichtet gleich häufig– F=1 Nur gleichgerichtete Objekte

14.12.2010 MMST (c) Urbas 2010 39

Δx

Δy

dk

dkF nn

nnr+−

=

( )( ) iiiii yxyyxxawp ∆∆=−−=

d

d k

k

(Stichproben)Kovarianz

• Berücksichtigt auch Stärke der Abweichung vom Mittelwert pro Objekt:

– COV(x,y)<0 negativer linearer Zusammenhang– COV(x,y)~0 Kein Zusammenhang– COV(x,y)>0 positiver linearer Zusammenhang

• Wertebereich Kovarianz (Schwarz´sche Ungleichung)

14.12.2010 MMST (c) Urbas 2010 40

( )( ) yxyxn

yyxxn

syxCOVn

iiii

n

iixy ⋅−

=−−== ∑∑== 11

11),(

[ ] yxxyyxyx sssssssyxCOV ≤≤−≤≤ 222),(0

COV variant ggü. Lineartranformation!

• COV ist kein eindeutiges Zusammenhangsmaß (z.B. Änderung Maßeinheit)

• Beispiel: Gewicht (X) in kg, Größe in m

• COV(x,y) : 1.0267• Größe in cm COV(x,y) : 102,67• Allgemein:

p=b01+b11· x; q=b01+b12 · yCOV(p,q)=b11 · b12 · COV(x,y)

14.12.2010 MMST (c) Urbas 2010 41

65 75 91

1.70 1.77 1.93

1.70 1.80 1.90

6575

85

data$größe

data

$gew

icht

Pearsons Produkt-Moment-Korrelation r

• Standardisierung durch Produkt der Streuungen

• Invariant ggü. Lineartransformation• Wertebereich

– r = -1 : perfekt negativ linearer Zusammenhang– r ~ 0 : kein linearer Zusammenhang

(X,Y müssen dennoch nicht unabhängig sein!)– r =+1 : perfekt positiv linearer Zusammenhang

14.12.2010 MMST (c) Urbas 2010 42

yxssyxCOVr ),(

=

Effektstärke |r|

• Cohen (1988) gibt grobe Orientierung:– |r| ~ .1 : schacher Effekt – |r| ~ .3 : mittlerer Effekt – |r| ~ .5 : starker Effekt

• Vorsicht: Güte der Korrelation ≠ Stärke/Effekt– Bewerberauswahl

• Sei Korrelation Bewerbungsgespräch/Berufseignung: .1 • Alternative mit Korrelation .3 wäre „sehr gut“

– Pünktlichkeit von Zügen• Korrelation Ankunftszeit/Fahrplan .99 kann sehr schlecht

sein (Beispiel: )

14.12.2010 MMST (c) Urbas 2010 43

Lineare Regressionsanalyse

• X ist bekannt (Prädiktor)• Y soll möglichst präzise geschätzt werden (Kriterium)

• Einfache lineare Regressionsanalyse– Nur sinnvoll wenn X und Y korreliert sind– Es soll lineare Funktion gefunden werden, die

Zusammenhang zwischen X und Y optimal beschreibt

– Methode der kleinsten Quadrate:

14.12.2010 MMST (c) Urbas 2010 44

ii xbby ⋅+= 10ˆ

( ) ( )( ) minˆ),(QS1

!2

101

210Fehler ∑∑

==

=⋅+−=−=n

iii

n

iii xbbyyybb

Optimale Schätzung

• Regressionsgleichung nach Kriterium der kleinsten Quadrate liefert optimale Schätzung wenn:

14.12.2010 MMST (c) Urbas 2010 45

iii xxyxx

xyxyxbby

)VAR(),(COV

)VAR(),(COVˆ 10 +

−=⋅+=

Abschließende Hinweise

• Ergebnisse der hier berichteten Verfahren haben nur Gültigkeit für die Stichprobe

• Beispiel: Experiment mit 10 Pbd– UV: Gestaltungsalternative , AV: Leistung, r=0.3

• Falsch: – Gestaltung und Leistung korrelieren zu r =.3

• Richtig: – In dieser Untersuchung mit diesen Probanden

korrelieren Gestaltung und Leistung zu r =.3a. Wert für r wird sich in einer beliebigen anderen Gruppe nie

wieder zeigenb. Wert kann in anderer Gruppe auch höher sein

14.12.2010 MMST (c) Urbas 2010 46

Literaturhinweise

• Einführung in die StatistikWirtz, M., Nachtigall, Ch. (2006). . Juventa,

Weinheim.Bortz, J., Döring, N. (2006). .

Springer, Berlin.

• Einführung RDalgaard, P. (2008, 2nd. Ed). .

Springer, Berlin. http://www.biostat.ku.dk/~pd/ISwR.html.Adler, J. (2009). . O‘Reilly, Sebastopol(CA).

• Weiterführendes MaterialCohen, J. (1992). A power primer. , 112,

155-159.

14.12.2010 MMST (c) Urbas 2010 47