211
Statistische Datenanalyse und Versuchsplanung U. Römisch http:// www.lmtc.tu-berlin.de/angewandte_statistik_und_consulting Wahlpflicht für Studenten der Biotechnologie 2 SWS IV (VL/Ü/PR) Abschluss: Übungsnote

Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

  • Upload
    dangnga

  • View
    220

  • Download
    4

Embed Size (px)

Citation preview

Page 1: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Statistische Datenanalyse und Versuchsplanung

U. Römischhttp:// www.lmtc.tu-berlin.de/angewandte_statistik_und_consulting

Wahlpflicht für Studenten der Biotechnologie

2 SWS IV (VL/Ü/PR) ⇒ Abschluss: Übungsnote

Page 2: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

LITERATUR zur Lehrveranstaltung

„Statistische Datenanalyse und Versuchsplanung“

/1/ Autorenkollektiv (2004): Einführung in die Biometrie.

Richter , Ch.: 1- Grundbegriffe und DatenanalyseSumpf, D. und E. Moll: 2- Schätzen eines Parameters und Vergleich von bis zu

zwei ParameternSchumacher, E.: 3- Vergleich von mehr als zwei ParameternRasch, D. und R. Verdooren: 4- Grundlagen der Korrelations- und Regressionsanalyse.2. Aufl., Saphir- Verl. Ribbesbüttel

/2/ Bärlocher, F. (2008):Biostatistik.

2. Aufl., Thieme Verl. Stuttgart

/3/ Bortz, J., G. A. Lienert u. K. Boehnke (1990):Verteilungsfreie Methoden in der Biostatistik.Springer- Verl. Berlin

/4/ Fahrmeir, L., R. Künstler, I. Pigeot u. G. Tutz (2004):Statistik- Der Weg zur Datenanalyse.

5. Aufl., Springer- Verl. Berlin

Page 3: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

/5/ Hartung, J. u. a. (1989):Statistik. Lehr- und Handbuch der angewandten Statistik.

7. Aufl., Oldenbourg Verl. München

/6/ Klein, Bernd (2007):Versuchsplanung- DoE. Einführung in die Taguchi/Shainin- Methodik.

2. Aufl. Oldenbourg Verl. München

/7/ Kleppmann, W. (2006):Taschenbuch Versuchsplanung4. Auflage Hanser Verl. München

/8/ Rudolf, M. u. W. Kuhlisch (2008)Biostatistik- Eine Einführung für Biowissenschaftler.

Pearson Studium, München

/9/ Stahel, W. (1999):Statistische Datenanalyse - Eine Einführung für Naturwissenschaftler.

2. Aufl., Vieweg Verl. Braunschweig/ Wiesbaden

/10/ Timischl, W. (2000)Biostatistik- Eine Einführung für Biologen und Mediziner.

2. Aufl., Springer Verl. Berlin

Page 4: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Inhaltsverzeichnis

EINLEITUNG

1. Was versteht man unter Statistik, Biometrie, Chemometrie,

Ökonometrie und Technometrie und stat. Versuchs-

planung?

2. Wie lügt man mit Statistik?

Umfragen

Mittelwert- und Streuungsmaße

Grafiken

Page 5: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

1. Beschreibende und explorative Methoden

1.1 Charakterisierung von Merkmalen

1.2 Grundgesamtheit und Stichprobe

1.3 Die Häufigkeitsverteilung diskreter und stetiger eindim.

Merkmale

- absolute u. relative Häufigkeiten und ihre grafische

Darstellung, empirische Verteilungsfunktion

1.4 Lage- und Streuungsmaße, Schiefe und Exzeß

- arithm. Mittel, Median, gestutztes Mittel, Modalwert,

geometrisches Mittel, α- Quantil

Teil I: Statistische Datenanalyse

Page 6: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

- Spannweite, Medianabstand, Quartilsabstand, Varianz,

Standardabweichung, Standardfehler des arithm.

Mittelwertes, Variationskoeffizient, Box- und Whisker Plots

- zufällige und systematische Fehler

- Schiefe und Exzess

1.5. Zweidimensionale Merkmale

- grafische Darstellung (XY-Scatterplot)

- 2-dim. Häufigkeitsverteilung

- Zusammenhangsmaße (Maß- und Rangkorrelations-

koeffizient)

- lineare Regression (einf. und multiple lineare Regression)

Page 7: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

2. Wahrscheinlichkeitsrechnung

2.1 Zufälliges Ereignis, Wahrscheinlichkeit, Zufallsgröße

2.2 Parameter von Verteilungen (Erwartungswert u. Varianz)

2.3 Normalverteilung

2.4 Prüfverteilungen (χ2-, t- u. F- Verteilung)

3. Schließende Methoden

3.1 Punktschätzungen, Konfidenzintervalle

3.2 Statistische Tests

3.2 Varianzanalyse

Page 8: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

4. Einführung in die stat. Versuchsplanung

4.1 Arten statistischer Versuchspläne

- Faktorielle Versuchspläne 1. Ordnung 2k und 2k-1

- Zentral zusammengesetzte Versuchspläne

- Mischungspläne

4.2 Beispiele zu stat. Versuchsplänen

- Herstellung eines chemischen Produktes

- Entwicklung eines glutenfreien und ballaststoff-

angereicherten Gebäckes mit optimalen Eigenschaften

In einer Übung am PC werden mit einem Statistikprogramm

konkrete Datensätze ausgewertet.

Teil 2: Statistische Versuchsplanung

Page 9: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

EINLEITUNG

1. Was ist Statistik? (Biometrie, Technometrie, Ökonometrie)

Statistik ist die Wissenschaft des Sammelns, Analysierensund Interpretierens von Daten.

Sie beantwortet die Fragen:

1. Wie gewinnt man welche Daten?2. Wie kann man Daten beschreiben? und3. Welche Schlüsse kann man aus Daten ziehen?

Teilgebiete:

Beschreibende StatistikWahrscheinlichkeitstheorie Stat. DA

Stochastik Schließende Statistik Stat. VP

Page 10: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

2. Wie lügt man mit Statistik?

Bsp. 1: Wir leben im Zeitalter der Umfragen!

Bsp. 2: Mittelwert- und Streuungsmaße

Bsp. 3: Vorsicht bei Grafiken!

Page 11: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

1.Teil: Statistische Datenanalyse

s. /11/ Stahel

1. BeschreibendeMethoden

Page 12: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Die Beschreibende und explorative Statistik dient der Beschreibung, Strukturierung undVerdichtung umfangreichen Datenmaterials.

Wie erhält man nun Daten und welcher Art sind die Daten?

Erhebungen und Versuche

Ziel: Kenntnisse über die Eigenschaften bestimmter Objekte(z.B. Anlagen, Messmethoden, Weinproben, Hefestämme) oder Individuen (z.B. Personen, Tiere, Pflanzen) zu erhalten

• Erhebungen ⇒⇒⇒⇒ Ist-Standsanalysen

•••• Versuche ⇒⇒⇒⇒ - Vergleich von Gruppen

- Untersuchung von Zusammenhängen

zwischen Merkmalen

Page 13: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Die Objekte/ Individuen, an denen Beobachtungen vorge-nommen werden, heißen Beobachtungseinheiten(Merkmalsträger).Dabei ist kein Objekt/ Individuum mit einem anderen identisch. Diese Unterschiedlichkeit nennt man Variabilität. Die Variabilität biologischer Objekte/ Individuen ist häufig genetisch oder umweltbedingt.

- Die Größen oder Eigenschaften, auf die sich die Beobachtungen beziehen, heißen Merkmale.

- Jedes Objekt/ Individuum ist durch eine spezielle Merkmals-ausprägung gekennzeichnet.

- Alle beobachteten Werte eines Merkmals heißen Merkmalswerte.

1.1. Charakterisierung von Merkmalen

Page 14: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Merkmale

(Unterscheidung durch Art)

Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma

Klassifizierung von Merkmalen

(Unterscheidung durch Größe)

Bsp.: Alter, Gewicht, Masse, Länge, Volumen, Einkommen, Wasser- u. Lufttemperatur, Konzentration,Zellzahl

1.

2.

Diskrete Merkmale Stetige Merkmale

Merkmale

(endlich viele oder abzählbar unendlich viele Merkmalsausprägungen)

Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma, Zellzahl

(überabzählbar unendlich viele Aus-prägungen, d.h. Werte im reellen Zahlenintervall)

Bsp.: Alter, Gewicht, Masse, J

Qualitative Merkmale Quantitative Merkmale

Page 15: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Merkmale

Nominalskalierte Merkmale

OrdinalskalierteMerkmale

Metrisch skalierteMerkmale

3.

(Skala mit niedrigstemNiveau, keine Vergleichbarkeit oder Rangfolge zwischen den Werten)

Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma

(Skala mit höherem Niveau, Werte unter-scheiden sich in ihrer Intensität, ermöglichen eine Rangfolge-ordnung, jedoch keine Interpretation der Abstände zwischen den Rängen)

Bsp.: Aroma, Härtegrad,sensor. Parameter, Zensuren

(Skala mit höchstem Niveau, Abstände zwischen den Werten sind interpretierbar)

Bsp.: Alter, Gewicht, Masse, Länge, Volumen, Ein-kommen, Wasser- u. Lufttemperatur, Zell-zahl, Konzentration,

Intervallskala Proportions-skala

Page 16: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Daten kann man durch Befragung von Personen (Erhebungen)oder durch Experimente (Messungen) gewinnen.

Experimente

Passive Experimente Aktive Experimente

Alle Beobachtungswerte ergeben sich zufällig während des Versuches!

Aktive Planung der Experimente vor deren Durchführung, Planung der Versuchsbedingungen

Kombinierte Experimente

Anwendung der Methoden der statistischen

Versuchsplanung (SVP)!

1.2. Grundgesamtheit und Stichprobe

Page 17: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Problem

3 (4) Versuchsetappen:

Planung

Durchführung

Auswertung

Methoden der statistischen Versuchsplanung

Ziel: Erzielen von Ergebnissen mit ausreichender Sicherheit und Genauigkeit bei minimaler Anzahl von Versuchen

Page 18: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bsp.: Herstellung einer Chemikalie

Mittelwerte der Ausbeute mit Konfidenzintervall

68,887 (67,35,70,42)

68,012 (66,48,69,55)

61,813 (60,28,63,35)

62,387 (60,85,63,92)

56,112 (54,58,57,65)

55,387 (53,85,56,92)

53,287 (51,75,54,82)

54,012 (52,48,55,55)68,887 (67,35,70,42)

68,012 (66,48,69,55)

61,813 (60,28,63,35)

62,387 (60,85,63,92)

56,112 (54,58,57,65)

55,387 (53,85,56,92)

53,287 (51,75,54,82)

54,012 (52,48,55,55)Katalysator

Zeit Temperatur(- - -)

(+++)

Page 19: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Def.: Die Menge aller möglichen Werte eines Merkmals nennt man Grundgesamtheit.Eine endliche Teilmenge der Grundgesamtheit nennt man Stichprobe.Besteht die Teilmenge aus n Elementen, so heißt n Stichprobenumfang.

Def.: Der Gesamtheit der Merkmalswerte entspricht eindeutig eine Gesamtheit von Beobachtungseinheiten (Merkmalsträgern), die man ebenfalls als Grundgesamt-heit oder Population bezeichnet.

Die Grundgesamtheit muss bei jeder Aufgabenstellung festgelegt werden!

Eine Grundgesamtheit kann auch unendlich viele Elemente enthalten, denn theoretisch können wir den Versuch unendlich oft wiederholen.

Page 20: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Mathematische Statistik

Stichprobe Grundgesamtheit

Induktionsschluss

Deduktionsschluss

Beschreibende Statistik

Wahrscheinlichkeits-rechnung

SchließendeStatistik

Page 21: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Was ist bei einer Stichprobenentnahme zu

beachten?

Die Stichprobenauswahl muss so erfolgen, dass dieStichprobe die Grundgesamtheit repräsentiert!

1. Zufälligkeit der Stichprobe

2. Vermeiden systematischer Fehler

3. Umfang der Stichprobe

Optimaler Stichprobenumfang ist abhängig von :- zeitlichen, arbeitstechnischen und finanziellen Faktoren- Wahl des statistischen Modells- Genauigkeit der Ergebnisse- Umfang der Grundgesamtheit

4. Homogenität und gleiche Genauigkeit

5. Vergleichbarkeit

Page 22: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

1.3. Die Häufigkeitsverteilung diskreter und stetiger eindim. Merkmale

Bei einem Versuch wird an n Beobachtungseinheiten ein Merkmal X beobachtet, d.h. an jeder Einheit wird die Ausprägung dieses Merkmals festgestellt.

Sind a1,...,am die möglichen Ausprägungen des Merkmals X, so wird also der i-ten Beobachtungseinheit (i=1,...n) seine Ausprägung aj als Merkmalswert xi zugeordnet:

xi = aj (i)

BeobachtungseinheitAusprägung

Merkmalswert

Page 23: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Schritte der Datenerfassung und -aufbereitung:

1. Schritt: Erfassung der Daten eines oder mehrerer Merkmale

Stichprobe (ungeordnete Urliste): Merkmalswerte x1,...,xn

Variationsreihe (geordnete Urliste): x(1) ,...,x(n) ,

wobei x(1) ≤... ≤ x(n)

Skalierung der Ausprägungen: a1,J,am

Page 24: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

bnhnrnanlnn

JJJJJJ

b7 = 0,49h7 = 0,4r7 = 2a7 = 2l7 = 57

JJJJJJ

b1h1r1a1l11

Butandiolgehalt

B [g/l]

Histamingehalt

H [mg/l]

Rebsorte

R

Art

A

Land

L

Nr.

i

Bsp.: Weindaten

Skalierung:

Land:

li = 1 = „Deutschland“2 = „Bulgarien“3 = „Österreich“4 = „Frankreich“5 = „Australien“

Art:

ai = 1 = „Rotwein“2 = „Weißwein“3 = „Roséwein“

Rebsorte:

ri = 1 = „Cabernet Sauvignon“2 = „Chardonnay“3 = „Merlot“4 = „Riesling“

Page 25: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

2. Schritt: Ermittlung der abs. und rel. Häufigkeiten

2.1. (Primäre) Häufigkeitsverteilung (HV) bei diskreten

Merkmalen

Def.: Beobachtet man an n Beobachtungseinheiten ein Merkmal X, das in m Ausprägungen a1,...,am

vorkommt, so heißt

fn(aj) = "Anzahl der Fälle, in denen aj auftritt" für j=1,...,m absolute Häufigkeit der Ausprägung aj.

Bem.: - ΣΣΣΣ fn(aj) = n

- Die abs. Häufigkeiten hängen vom Stichproben-umfang n ab

Page 26: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Def.: Die relative Häufigkeit

hn(aj) = (1/n) fn(aj) für j=1,...,m

gibt den Anteil der Beobachtungseinheiten bezogen auf n an, die die Ausprägung aj haben.

Bem.: - ΣΣΣΣ hn(aj) = 1

- 0 ≤ hn(aj) ≤ 1

- Die Folge der relativen Häufigkeiten hn(a1),...,hn(am) heißt rel. Häufigkeitsverteilung des Merkmals X.

2.2. (Sekundäre) Häufigkeitsverteilung (HV) bei stetigen

Merkmalen (mit Klassenbildung)

- Da stetige Merkmale in sehr vielen Ausprägungen auftreten, fasst man verschiedene Ausprägungen in Klassen zusammen.

Page 27: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

- Man zerlegt das Intervall, in dem alle Beobachtungswerte

liegen in m Klassen: K1,...,Km mit Kj = (yj-1; yj] ; j=1,...,m

mit den Klassengrenzen: yj-1 und yj

und den Klassenmitten: xj = (yj-1+yj) /2

- Die Anzahl der Klassen wählt man häufig (oder 5 ≤ m ≤ 20), wobei n der Stichprobenumfang ist.

- Der Abstand d =yj - yj-1 für j=1,...,m heißt Klassenbreite.(äquidistante Klassen)

Bem.: Durch die Angabe der unteren Anfangsklassengrenze y0 und die Klassenbreite d oder durch y0, ym und m wird eine Klasseneinteilung eindeutig bestimmt.

nm ≤

Page 28: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Def.: Als absolute Klassenhäufigkeit bezeichnet man fn(xj) = "Anzahl der Beobachtungswerte in der j- ten

Klasse mit der Klassenmitte xj" (j=1,...,m)

Def.: Als relative Klassenhäufigkeit bezeichnet manhn(xj) = (1/n) · fn(xj)

Bem.: Die Folge der relativen Häufigkeiten hn(x1),...,hn(xm) heißt rel. Häufigkeitsverteilung des stet. Merkmals X.

Page 29: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

3. Schritt: Grafische Darstellungen

- Häufigkeitspolygon

erhält man durch Verbindung der End-punkte der Strecken des Stabdiagramms,

besonders zur Darstellung zeitlicher Verläufe geeignet, z.B.: monatliche Entwicklung der Arbeits-

losenzahlen

- Stabdiagramm (Strecken- oder Linien-

diagramm)

über jeder Ausprägung auf der Abszisse wird die zugehörige Häufigkeit als senkrechte Strecke abgetragen,

besonders für diskrete Merkmale geeignet,z.B.: Anzahl der Stillstände einer Anlage,

Aromastufen, Hefestämme, Schrotarten

hn(aj)

hn(aj)

aj

aj

a1...

a1...

Page 30: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

13%

17%

57%

13%

- Histogramm

Häufigkeiten werden als aneinanderstoßende Rechtecke dargestellt, deren Flächen proportional den Häufigkeiten sind,

besonders für stetige Merkmale geeignet

- Flächendiagramme, z.B.:

Kreisdiagramme

Häufigkeiten werden durch Flächen repräsentiert,

zur Strukturdarstellung geeignet,z.B.: Anzahl der Beschäftigten in ver-

schiedenen Wirtschaftszweigen,Wahlergebnisse

hn(xj)

xj

y0 y1 Jx1

Page 31: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

4. Schritt: Ermittlung der empirischen Verteilungsfunktion

4.1. (Primäre) Häufigkeitsverteilung bei diskreten

Merkmalen (ohne Klassenbildung)

Def.: Die absolute Summenhäufigkeit der j- ten Ausprägung aj ist die Anzahl der Beobachtungseinheiten, bei denen eine Ausprägung ≤ aj beobachtet wurde, d.h.

fn(a1) + ... + fn(aj) = ; j=1,...,m∑=

j

1kkn )a(f

Def.: Die relative Summenhäufigkeit der j- ten Ausprägung gibt den Anteil der Beobachtungseinheiten an, bei denen eine Ausprägung ≤ aj beobachtet wurde, d.h.

hn(a1) + ... + hn(aj) = ; j=1,J,m ∑=

j

1kkn )a(h

Page 32: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Durch die Folge der relativen Summenhäufigkeiten wird die empirische Verteilungsfunktion des Merkmals X bestimmt.

Def.: Die empirische Verteilungsfunktion des Merkmals X ist eine Funktion über dem Bereich der reellen Zahlen R

=<≤

<

= +=∑

m

1jj

j

1kkn

1

n

ax;1

m,...,1jaxa;)a(h

ax;0

)x(F

(x∈R)

Page 33: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bem.: Die empirische Verteilungsfunktion ist auf jedem Intervall [aj,aj+1) konstant und springt bei aj+1 um den Wert hn(aj+1) nach oben. Die erste Sprungstelle liegt bei der kleinsten, die letzte bei der größten beobachteten Merkmalsausprägung.

)x(Fn

x

1

hn(a1)

a1 a2

Ausprägungen

hn(a1)+ hn(a2)

Page 34: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

∑=

j

1kkn )x(f

∑=

j

1kkn )x(h

4.2. (Sekundäre) Häufigkeitsverteilung (HV) bei stetigen

Merkmalen (mit Klassenbildung)

Def.: Die absolute Klassensummenhäufigkeit der j- ten Klasse ist die Anzahl der Beobachtungswerte, die in einer Klasse mit einer Klassenmitte ≤ xj liegen, d.h.

Def.: Die relative Klassensummenhäufigkeit der j- ten Klasse gibt den Anteil der Beobachtungswerte an, die in einer Klasse mit der Klassenmitte ≤ xj liegen, d.h.

Durch die Folge der relativen Klassensummenhäufigkeiten wird die empirische Verteilungsfunktion von X bestimmt!

; j=1,...,mfn(x1) + ... + fn(xj) =

; j=1,...,mhn(x1) + ... + hn(xj) =

Page 35: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Def.: Die empirische Verteilungsfunktion des Merkmals X, deren Beobachtungswerte in Klassen vorliegen, hat folgende Gestalt:

=<≤

<

= +=∑

m

1jj

j

1kkn

1

n

xx;1

m,...,1jxxx;)x(h

xx;0

)x(F

Bem.: Die empirische Verteilungsfunktion an der Stelle x ist die Summe der relativen Häufigkeiten aller Klassen, deren Mitten xj ≤ x sind. Als Sprungstellen werden jetzt die Klassenmitten verwendet.

Page 36: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Kl.Nr. Kl.grenzen Kl.mitte abs.Häuf. rel.Häuf. abs.K.S.H. rel.K.S.H.j (yj-1 ; yj] xj fn(xj) hn(xj)

------------------------------------------------------------------------------------------------------0 (- ∞ ; 0] 1 (0 ; 0,25] 0,125 f1 h1 f1 h1

2 (0,25 ; 0,50] 0,375 f2 h2 f1+f2 h1+h2

M

7 (1,50 ; 1,75] 1,625 f7 h7 n 1(1,75 ; ∞)

Bsp.: Weindaten- stet. Merkmal Butandiolgehalt

Sekundäre Verteilungstabelle (y0 = 0 ; d = 0,25):

MMM

j=1,J.m

Page 37: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bem.: Die empirische Verteilungsfunktion ist auf jedem Intervall [xj,xj+1) konstant und springt bei xj+1 um den Wert hn(xj+1) nach oben. Die erste Sprungstelle liegt bei der kleinsten, die letzte bei der größten Klassenmitte.

)x(Fn

x

1

hn(x1)

x1 x2

Klassenmitten

hn(x1)+ hn(x2)

Page 38: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bsp.1: Kolonien von Mikroorganismen (s. /9/)

Aufgabe: Untersuchung der Eigenschaften von Mikro-organismen in der Luft

Versuch: Nährboden auf Agarplatte wurde 30 min. bei Zimmertemperatur offen im Raum stehen gelassen,nach Inkubation über 3 Tage waren 40 Pilz- bzw.Bakterienkolonien gewachsen, von denen derDurchmesser, die Antibiotikaresistenz, sowie dieFarbe bestimmt wurden.

1. Frage: Wie kann man die Verteilung der Merkmalebeschreiben?Unterscheiden sich die Verteilungen der Durch-messer zwischen den Kolonien unterschiedlicher Farbe?

Page 39: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

1. Schritt: Datenerfassung und Merkmalsklassifizierung

X: Durchmesser [mm] – quantitativ, stetig, metrisch skaliert

Y: Antibiotikaresistenz [-] – qualitativ, diskret, ordinal skaliertAusprägungen: 1- sehr sensitiv,

2- sensitiv,3- intermediär,4- resistent,5- sehr resistent

Z: Farbe [-] – qualitativ, diskret, nominal skaliertAusprägungen: 1- gelb,

2- weißlich,3- braun,4- orange,5- farblos,6- rosa,7- grün

Page 40: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

2. Schritt: Erfassung der Daten (Stichprobe)

grün

grün

braun

J

rosa

J

farblos

orange

orange

J

weißlich

J

gelb

gelb

Farbe zi

3

3

1

4

3

2

1

4

2

1

yicod

JJJJ

3sehr sensitiv10,138

JJJJ

6resistent4,234

5intermediär2,830

4sensitiv1,529

2resistent2,114

JJJJ

JJJJ

4sehr sensitiv0,228

7intermediär3,339

7intermediär4,240

1sensitiv4,12

1sehr sensitiv0,51

zicodResistenz yiDurchmesser xiNr. i

Page 41: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Frequency Tabulation for Durchmesser

--------------------------------------------------------------------------------

Lower Upper Relative Cumulative Cum. Rel.

Class Limit Limit Midpoint Frequency Frequency Frequency Frequency

--------------------------------------------------------------------------------

at or below 0,0 0 0,0000 0 0,0000

1 0,0 2,0 1,0 3 0,0750 3 0,0750

2 2,0 4,0 3,0 7 0,1750 10 0,2500

3 4,0 6,0 5,0 10 0,2500 20 0,5000

4 6,0 8,0 7,0 10 0,2500 30 0,7500

5 8,0 10,0 9,0 7 0,1750 37 0,9250

6 10,0 12,0 11,0 3 0,0750 40 1,0000

above 12,0 0 0,0000 40 1,0000

--------------------------------------------------------------------------------

Box-and-Whisker Plot

Durc

hm

ess

er

0

2

4

6

8

10

12

3. Schritt: Bestimmung der empir. Häufigkeitsverteilung

Merkmal X: Durchmesser

Histogram (rel. cumulative frequencies)

Durchmesser

perc

enta

ge [

%]

0 2 4 6 8 10 12

0

20

40

60

80

100

Histogram (abs. frequencies)

Durchmesser

frequency

0 2 4 6 8 10 12

0

2

4

6

8

10

Page 42: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Piechart for Antibiotikaresistenz

Antibiotikaresistenzintermediärresistentsehr resistentsehr sensitivsensitiv

20,00%

15,00%

10,00%32,50%

22,50%

Barchart for Antibiotikaresistenz

0

3

6

9

12

15

fre

qu

en

cy

intermediär resistent sehr resistentsehr sensitiv sensitiv

Merkmal Y: Antibiotikaresistenz (Ausprägungen hier nicht codiert!)Frequency Table for Antibiotikaresistenz

------------------------------------------------------------------------

Relative Cumulative Cum. Rel.

Class Value Frequency Frequency Frequency Frequency

------------------------------------------------------------------------

1 intermediär 8 0,2000 8 0,2000

2 resistent 6 0,1500 14 0,3500

3 sehr resistent 4 0,1000 18 0,4500

4 sehr sensitiv 13 0,3250 31 0,7750

5 sensitiv 9 0,2250 40 1,0000

------------------------------------------------------------------------

Kategorien weisen hier keine Ordnung auf!

Page 43: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Merkmal Y: Antibiotikaresistenz (Ausprägungen hier numerisch codiert!) Frequency Tabulation for Antibiotikaresistenz_1

--------------------------------------------------------------------------------

Lower Upper Relative Cumulative Cum. Rel.

Class Limit Limit Midpoint Frequency Frequency Frequency Frequency

--------------------------------------------------------------------------------

at or below 0,5 0 0,0000 0 0,0000

1 0,5 1,5 1,0 13 0,3250 13 0,3250

2 1,5 2,5 2,0 9 0,2250 22 0,5500

3 2,5 3,5 3,0 8 0,2000 30 0,7500

4 3,5 4,5 4,0 6 0,1500 36 0,9000

5 4,5 5,5 5,0 4 0,1000 40 1,0000

above 5,5 0 0,0000 40 1,0000

--------------------------------------------------------------------------------

Histogram

Antibiotikaresistenz_1

fre

qu

en

cy

0 1 2 3 4 5 60

3

6

9

12

15

Dot Diagram

0 1 2 3 4 5

Antibiotikaresistenz_1

0

13

Fre

quency

Ausprägungen

Ordnung zwischen den Kategorien

Page 44: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Piechart for Farbe

Farbebraunfarblosgelbgrünorangerosaweißlich

2,50%10,00%

32,50%

5,00%5,00%10,00%

35,00%

Frequency Table for Farbe

------------------------------------------------------------------------

Relative Cumulative Cum. Rel.

Class Value Frequency Frequency Frequency Frequency

------------------------------------------------------------------------

1 braun 1 0,0250 1 0,0250

2 farblos 4 0,1000 5 0,1250

3 gelb 13 0,3250 18 0,4500

4 grün 2 0,0500 20 0,5000

5 orange 2 0,0500 22 0,5500

6 rosa 4 0,1000 26 0,6500

7 weißlich 14 0,3500 40 1,0000

------------------------------------------------------------------------

Merkmal Z: Farbe (Ausprägungen hier nicht codiert!)

Barchart for Farbe

frequency

0

3

6

9

12

15

braunfarblos gelb grün orange rosaweißlich

Kategorien weisen keine Ordnung auf!

Page 45: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Histogram

Durchmesser der weißlichen Kolonien

pe

rce

nta

ge

0 2 4 6 8 10 120

5

10

15

20

25

30

Histogram

Durchmesser der gelben Kolonien

pe

rce

nta

ge

0 2 4 6 8 10 120

10

20

30

40

Histogram

Durchmesser der sonstigen Kolonien

pe

rce

nta

ge

-1 1 3 5 7 9 110

10

20

30

40

Vergleich der rel. Häufigkeitsverteilungen der Durchmesser zwischen den Kolonien unterschiedlicher Farbe

Page 46: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

1.4 Lage- und Streuungsmaße, Schiefe und Exzeß

1.4.1 Lagemaße

1. Mittelwertmaße

Mittelwertmaße geben an, wo sich das Zentrum einer Häufigkeitsverteilung befindet.

2. Frage: Wie kann man mittels statistischer Maßzahlen einen quantitativen Vergleich der Häufigkeitsverteilungen vornehmen? Wie unterscheiden sich die mittleren Durchmesserzwischen den Kolonien unterschiedlicher Farbe, wie stark streuen die Werte?

Page 47: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Arithmetischer Mittelwert

Seien x1, ... ,xn die Beobachtungswerte des Merkmals X

∑=

=n

1iix

n

1x

Vorteile: - der arithm. Mittelwert einer Stichprobe ist ein unverzerrter Schätzwert für den Mittelwert einernormalverteilten Grundgesamtheit und gut geeignet bei eingipfligen Häufigkeitsverteilungen

- alle Informationen der Stichprobe werden ausgeschöpft

Nachteile: - das arithm. Mittel ist unbrauchbar bei schiefen oder mehrgipfligen Verteilungen

- das arithm. Mittel ist nicht robust gegenüber Ausreißern

Page 48: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Median (Zentralwert)

- Der Median ist dadurch charakterisiert, dass jeweils 50 % der Beobachtungswerte einen Wert ≤ und 50 % einen Wert ≥ dem Median haben.

- Wir ordnen daher die Beobachtungswerte der Größe nach und erhalten die Variationsreihe x(1) , ... ,x(n) mit

x(1) ≤ ... ≤ x(n)

k2n

1k2n

für

für

;

;

2

xxx

x~ )1k()k(

)1k(

5,0 =

+=

+= +

+

Page 49: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Vorteile: - der Median ist auch bei asymmetrischen und mehrgipfligen Verteilungen verwendbar

- er ist zu bevorzugen bei nur wenigen Messwertenund auch bei ordinalskalierten Beobachtungs-merkmalen

- er ist robust gegenüber Ausreißern

Nachteile: - es werden nicht alle Informationen der Stichprobeausgeschöpft (nicht alle Messwerte gehen in die Berechnung des Medianes ein)

- bei normalverteilten Merkmalen hat er schlechtereSchätzeigenschaften als das arithm. Mittel

Page 50: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Gestutztes Mittel

- Wir ordnen wieder die Stichprobe der Größe nach und streichen dann die m untersten und die m obersten Merkmalswerte.

- Dann erhält man das (m/n) ·100 % - gestutzte Mittel, indem man das arithmetische Mittel aus den verbleibenden n - 2m Merkmalswerten bildet.

)x...x(m2n

1x )mn()1m(

n

m −+ ++−

=

• Vorteil: - das gestutzte Mittel ist robust gegenüber Aus-reißern und basiert im Vergleich zum Median auf einer größeren Anzahl von Werten

• Nachteil: - es besitzt bei Normalverteilung schlechtere Schätz-eigenschaften als das arithm. Mittel und schöpftnicht alle Informationen der Stichprobe aus

Page 51: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Modalwert (Dichtemittel, Modus)

Bei eingipfligen Verteilungen gibt das Dichtemittel die Ausprägung mit der größten Häufigkeit in der Messreihe an.

Bei klassierten Daten (stet. Merkmale) gibt es die Klassen-mitte der Klasse mit der größten Klassenhäufigkeit an.

fn (xmod) ≥ fn (aj) ∀aj j=1,...,m

Vorteile: - das Dichtemittel ist auch bei nominal- und ordinal-skalierten Merkmalen anwendbar

- bei mehrgipfligen Verteilungen gibt man neben dem Median auch die lokalen Dichtemittel an

- das Dichtemittel ist robust gegenüber AusreißernNachteile: - bei Normalverteilung hat das Dichtemittel

schlechtere Eigenschaften als das arithm. Mittel- nicht alle Beobachtungswerte gehen in die Berechnung des Dichtemittels ein

Page 52: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Geometrisches Mittel

- Sind die Merkmalswerte relative Änderungen (Zuwachsraten, Produktionssteigerungen), so wird das geometrische Mittel verwendet, da die Gesamtänderung nicht durch eine Summe, sondern durch ein Produkt beschrieben wird.

- Die Bezeichnung geom. Mittel ist ein Hinweis auf Zähl- oder Messdaten, die statt der arithm. eine geometr. Zahlenfolge bilden (z.B. bei Verdünnungsreihen).

- Es wird verwendet bei Zähldaten, von denen bekannt ist, dass sie durch multiplikative Wirkungen entstanden sind und deren Werte sehr unterschiedliche Größenordnungen aufweisen, sowie fast immer eine stark asymmetrische Häufigkeits-verteilung aufweisen (z.B. Keimzahlen in flüssigen Medien, wie Milch und Gülle).

- das geom. Mittel findet auch Anwendung bei logarithmischen Daten (z.B. Spektralanalyse)

Page 53: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

nn1g xxx ⋅⋅= K 1xg −

∑=

=n

1iig xlg

n

1xlg xlg xlg

g 10x =

ng AEx = 1x g −

1. Seien x1, ... ,xn Beobachtungswerte (rel. Änderungen, bez. auf 1 = 100%) mit xi ≥ 0 für i=1,...,n und r die durch-schnittliche Zuwachsrate.

und r =

2. Manche Analysenmethoden liefern die Logarithmen der gesuchten Gehalte (z.B. Spektralanalyse).

=

3. Wenn sich eine Anfangsmenge A in einer Zeiteinheit um eine konstante Zuwachsrate r erhöht, dann erhält man nach n Zeiteinheiten die Endmenge E: E = A(1+r)n

und r =

Es gibt folgende Möglichkeiten der Berechnung des geom.

Mittels und der durchschnittlichen Zuwachsrate:

Page 54: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bsp.: In einer best. Kultur erhöhte sich in 3 Tagen die Zahlder Bakterien pro Einheit von 100 auf 500. Wie groß ist die durchschnittliche tägliche Zunahme in [%]?

Lösung:

Bsp.: Bei 12 Milchproben wurden folgende Keimzahlen in [103]gemessen:5150 26900 285 265 4750 60900 1410 3950 2150 8250 30500 295Wie groß ist die mittlere Keimzahl?

Lösung:

Page 55: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bsp.: In einer best. Kultur erhöhte sich in 3 Tagen die Zahlder Bakterien pro Einheit von 100 auf 500. Wie groß ist die durchschnittliche tägliche Zunahme in [%]?

Lösung: %7171,01AE1xr ng ==−=−=

Bsp.: Bei 12 Milchproben wurden folgende Keimzahlen in [103]gemessen:5150 26900 285 265 4750 60900 1410 3950 2150 8250 30500 295Wie groß ist die mittlere Keimzahl?

Lösung: Da die Werte über mehrere Zehnerpotenzen schwanken, wird das geom. Mittel bestimmt.

(Im Vergleich: )

998.433.31010x 5358,6xlgg ===

083.067.12x =

Page 56: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

2. Weitere Lagemaße:

αααα - Quantil

Wir betrachten die Variationsreihe x (1) , ... ,x (n) . Dann sind αααα % der Merkmalswerte ≤ und (1- αααα) % der Merkmalswerte ≥ dem αααα - Quantil.

( )

( ) ( ) .Z.g

.Z.gkeine

n

n

falls

falls

,nk

),nint(k

;

;

2

xxx

x~ 1kk

1k

α⋅

α⋅

α⋅=

α⋅=

+= +

+

α

(int = ganzer Teil; g.Z.= ganze Zahl)

Wenn

Quartil

Quartil

oberes

unteres

Median

75,0

25,0

5,0

Page 57: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

1.4.2. Streuungsmaße

- Maße, die die Abweichung der Beobachtungswerte vom Zentrum einer Häufigkeitsverteilung beschreiben, heißen Streuungs- oder Dispersionsmaße.

- Kennt man Lage- und Streuungsmaße, hat man schon eine recht gute Vorstellung von der Häufigkeitsverteilung, ohne diese explizit zu kennen.

Page 58: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Spannweite (Range, Variationsbreite)

Sie ist das einfachste Streuungsmaß und gibt den Streu-bereich einer HV an, d.h. den Bereich, in dem alle Merkmals-werte liegen. Sei x(1), ... ,x(n) eine Variationsreihe, dann gilt:

R = x(n) - x(1) .

Vorteil: - Einfach zu bestimmendes Streuungsmaß, einfach interpretierbar

Nachteile: - R ist nicht robust gegenüber Ausreißern- R besitzt keine guten stat. Schätzeigenschaften, da außer den extremen Merkmalswerten alle anderen Werte unberücksichtigt bleiben.

Page 59: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Quartilsabstand (Interquartile range)

- Der Quartilsabstand gibt den Bereich zwischen oberem und unterem Quartil einer Messreihe an.

- Er enthält 50 % aller Merkmalswerte.

I = 25,075,0 x~x~ −

Vorteile: - I ist robust gegenüber Ausreißern- I ist anschaulich und besitzt bessere statistische Schätzeigenschaften als die Spannweite

Nachteil: - nicht alle Informationen der Stichprobe gehen in die Berechnung ein

Page 60: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

∑=

−=n

1i5,0i x~x

n

1d

Mittlere absolute Abweichung vom Median

Man wählt hier als Bezugsgröße für die Abweichung der Merkmalswerte vom Zentrum der Häufigkeitsverteilung den Median.

Vorteile: - d ist robust gegenüber Ausreißern- d ist gut geeignet bei schiefen Häufigkeits-verteilungen

Nachteil: - bei Normalverteilung ist die empir. Varianz das bessere Schätzmaß

Page 61: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

5,0i x~x − 5,0y~ 5,0i x~x −

Median der absoluten Abweichungen vom Median

) = yi = MAD = med (

Vor- und Nachteile: analog wie mittlere abs. Abweichung vom Median

Page 62: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Stichprobenvarianz und Standardabweichung

- Wir betrachten nun als Bezugsgröße für das Zentrum der HVdas arithmetische Mittel.

- Dann ist die Stichprobenvarianz die durchschnittliche quadratische Abweichung der Messwerte vom arithmetischen Mittelwert.

- Dabei wird jedoch durch den Faktor (n-1), d.h. die Anzahl der voneinander unabhängigen Abweichungen, genannt Freiheitsgrad, dividiert.

- Der Stichprobenumfang n sollte mindestens 6 betragen!

⋅−

=−−

= ∑∑==

2n

1i

2

i2

n

1ii

2 xnx1n

1)xx(

1n

1s

Page 63: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

)xn)x((1n

1)xx(

1n

1s 2

n

1i

2

i

n

1i

2i −

−=−

−= ∑∑

==

n

ssx =

sx ± s3x ⋅±

- Als Standardabweichung s bezeichnet man:

- Der Standardfehler des arithm. Mittelwertes bezieht sich auf den Stichprobenumfang:

Vorteile: - Die Varianz s2 hat die besten Schätzeigenschaften bei Normalverteilung

- Die Standardabweichung s hat die gleiche Dimension wie die Messwerte und der arithm. Mittelwert, man kann daher Intervalle der Form

bzw.

Nachteil: - s2 ist nicht robust gegenüber Ausreißern

angeben.

Page 64: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Vorteil: - v ist gut geeignet zum Vergleich von Streuungen von Beobachtungsreihen mit unterschiedlichemMittelwert

x

x

%]100[IxI

sv ⋅=

- Variationskoeffizient

Der Variationskoeffizient ist ein von

misst.maß, das das Verhältnis von s und

bereinigtes Streuungs-

Page 65: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Grafische Darstellung von Lage- und Streuungsmaßen:

Box & Whisker Plot(Enzymaktivitäten)

Median

25%-75% Min-Max

1 2 3 4 5 6 7 8

Mutanten

20

25

30

35

40

45

50

55

60

65

70

75

Enz

ym

konz

entr

atio

nen

1. Box- und Whisker Plot

Enzymaktivitäten von 8 Mutanten Vanadiumgehalt von Weinen

Multipler Box- Whisker Plot für Vanadium

Land

Va

na

diu

m

Median 25%-75% Non-Outlier Range

Weisswein

Cz

ech

Re

pu

blic

Hu

ng

ary

Ro

ma

nia

So

uth

Afr

ica

-1 ,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

2,5

3,0

Rotwein

Cz

ech

Re

pu

blic

Hu

ng

ary

Ro

ma

nia

So

uth

Afr

ica

Page 66: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Grafische Darstellung von Lage- und Streuungsmaßen:

Mittelwertplot (Enzymaktivitäten von Mutanten)

arithm. Mittelwert

MW + - 95%-iges Konfidenzintervall Extremwerte

1 2 3 4 5 6 7 8

Mutanten

20

25

30

35

40

45

50

55

60

65

70

75

Enzy

mko

nze

ntr

ation

en

2. Mittelwertplots

Enzymaktivitäten von 8 Mutanten

Mittelwertplot (Enzymaktivitäten)

arithm . MW Mean±0,95*SD

1 2 3 4 5 6 7 8

Mutanten

25

30

35

40

45

50

55

60

65

70

Enzy

mko

nze

ntr

ation

en

Page 67: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bsp.1: 40 Kolonien von Mikroorganismen

Mittelwertmaße:

Merkmal X: Durchmesser (metrisch)

4,2

6,0

7,7

6,0

Median

>

<

Vergleich

4,5linkssteilSonstigeKolonien (13)

6,0symmetrischWeißliche Kolonien (14)

7,1rechtssteilGelbe Kolonien (13)

5,9symmetrischAlle Kolonien (40)

Arithm. MWVerteilungsformStichprobe

Merkmal Y: Antibiotikaresistenz (ordinal)

Median: (sensitiv) (13 · „1“, 10 · „2“, 8 · „3“, 5 · „4“, 4 · „5“ )

Modalwert: D = 1 (sehr sensitiv)

Merkmal Z: Farbe (nominal)

Modalwert: D = 2 (weißlich ist die am häufigsten auftretende Farbe)

2x~ 5,0 =

Page 68: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

braunfarblosgelb grünorangerosaweißlich

Box-and-Whisker Plot

0

2

4

6

8

10

12

Du

rch

me

sse

r

Farbe

Streuungsmaße:

Merkmal X: Durchmesser

3,4

3,8

3,6

4,3

Quartils-abst.

9,9

8,0

11,4

11,7

Spann-weite

0,612,767,62Sonstige Kolonien (13)

0,452,747,50Weißliche Kolonien (14)

0,412,968,77Gelbe Kolonien (13)

0,502,958,71Alle Kolonien (40)

Var.

koeff.

Stand.

abw.VarianzStichprobe

Box-and-Whisker Plot

Du

rch

me

sse

r

Farbgruppe

gelb sonstige weißlich0

2

4

6

8

10

12

Page 69: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

1.4.3. Schiefe und Exzess

1. Schiefe

- Wenn der Median und der Modalwert vom arithmetischen Mittel abweichen, bezeichnet man eine Verteilung als schief.

- Man charakterisiert schiefe Verteilungen außerdem durch die Schiefe g1 als Maß für die Schiefheit und ihre Richtung.

- Echt schiefe Verteilungen liegen vor, wenn bei Vorliegen einer großen Anzahl von Beobachtungswerten und der Anwendung aller möglichen Transformation der Daten die Schiefheit der Verteilung bestehen bleibt.

- Keine echte Schiefe liegt vor, wenn man schiefe Verteilungen durch Transformationen (z.B. Logarithmieren) in symmetrische überführen kann.

Page 70: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bsp.: Auftreten log. Verteilungen bei:• Analyse sehr niedriger Gehalte (z.B. Spurenanalyse)• Merkmalen mit sehr großer Spannweite (mehrere

Zehnerpotenzen)• sehr großem Zufallsfehler (z.B. halbquantitative

Spektralanalyse)

∑∑

∑=

=

=

−=

−=

n

1i

3

i

n

1i

32i

n

1i

3i

1 s

xx

n

1

))xx(n

1(

)xx(n

1

g

mod5,0 xx~x == 0g1 =Eine HV ist symmetrisch, wenn und

Eine HV ist linksschief oder rechtssteil, wenn mod5,0 xx~x <<

und 0g1 <

Eine HV ist rechtsschief oder linkssteil, wenn mod5,0 xx~x >>und 0g1 >

Page 71: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

2. Exzeß und Kurtosis

- Mängel in den gewählten Versuchsbedingungen können zu einer Überhöhung (Streckung) oder Unterhöhung(Stauchung) der Häufigkeitsverteilung führen.Derartig verzerrte Verteilungen werden durch den Exzeß g2

charakterisiert. - Der Exzeß gibt an, ob das absolute Maximum der Häufigkeitsverteilung (bei annähernd gleicher Varianz) größer oder kleiner dem Maximum der Normalverteilungs-dichte ist.

3'g3s

xx

n

13

)xx(n

1

)xx(n

1

g 2

n

1i

4

i2n

1i

2i

n

1i

4i

2 −=−

−=−

−= ∑

∑=

=

=

g2‘ heißt Kurtosis.

Page 72: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Wenn g2 = 0 ⇒ Häufigkeitsverteilung entspricht der NV

Wenn g2 < 0 ⇒ abs. Häufigkeitsmaximum < Maximum der NV- Dichte (HV ist flachgipfliger), d.h. die Anzahl „größerer“ Abweichungen von ist geringer als bei der NV bei gleicher Varianz.

Wenn g2 > 0 ⇒ abs. Häufigkeitsmaximum > Maximum der NV- Dichte (HV ist steilgipfliger), d.h. die Anzahl „größerer“ Abweichungen von ist größer als bei der NV bei gleicher Varianz.

x

x

Page 73: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Als k- tes Moment bezeichnet man: ∑=

n

1i

k

ixn

1

und als k-tes zentriertes Moment: ∑=

−n

1i

ki )xx(

n

1

Bem.: Damit stellen der arithm. Mittelwert das 1. Moment und die empirische Varianz das 2. zentrierte Moment dar, während Schiefe und Exzeß auf dem 3. bzw. 4. zentrierten Moment basieren.

Page 74: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

- Bei vielen praktischen Problemen wirken Merkmale nicht nur einzeln, sondern auch im Komplex. Es interessiert dann der Zusammenhang zwischen zwei oder mehreren Merkmalen.

- Wir bezeichnen einen Komplex von Merkmalen auch als mehrdimensionales Merkmal (od. Merkmalsvektor) und schreiben: (X1,...,Xn), bzw. (X,Y) bei einem zwei-dimensionalen Merkmal.

1.5. Mehrdimensionale Merkmale

Page 75: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Beispiele:

1. X- Lagerzeit von Zuckerrüben (X- deterministische d.h.

Y- Saccharosegehalt von Zuckerrüben einstellbare Einflussgröße, Y- zufällige Zielgröße)

2. X- Körpermasse von Schweinen (X und Y - zufällige Größen,

Y- Körpergröße von Schweinen jede kann als Einfluss- bzw. Zielgröße betrachtet werden)

3. Prozess des Nass-Salzens von Hartkäse(X1,X2,X3 - determ.

X1- Natriumchloridgehalt im Salzbad Einflussgrößen,

X2- Temperatur des Salzbades Y1,Y2 - zufällige

X3- Salzdauer Zielgrößen)

Y1- Masseausbeute des Käses nach dem SalzenY2- Sensorischer Qualitätsparameter

WICHTIG: Erfassung aller für den zu untersuchenden Sach-verhalt (Produkt, Prozess) wesentlichen Merkmale!

Page 76: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

5 Fragestellungen sind von Interesse:

1. Welche Art von Merkmalen werden betrachtet?

(Klassifizierung, Einflussgröße einstellbar oder zufällig?)

2. Wie lassen sich zweidimensionale Merkmale grafisch

darstellen? (Punktwolke, Streudiagramm, XY- Scatterplot)

3. Wie sieht die Häufigkeitsverteilung (tabellarisch und

grafisch) eines zweidimensionalen Merkmals aus?

(2-dim. Häufigk.tabelle, Kontingenztafel, 3-dim. Histogramm)

4. Wie stark ist der Zusammenhang zwischen 2 Merkmalen

X und Y und welche Richtung hat er?

(Assoziations-, Kontingenz-, Maßkorrelations- oder Rangkorrelationskoeffizient)

5. In welcher Form lässt sich der Zusammenhang

darstellen?

(Kontingenztafel-, Varianz- u. Regressionsanalyse)

Page 77: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

zu 2.) Streudiagramm (XY- Scatterplot)

x

y

x

y

Rezipr. Transf.

1/x

y

Bsp.: Fallhöhe und Schwingungsfrequenz von Wasserfällen

annähernd linearer Zusammenhang

Hyperbel

Page 78: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

zu 3.) Häufigkeitsverteilung

Zur Darstellung von Häufigkeitsverteilungen dienen Häufigkeitstabellen (Vierfeldertafeln, Kontingenztafeln) und grafische Darstellungen durch zweidimensionale Histogrammeoder Polygone.

1. Fall:- Sei (X,Y) ein nominalskaliertes 2- dim. Merkmal mit je 2 Ausprägungen (aj,bk) j,k=1,2 (z.B.: ja/ nein, vorhanden, nicht

vorhanden)

Vierfeldertafel (2 x 2):

nf12+f22f11+f21Summe

f21+f22f22f21

f11+f12f12f11X vorhandennicht vorh.

nicht vorhandenvorhandenSumme

Y

Page 79: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bem.:

- Die absoluten Häufigkeiten fjk (j,k=1,2) im Innern der Tafelstellen die 2- dim. absolute Häufigkeitsverteilung dar. (analog: die relativen Häufigkeiten hjk = fjk/n stellen die 2-dim. relative Häufigkeitsverteilung dar).

- Die Randsummenhäufigkeiten (Zeilen- und Spalten-summen) stellen die entsprechenden 1- dim. Häufigkeits-verteilungen von X bzw. Y dar.

- Aus der zweidimensionalen Häufigkeitsverteilung kann man auf die eindimensionalen Häufigkeitsverteilungen schließen, es gilt aber nicht die Umkehrung!

Page 80: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bsp.: Untersuchung von 227 Ratten auf Milbenbefall der Spezies A und B

Vierfeldertafel (2x2):

227108119Summe

1608575

672344Spezies vorhanden B nicht vorhanden

nicht vorhandenvorhanden

SummeSpezies A

- Die Randsummen geben Aufschluss darüber, wie viele der Ratten eine der beiden Milben beherbergen bzw. nicht beher-bergen, unabhängig davon, ob die andere Spezies vorhanden ist oder nicht, d.h. sie geben die eindimensionalen Häufigkeits-verteilungen an.

Page 81: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Ergebnis:

- Die Chance, eine A- Milbe anzutreffen, ist bei den Ratten, bei denen schon B- Milben festgestellt wurden, größer als bei allen Ratten zusammengenommen, denn: nur auf etwa der Hälfte aller 227 Ratten kamen A- Milben vor (Randsumme 119), aber in der Teilmenge der 67 Ratten, die B- Milben beherbergen, befinden sich 44 Träger von A- Milben. Damit ist der Anteil der Träger von A- Milben unter den Trägern von B- Milben größer als in der Gesamtprobe!Umgekehrt gilt dasselbe.

- Zwischen dem A- Milbenbefall und dem B- Milbenbefall scheint also ein statistischer Zusammenhang zu bestehen.

Page 82: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

2. Fall:

- Sei (X,Y) ein ordinalskaliertes 2- dim. Merkmal, bei dem jede Komponente auf einer Rangskala gemessen wird, d.h. als Merkmalsausprägung eine Rangzahl hat.

- Vorliegen einer Tabelle der Rangzahlen (keine Häufigkeits-tabelle!)

Tabelle der Rangzahlen:

dn2dnR(yn)R(xn)n

...............

d12d1R(y1)R(x1)1

di2diR(yi)R(xi)i

- dabei ist di = R(xi) - R(yi) die Differenz der Rangzahlen deri- ten Komponente von X und Y

Page 83: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bsp.: Weinverkostung

Bei einer Weinverkostung sollen 8 Weinsorten hinsichtlich ihres Aromas in eine Rangordnung gebracht werden. 2 Prüfer sollen unabhängig voneinander die Sorten begutachten, wobei die Sorte mit dem schwächsten Aroma die Rangzahl 1 und die Sorte mit dem stärksten Aroma die Rangzahl 8 erhalten soll.

-275H8

134G7

167F6

011E5

-242D4

088C3

123B2

156A1

diPrüfer 2R(yi)

Prüfer 1 R(xi)

Sortei

Tabelle der Rangzahlen:

Page 84: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Ergebnis:

- Nur bei 2 Sorten gab es Übereinstimmung in der Bewertung, bei allen übrigen Sorten gab es Differenzen, die aber nicht mehr als 2 Rangzahlen betragen.

- Man kann einen statistischen Zusammenhang vermuten, denn je höher im allgemeinen die Rangzahl des 1. Prüfers ist, desto höher ist im allgemeinen auch die Rangzahl des 2. Prüfers.

- Die Weinsorten scheinen also Aromaunterschiede aufzuweisen und beide Prüfer waren in der Lage, diese zu erkennen.

Page 85: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

3. Fall:

- Sei (X,Y) ein nominal- oder ordinalskaliertes 2- dim. Merkmal, deren Ausprägungen (aj,bk) mit den absoluten Häufigkeiten fjk und den relativen Häufigkeiten hjk für j=1,...,l und k=1,...,m auftreten.

Kontingenztafel (l x m):

nf.m...f.2f.1Summe

fl .flmfl2fl1al

...............

f2.f2m...f22f21X a2

f1.f1m...f12f11a1

SummeYb1 b2 ... bm

Page 86: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bsp.: Untersuchung der Noten von 32 Studenten in Mathematik und Statistik (2 ordinalskalierte Merkmale)

Kontingenztafel (5 x 5):

Note

in

Statistik

Summe

5

4

3

2

1

32191651

311100

604200

16041020

500320

200011

Summe54321

Note in Mathematik

Page 87: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Ergebnis:

- Je besser im allgemeinen die Note in Mathematik ist, desto besser ist im allgemeinen auch die Note in Statistik und umgekehrt.

- Man kann also einen statistischen Zusammenhang zwischen den Noten vermuten, den man daran erkennt, dass die in der Nähe der Diagonalen gelegenen Felder der Kontingenztafel die höchsten absoluten Häufigkeitenaufweisen.

Page 88: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

4. Fall:

- Sei (X,Y) ein metrisch skaliertes 2- dim. Merkmal, für deren Komponenten X und Y eine Klasseneinteilung vorliegt

Häufigkeitstabelle (analog Kontingenztafel!) (l x m):

nf.m...f.2f.1Summe

fl⋅flmfl2fl1(xl-1;xl]

...............

f2.f2m...f22f21X (x1;x2]

f1.f1m...f12f11(x0;x1]

Summe(ym-1;ym] ...Y

(y1;y2](y0;y1]Klassen-grenzen

Bsp.: Untersuchung des Asche- und Kaliumgehaltes von Weinen

Page 89: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bsp.: Weindaten (3- dim.Histogramm)

2- dim. Histogramm (Weine aus Ungarn und Tschechien)

2- dim. Histogramm(Weine aus Ungarn und Tschechien)

Page 90: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

zu 4.) Zusammenhangsmaße

Vor.: X,Y zufällige Merkmale

Lin. Abhängigkeit → Maß-korrelationskoeff. von Bravais/ Pearson

Mon. Abhängigkeit → Rang-

korrelationskoeff. von Spearman

2- dim. Häufigkeitstabelle (Kontingenztafel)

metrisch skaliert

Rangkorrelationskoeff. von Spearman

(Tab. von Rangzahlen)

ordinalskaliert

Assoziationskoeff. von Cramér und Kontingenz-koeff. von Pearson

Kontingenztafelnominal- oder (und)

ordinalskaliert

Assoziationskoeff. von Cramér, Kontingenzkoeff.von Pearson

Vierfeldertafelnominalskaliert

ZusammenhangsmaßHäufigkeitsvert.Art der Merkmale

Page 91: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

1. Kontingenzkoeffizient C von Pearson:

- Sei (X,Y) ein 2- dim. , nominal- oder ordinalskaliertesdiskretes Merkmal, das in den Ausprägungen (aj, bk) für j = 1,Jl und k = 1,J,m mit den abs. Häufigkeiten fjk auftritt.

- Der Kontingenzkoeffizient ist ein Maß für die Stärke des stochastischen Zusammenhanges zwischen 2 diskreten Merkmalen.

nC

2

2

+χχ

=

∑∑= = ⋅⋅

⋅⋅

⋅−

=χl

1j

m

1k kj

2

kjjk

2

n

ff

n

fff

wobei

Page 92: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bem.: - Der Kontingenzkoeffizient C nimmt Werte im Intervall

( )( )m,lmin

1m,lminC0

−≤≤

0 ≤ C ≤ 0,707

an.

- Der maximale Wert von C (d.h. vollständige Kontingenz)ist von der Tafelgröße (Zeilen- bzw. Spaltenzahl l und m)abhängig und nähert sich für große l bzw. m gegen 1. ⇒⇒⇒⇒ besser: korrigierter Kontingenzkoeffizient von

Pearson Ccorr

- Für die Vierfeldertafel gilt:

kein Zusammenhang

vollst. Zusammenhang

Page 93: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bem.: - Der korrigierte Kontingenzkoeffizient Ccorr wird berechnet nach:

( )( ) 1m,lmin

m,lmin

nC

2

2

corr −⋅

+χχ

=

und es gilt nun: 0 ≤ Ccorr ≤ 1 ,

d.h. bei vollständiger Kontingenz wird immer der Wert 1 angenommen, unabhängig von der Größe der Kontingenztafel.

Page 94: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

2. Assoziationskoeffizient von Cramér (Cramér‘s V):

- Sei (X,Y) ein 2- dim. , nominal- oder ordinalskaliertesdiskretes Merkmal, das in den Ausprägungen (aj, bk) für j = 1,Jl und k = 1,J,m mit den abs. Häufigkeiten fjk auftritt.

- Der Assoziationskoeffizient ist ebenfalls ein Maß für dieStärke des stochastischen Zusammenhanges zwischen 2 diskreten Merkmalen.

( )( ) 1m,lminnV

2

−χ

=

∑∑= = ⋅⋅

⋅⋅

⋅−

=χl

1j

m

1k kj

2

kjjk

2

n

ff

n

fff

wobei

mit 0 ≤ V ≤ 1

kein Zusammenhangvollst. Zusammenhang

Page 95: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

3. Rangkorrelationskoeffizient rs von SPEARMAN:

- Sei (X,Y) ein 2- dim. , ordinal oder metrisch skaliertes Merkmal, bei dem jede Komponente Merkmalswerte mit einer eindeutigen Rangfolge hat (rangskaliert).

- Wir beobachten an den n Beobachtungseinheiten die Merkmalswerte (xi,yi) für i=1,...,n

- Wir ordnen nun jedem Beobachtungswert xi bzw. yi für i=1,...,n eine Rangzahl R(xi) bzw. R(yi) zu, wobei gilt:R(x(i)) = i für i=1,...,n und x(1) ≤ x(2) ≤ ... ≤ x(n)

- Tritt eine Ausprägung mehrfach auf („Bindungen“), so ordnet man diesen gleichen Werten als Rang das arithmetische Mittel der Ränge zu, die sie einnehmen.

- Bsp.: x(1)=2; x(2)=4; x(3) =4; x(4) =6; x(5) =9

→ R(x(1))=1; R(x(2))=2,5; R(x(3))=2,5; R(x(4))=4; R(x(5))=5

Page 96: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Formel für den Rangkorrelationskoeffizienten rs:

( ) ( )( ) ( ) ( )( )

( ) ( )( )( ) ( ) ( )( )( )∑∑

−⋅−

−⋅−= =

2

i

2

i

i

n

1ii

s

yRyRxRxR

yRyRxRxRr

( ) ( )

( )( ) ( )( ) ( )( ) ( )( )22

i

22

i

n

1iii

s

yRnyRxRnxR

)y(R)x(RnyRxR

r⋅−⋅⋅−

⋅⋅−

=∑∑

∑=

- Der Rangkorrelationskoeffizient ist ein Maß für die Stärke und Richtung eines monotonen stochastischen Zusammen-hanges zwischen 2 rangskalierten Merkmalen.

Page 97: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Wenn keine „Bindungen“ vorliegen, d.h. wenn xi ≠ xj für i ≠ j und yi ≠ yj für i ≠ j gilt:

( )1nn

d61r

2

n

1i

2

i

s −⋅

⋅−=

∑= , wobei ( ) ( )iii yRxRd −=

i=1,J,n

Bem.: Für den Rangkorrelationskoeffizienten gilt:

Wenn rs < 0 → neg. RangkorrelationWenn rs > 0 → pos. Rangkorrelation

-1 ≤ rs ≤ +1

|rs| = 1 , wenn X und Y monoton zusammenhängenrs = 1 , wenn die x- Ränge mit den y- Rängen

übereinstimmenrs = -1 , wenn die x- und y- Ränge genau

entgegengesetzte Rangfolgen ergeben.

Page 98: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bsp.: Aromaprüfung von 8 Weinsorten durch 2 Prüfer

Der Rangkorrelationskoeffizient von rs = 0,86 deutet auf einen recht starken, monoton wachsenden stochastischen Zusammenhang hin.

4. Maßkorrelationskoeffizient rXY von BRAVAIS- PEARSON:

- Sei (X,Y) ein metrisch skaliertes 2- dim. Merkmal, deren Merkmalswerte (xi,yi) , i=1,...,n, einen näherungsweise linearen Zusammenhang zwischen X und Y vermuten lassen.

- Wir beobachten an den n Beobachtungseinheiten die Merkmalswerte (xi,yi) für i=1,...,n

- Der Maßkorrelationskoeffizient ist ein Maß für die Stärke und Richtung eines linearen stochast. Zusammenhanges zwischen 2 metrisch skalierten Merkmalen.

Page 99: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Formel für den Maßkorrelationskoeffizienten rXY:

( ) ( )

( )( ) ( )( )∑∑

−⋅−−

−⋅−−= =

2

i

2

i

i

n

1ii

XY

yyxx)1n(

yyxx)1n(r

( )( ) ( )( )22

i22

i

n

1iii

XY

ynyxnx

yxnyx

r⋅−⋅⋅−

⋅⋅−

=∑∑

∑=

Page 100: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bem.: Für den Maßkorrelationskoeffizienten rXY gilt:

Wenn rXY < 0 → negative KorrelationWenn rXY > 0 → positive Korrelation

-1 ≤ rXY ≤ +1

|rXY| = 1 , wenn X und Y linear zusammenhängen

Wenn rXY = 0 → Unkorreliertheit zwischen X und YWenn rXY = 0 und (X,Y) 2- dim. normalverteilt

→ Unabhängigkeit zwischen X und Y

Der Korrelationskoeffizient ist nicht imstande, nichtlineare Zusammenhänge zwischen Merkmalen zu erkennen.

Man beachte Schein- und Unsinnkorrelationen!

Page 101: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bem.: Merkmale mit sehr schiefen Häufigkeitsverteilungen können mitunter auch einen Korrelationskoeffizienten nahe 0 haben, obwohl ein statistischer Zusammen-hang zwischen ihnen besteht.

B = rXY2 heißt Bestimmtheitsmaß. Es gibt den Anteil

der Variation der y- Werte an, der durch den linearen Zusammenhang zwischen X und Y bestimmt wird.

Bei der Untersuchung von linearen Abhängigkeiten zwischen mehr als 2 Merkmalen gibt es:- partielle Korrelationskoeffizienten,- multiple Korrelationskoeffizienten und - kanonische Korrelationskoeffizienten.

Page 102: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Zu 5.) Form der statistischen Abhängigkeit

- Sei (X,Y) ein metrisch skaliertes 2- dim. Merkmal mit den Merkmalswerten (xi,yi) für i=1,...,n.

- Es interessiert die Form der Abhängigkeit eines Merkmals Y(abhängiges Merkmal, Zielgröße, Regressand) von einem Merkmal X (unabh. Merkmal, Einflussgröße, Regressor).

- Alle kontrollierbaren Einflussgrößen werden konstant gehalten.

- Wir beschränken uns auf den Fall des Modells I der einfachen linearen Regression (1Einflussgröße, lineare Abhängigkeit).

Vor.: Y zuf. Merkmal,

→ RM I X

zuf. Merkmal

zuf. Merkmal, mit kleinem Fehler messbar

einstellbares Merkmal

→ RM II

Page 103: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Streudiagramm (XY- Scatterplot) →

Annahme eines linearen Modells für die Abhängigkeit zwischen X und Y in der Grundgesamtheit:

y = β0 + β1 x, genannt lineare Regressionsgleichung.

Dann gilt für die zuf. Beobachtungen der Zielgröße:Yi = β0 + β1 xi + εi i=1,J,n

Zufallsfehler,wobei εi unabhängig und identischverteilt mit Eεi =0 und D2εi = σ2

und σ2 unabhängig von den Messpunkten xi

Bem.: Wenn εi ~ N(0, σ2) → bei RM I : Yi~ N(β0 + β1 xi, σ

2)bzw. Y~ N(β0 + β1 x, σ2)

Page 104: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Regressionsanalyse:

1. Schätzung der empirischen linearen Regressionsgleichung(Ausgleichsgerade) nach der Methode der kleinsten Quadrate (MkQ, LS):

( ) ( )( )∑ ∑= =

→ε=⋅β+β−=ββn

1i

n

1i

2

i

2

i10i10 minn

1xY

n

1,Q

Die Werte von β0 und β1, für die Q(β0, β1) ihr Minimum annimmt, nennt man Kleinste-Quadrate-Schätzer . 10

ˆundˆ ββ

Zuf. Beobachtungswerte Modellwerte

Residuen

Durch Nullsetzen der partiellen Ableitungen von Q nach β0

und β1 erhält man ein Normalgleichungssystem, das zu lösen ist.

Page 105: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bem.:

( ) ( )

( ) X

XYn

1i

2

i

i

n

1ii

1 SQ

SP

xx

yyxxb =

−⋅−=

=

=

Die auf der Basis der konkreten Stichprobe ermittelten Schätzwerte für β0 und β1 bezeichnet man mit b0 und b1.

und xbyb 10 ⋅−=

→ geschätzte lineare Regressionsgleichung:

xbb)b,b(y 1010 ⋅+=

( ) ( ) XYi

n

1iiXY SP

1n

1yyxx

1n

1s ⋅

−=−⋅−

−= ∑

=

heißt Kovarianz zwischen X und Y und

( ) X

n

1i

2

i

2

X SQ1n

1xx

1n

1s ⋅

−=−

−= ∑

=

Varianz von X.

oder:X

YXY1 s

srb =

Page 106: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

2. Zeichnen der Regressionsgerade ins Streudiagramm:

x

yxbby 10 ⋅+=

yi

iy

0

b0

xi

Page 107: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

( ) ( )( )∑ ∑∑= ==

ε−

=⋅+−−

=−−

=n

1i

n

1i

2

i

2

i10i

n

1i

2

ii

2

R ˆ2n

1xbby

2n

1yy

2n

1s

R

2

R SQ2n

1s ⋅

−=

Restquadratsumme

3. Güte des Regressionsmodells- Beurteilung der Güte der Modellvorhersage für jeden Mess-wert mit Hilfe der geschätzten Residuen , i=1,J, n

- Maß für die Variation der Stichprobenwerte um die geschätzte Regressionsgerade: Restvarianz

geschätzte Residuen

iii yyˆ −=ε

- Streuungszerlegung (Zerlegung der Quadratsummen!):

( ) ( ) ( )∑ ∑∑= ==

−+−=−n

1i

n

1i

2

i

2

ii

n

1i

2

i yyyyyy

MRT SQSQSQ += durch den Modellzusammenhang erklärte „Streuung“

„Gesamtstreuung“ „Reststreuung“

FG

Page 108: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Erklärte Streuung: Darstellung der Variation der y- Werte, die auf den linearen Zusammenhang

SQM zwischen X und Y zurückzuführen ist, d.h. sie enthält die Variation der Werte

auf der Geraden um den Mittelwert .

Reststreuung: Verbleibender Rest der Variation der y-SQR Werte

Bem.: Liegen alle beobachteten Werte exakt auf einer Geraden, so sind die Residuen 0 und ebenso die Reststreuung. Dann ließe sich die gesamte Variation von Y durch den linearen Modellzusammenhang mit X erklären (funktionaler linearer Zusammenhang).

Je größer die Reststreuung ist, desto schlechterbeschreibt das Modell die Daten.

y

Page 109: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

- Als Maßzahl für die Güte der Modellanpassungverwendet man häufig das Bestimmtheitsmaß B. Es gibt den Anteil an der Gesamtstreuung der y- Werte an, der durch die Regression von Y auf X erklärt wird und ist der Quotient aus erklärter und Gesamtstreuung.

( )

( )

( )

( )∑

=

=

=

=

−−=

−==

n

1i

2

i

n

1i

2

ii

n

1i

2

i

n

1i

2

i

T

M

yy

yy1

yy

yy

SQ

SQB

0 ≤ B ≤ 1

B = rXY2

funktionaler linearer Zusammenhangkein linearer Zusammenhang

Für Vorhersagen sollte das Bestimmtheits-maß möglichst ≥ 0,8 sein!

Aber: B ist bei RM I vom Versuchsplan abhängig!

Page 110: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

- Tests zur Prüfung der Modelladäquatheit (F- Test der Varianzanalyse) und zur Prüfung der Modellparameter(t- Tests, Konfidenzintervalle) im Rahmen der schließenden Statistik

4. Residualanalyse

- Prüfen der Modellvoraussetzungen über den Zufallsfehler(ε ~ N(0, σ2) und σ2 unabhängig von den Messpunkten xi)

- Residualplots

iii yyˆ −=ε → normierte Residuenε

ε=

ˆ

ii s

ˆd

y y y

+3

-3

00 0

idealer Verlauf

d dd

ungleiche Varianzen

Ausreißer

3d i > →→→→ Ausreißer

Page 111: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

XY- Scatterplot (Lanthanum, Gadolinum)y = -0,7128 + ,91690 * x

Korrelationskoeffizient: r = 0,98136

-4 -3 -2 -1 0 1 2

Lanthanum

-5

-4

-3

-2

-1

0

1

Gad

olin

um

95% Konfigenzgrenzen

Bsp.: Weindaten, Abhängigkeit zwischen den seltenen Erden-Parametern Lanthanum und Gadolinum

Page 112: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Normierte Residuen

-5 -4 -3 -2 -1 0 1

Geschätzte Werte für Gadolinum

-1,4

-1,2

-1,0

-0,8

-0,6

-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

1,2N

orm

iert

e R

esid

uen

Page 113: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Geschätzte gegen beobachtete Werte (Gadolinum)

-5 -4 -3 -2 -1 0 1

Geschätzte Werte

-5

-4

-3

-2

-1

0

1B

eoba

chte

te W

erte

95% Konfidenzgrenzen

Page 114: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bsp.: Weindaten (Matrix Plot)

Matrix Plot (Histogramm und Scatterplot)für Alkalinität, Asche und Kalium (transformiert)

Alkalinität

Asche

Kalium

Page 115: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

2. Wahrscheinlichkeits-rechnung

/11/ Stahel, W. (1995)

Die Wahrscheinlichkeitsrechnung liefert mathematische Modelle für Zufallserscheinungen.

Page 116: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Es werden Experimente betrachtet, deren Ergebnisse einenzufälligen Ausgang haben, so genannte zufällige Versuche.

2.1. Zufälliges Ereignis, Wahrscheinlichkeit, Zufallsgröße

Begriffe und Definitionen:

Def.: Ein zufälliges Ereignis ist ein Ereignis, das bei einem Versuch, bei dem bestimmte Bedingungen eingehalten werden, eintreten kann, aber nicht notwendig eintreten muss. Es ist das Ergebnis eines zufälligen Versuches.

Bez.: A,B,C,...,A1,B1,...

Page 117: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bsp. 1: Würfeln mit einem idealen Würfel und Beobachtung der geworfenen Augenzahl (zuf. Versuch)

• zufällige Ereignisse sind:

• Ai := "Augenzahl i wird gewürfelt, i=1,...,6 ",

• aber auch: A7:= "Eine gerade Augenzahl wird gewürfelt"

Begriffe: - Elementarereignis:

Elementarereignisse lassen sich nicht weiter in zufällige Ereignisse zerlegen.

Bez.: ei ; i=1,...,n

Bsp.1: ei := "Würfeln der Augenzahl i, i=1,...,6 "

Page 118: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

- Zusammengesetzte Ereignisse:

lassen sich weiter in zufällige Ereignisse zerlegen.Bez.: Ai, Bi,... ; i=1,...,n

Bsp.1: A7 := "Würfeln einer geraden Zahl"= e2,e4,e6

Def.: Die Menge E (oder: Ω) heißt Menge der zu einem zufälligen Versuch gehörenden Elementarereignisse, wenn jedem Versuchsausgang genau ein Element dieser Menge E entspricht.

Bsp.1: E = e1,...,e6

⇒⇒⇒⇒ Schlussfolgerung: Methoden der Mengenlehre (Vereinigung, Durchschnitt, Differenz) sind anwendbar!

Page 119: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Def.: Ein zufälliges Ereignis A ist eine Teilmenge der Menge E der Elementarereignisse, d.h. .EA ⊆

Grenzfälle von zufälligen Ereignissen:

Def.: Sichere Ereignisse sind dadurch gekennzeichnet, dass sie immer eintreten. Sie bilden die Teilmenge von E, die alle Elementarereignisse enthält.

Bsp.1: E: = "Es wird eine Zahl zwischen 1 und 6 gewürfelt"= e1,...,e6

Def.: Unmögliche Ereignisse sind dadurch charakterisiert, dass sie nicht eintreten können. Sie sind die Teilmenge, die kein Elementarereignis enthält.

Bsp.1: Ø := "Es wird eine '0' gewürfelt!"

Page 120: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Relationen und Operationen zwischen zufälligen Ereignissen:

Def.: Ein zufälliges Ereignis A ist genau dann in dem zufälligen Ereignis B enthalten, wenn alle Elementar-ereignisse, die zu A gehören, auch zu B gehören.

Bez.:

Bsp.1: Würfeln mit 1 Würfel:

Bem.: Für ein beliebiges zufälliges Ereignis A gilt immer: Ø

Def.: Zwei zuf. Ereignisse A und B heißen äquivalent (gleich),wenn sowohl das Ereignis A in B enthalten ist ( ), als auch das Ereignis B in A enthalten ist .Bez.: A = B

BA ⊆

72 AA ⊆

EA ⊆⊆

BA ⊆

( )AB ⊆

Page 121: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Def.: Sind A und B zuf. Ereignisse, so verstehen wir unter der Summe von A und B (Vereinigung) das Ereignis, das genau die Elementarereignisse enthält, die zu A oder zu B gehören.

Bez.:

Bsp.1: Würfeln

Def.: Sind A und B zuf. Ereignisse, so verstehen wir unter dem Produkt von A und B (Durchschnitt) das Ereignis, das genau die Elementarereignisse enthält, die zu A und zu B gehören.

Bez.:

Bsp.1: Würfeln ∅

BA ∪

E

A B

642171 e,e,e,eAA =∪

BA ∩

=∩ 71 AA

E

A B

Page 122: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Def.: Zwei zufällige Ereignisse A und B heißen miteinander unvereinbar (unverträglich), wenn sie keine gemeinsamen Elementarereignisse besitzen.

Bez.: A ∩ B = ∅

Bsp.1: A1 ∩ A7= ∅

5,3,1A 7 =

Def.: Ist A ein zufälliges Ereignis, so nennen wir das Ereignis, das genau die Elementarereignisse enthält, die nicht zu A gehören, das zu A komplementäre Ereignis.

Bez.:

Bsp.1:

A

Page 123: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Def.: Sind A, B zufällige Ereignisse, so verstehen wir unter der Differenz von A und B das Ereignis, das genau die Elementarereignisse enthält, die zu A, aber nicht zu B gehören. (d.h. wenn A, aber nicht B eintritt!)

Bez.: A \ B

Bsp.1: Würfeln

A7 \ A2 = 4, 6

Es gelten folgende Aussagen:

• = E \ A

• = A \ B

E

A B

A

BA∩

Page 124: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

1. Klassische Definition der Wahrscheinlichkeit (Laplace):

Ausgangspunkt:• zufälliger Versuch mit endlich vielen Versuchsausgängen n,

d.h. E = e1, ..., en• jeder Versuchsausgang sei gleichmöglich (Symmetrie)• N(A) - Anzahl der Versuchausgänge, bei denen A eintritt• n = N(E) - Gesamtzahl der Versuchsausgänge

Def.: Das Verhältnis von N(A) und n heißt Wahrscheinlich-keit des zuf. Ereignisses A und wird mit P(A) bezeichnet.

n

)A(N)A(P =

Wahrscheinlichkeit:

Die Wahrscheinlichkeit ist das Maß für den Grad der Gewissheit des Eintretens eines zufälligen Ereignisses A

Page 125: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Satz: Eigenschaften der klassische Wahrscheinlichkeit:

1. 0 ≤ P(A) ≤ 1

2. P(E) = 1 und P(∅) = 0

3. Sind A und B unvereinbare zuf. Ereignisse, d.h. A ∩ B = ∅, so gilt: P(A ∪ B) = P(A) + P(B) (Additionsregel für unvereinbare zuf. Ereignisse)

4. Sind A, B beliebige zuf. Ereignisse, so gilt:P(A ∪ B) = P(A) + P(B) – P(A ∩ B)(allg. Additionsregel für bel. zuf. Ereignisse)

5. P( ) = 1 – P(A)

6. Sind A und B unabhängige zuf. Ereignisse, so gilt:

P(A ∩ B) = P(A) ⋅ P(B)(Multiplikationsregel für unabhängige zuf. Ereignisse)

A

Page 126: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bsp.:

In einem Bierkasten befinden sich 25 Flaschen Bier, vondiesen sind 2 nicht qualitätsgerecht.Der zufällige Versuch bestehe in der Entnahme einerFlasche, wobei jede Flasche die gleiche Chance habe,entnommen zu werden.

Frage: Wie groß ist die Wahrscheinlichkeit, dass eine zufällig entnommene Flasche qualitätsgerecht ist (Ereignis A)?

Lösung: Anzahl der möglichen Versuchsausgänge n = 25 Anzahl der für A „günstigen“ Versuchsausgänge

N(A) = 25 – 2 = 23

Damit ergibt sich: 92,025

23

n

)A(N)A(P ===

Page 127: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Wir betrachten das Bsp.1: Würfeln mit 1 Würfel

Sei A das zuf. Ereignis, das im Ergebnis des zuf. Versucheseine „6“ gewürfelt wird.Der Versuch wird n- mal wiederholt (n = 50, 100, ...). Dabei trat das Ereignis A N(A)- mal (z.B. N(A) = 7, 18, ...) auf, d.h. N(A) ist die absolute Häufigkeit des Auftretens von A.

Def.: Der Quotient aus der absoluten Häufigkeit und der Gesamtzahl der Versuche heißt relative Häufigkeit

und hn(A) konvergiert stochastisch gegen P(A).hn(A) ist also ein Schätzwert der Wahrscheinlichkeit P(A).

n

)A(N)A(hn =

2. Statistische Definition der Wahrscheinlichkeit:

Page 128: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

0.50051201224000Pearson

0.5016601912000Pearson

0.506920484040Buffon

relative Häufigkeit hn=N(A)/n

Anzahl des Auftretens des "Wappen" N(A)

Anzahl der Würfe n

Bsp.: Münzwurf

Stabilität der relativen Häufigkeit

n

P(A)

hn(A)

∞∞∞∞0

Page 129: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Zufallsgröße (ZG)

Zufällige Ereignisse kann man durch reelle Zahlen ausdrücken:

0 xi

=X(ei)

.eiE

X

R0 xi

=X(ei)

00 xi

=X(ei)

.eiE

X

R

Zufallsgröße

Page 130: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Def.: Eine Abbildung X heißt Zufallsgröße (ZG), wenn sie ihre Werte mit einer bestimmten Wahrscheinlichkeit annimmt.

Xei ∈ E → xi ∈ R X(ei) = xi

→→→→ 0 Anzahl der→→→→ 1 Ausschuss-J erzeug.→→→→ n

e0 – “genau 0 Ausschusserzeugnisse”e1– “genau 1 Ausschusserzeugnis”Jen– “genau n Ausschusserzeugnisse”

2. HerstellungvonErzeugnissen

→→→→ 1 gewürfelteJ Augenzahl→→→→ 6

e1 – “Würfeln einer 1”Je6 – “Würfeln einer 6”

1. Würfeln miteinem Würfel(Augenzahl)

Werte der ZG XElementarereignisseBeispiele

Bez.: Zufallsgrößen bezeichnet man mit: X, Y, Z bzw. Xi, Yi, Zi

und ihre Werte (Realisierungen) mit: x, y, z bzw. xi, yi, zi.

Page 131: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Weitere Beispiele für Zufallsgrößen sind:

Länge von Baumwollfasern einer bestimmten Sorte

Länge und Volumen von Escherichia Coli -Zellen

Anzahl der Stillstände einer Flaschenreinigungsanlage

Anzahl nicht qualitätsgerechter Produkte

Stickstoffmon- und -dioxidgehalt, Kohlenmonoxid- und Ozongehalt, sowie Schwebestaubgehalt in der Luft

Natrium,- Kalium-, Eisen- und Cadmiumgehalt von Weinen

Enzymkonzentrationen verschiedener Mutanten der Gattung Aspergillus niger

Zellzahlen, Mikrokoloniezahlen

Page 132: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

5,06

3)A(P ==

5,0)3X(P)A(P =≤=

5,06

1

6

1

6

1)3X(P)2X(P)1X(P)3X(P =++==+=+==≤

Bsp.: Münzwurfe1:= “Wappen“ → P(e1) = 0,5e2:= “Zahl“ → P(e2) = 0,5

P(e1) = P(X=0) = 0,5P(e2) = P(X=1) = 0,5

Bsp. 1: Würfeln mit 1 WürfelA:= “Würfeln einer Augenzahl i ≤ 3“

A = e1, e2, e3 →

Wahrscheinlichkeit von zuf. Ereignissen → Wahrscheinlichkeit von Zufallsgrößen

Page 133: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Def.: Sei X eine Zufallsgröße und P die WahrscheinlichkeitDann heißt die durch FX(x) = P(X ≤ x) definierte Funktion FX Verteilungsfunktion der ZG X.

Dann gilt auch: P(X > x) = 1- FX(x) und

P(a < X ≤ b) = FX(b) – FX(a)

Def. : Eine Zufallsgröße X heißt diskret, wenn sie endlich oder abzählbar unendlich viele Werte annehmen kann.

Bsp.: Zellzahlen, Anzahl nicht qualitätsgerechter Produkte

Bem.: Man beschreibt eine diskrete ZG X durch die Werte xi, die sie annehmen kann und die Einzelwahrschein-lichkeiten pi = P(X = xi), mit denen sie diese Werte annimmt.Es gilt: 1p

1ii =∑

=

Page 134: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

)x(FX

x

1

p1=1/6

1 2 3 4 5 6

∑≤

==≤=

ik xxk

kiiX )xX(P)xX(P)x(F

0 1/6 2/6 3/6 4/6 5/6 1 1 FX(xi)

0 1/6 1/6 1/6 1/6 1/6 1/6 0 pi = P(X = xi)

<1 1 2 3 4 5 6 > 6xi

Bsp. 1: Würfeln mit 1 Würfel (Gleichverteilung)

Verteilungstabelle mit Verteilungsfunktion:

Die Verteilungsfunktion ist:

Page 135: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Def.: Eine Zufallsgröße heißt stetig, wenn sie überabzählbar unendlich viele Werte (d.h. Werte aus einem reellen Zahlenintervall) annehmen kann. Ihre Verteilungsfunktion lässt sich wie folgt darstellen:

P(X ≤ x) = ∀x∈R

fX(x) heißt Dichtefunktion von X

Bsp.: Eiweiß- und Fettgehalt von Milch, Enzymkonzentration,Cholesteringehalt im Blut

Bem.: Für die Dichtefunktion gilt:

dt)t(f)x(Fx

XX ∫∞−

=

∫+∞

∞−

= 1dx)x(fX

Page 136: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

0,1

Dichtefunktion der Normalverteilung

x

Dic

hte

-5 -3 -1 1 3 50

0,1

0,2

0,3

0,4

Bsp.: Normalverteilung

X ~ N(0,1)

(Standard-Normalverteilung)

0,1

Verteilungsfunktion der Normalverteilung

x

Vert

eilu

ngsf

unkt

ion

-5 -3 -1 1 3 50

0,2

0,4

0,6

0,8

1 dt)t(f)x(Fx

XX ∫∞−

=

0

0

Page 137: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

∫=−=≤<b

a

XX dx)x(f)a(F)b(F)bXa(P

∫∞−

−=−=>x

X dt)t(f1)x(F1)xX(P

Bem.: Für eine stetige ZG X gilt:

1.

P(a < X ≤ b) ist die Wahrscheinlichkeit dafür, dass eine Realisierung von X in das Intervall (a, b] fällt!

3.

∀x mit a < x ≤ b

∫∞−

==≤x

X dt)t(f)x(F)xX(P

2.

Page 138: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

1. Erwartungswert:

Def.: Als Erwartungswert EX einer ZG X bezeichnen wir das Zentrum ihrer Verteilung:

dx)x(fx X∫+∞

∞−

⋅ , X stet. ZG

∑∞

=

⋅1i

ii px , X diskr. ZG

EX =

Bem.: Der Erwartungswert einer diskr. ZG ist das gewogene Mittel aller Werte xi von X, wobei die Einzelwahr-scheinlichkeiten pi die Gewichte darstellen.

Bsp. 1: Würfeln mit 1 Würfel (Gleichvert.) ⇒ EX = 3,5

EX ∈ R

2.2 Parameter von Verteilungen

Page 139: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

2. Varianz:

Def.: Als Varianz bezeichnen wir die mittlere (erwartete) quadratische Abweichung einer ZG X von ihrem Erwartungswert:

D2X = E [X - EX]2

dx)x(f)EXx( X2∫

+∞

∞−

⋅− , X stet. ZG

∑∞

=

⋅−1i

i2

i p)EXx( , X diskr. ZG

D2X ∈ R

Bsp. 1: Würfeln mit 1 Würfel (Gleichvert.) ⇒ D2X = 2,92

XD2heißt Standardabweichung.

=

Page 140: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Satz: Eigenschaften der Varianz: (Fehlerfortpflanzung)

Für die Varianz von diskreten oder stetigen Zufallsgrößen X, X1, J, Y, Z und Konstanten a,b ∈R gilt:

1. D2X ≥ 0, D2X = 0 ⇔ P(X = EX) = 1

2. D2X = EX2 – [EX]2 (Verschiebungsregel)

3. D2 [aX + b] = a2 • D2X (lin. Transformation)

4. X1,X2 unabhängig ⇒

D2 [X1 + X2] = D2 [X1 - X2] = D2X1 + D2X2 (Summe, Differenz)

und für Y =X1• X2 und Z = X1/X2 (Produkt und Quotient)2

22

2

22

2

1

12

22

EZ

ZD

EX

XD

EX

XD

EY

YD

+

(Quadr. Variationskoeffizienten addieren sich!)

Page 141: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Normierung und Standardisierung:

Def.: Eine ZG X heißt normiert, wenn D2X = 1 gilt.

Def.: Eine ZG X heißt standardisiert, wenn D2X = 1 und EX = 0 gilt.

Satz: Für eine beliebige ZG X gilt:

XD

XY

2=

ist eine normierte ZG und

XD

EXXY

2

−= ist eine standardisierte ZG.

1.

2.

Bsp. 2: Würfeln mit 2 unterscheidbaren Würfeln,X:=„ Augensumme“, X = X1 + X2

D2X = D2 [X1 + X2] = D2 X1 + D2 X2 = 5,83

Page 142: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Wahrscheinlichkeitsverteilungen

Stetige VerteilungenDiskrete Verteilungen

- 2- Pkt.- Verteilung(Münzwurf)

- Gleichverteilung(Bsp. 1: Würfeln mit 1 Würfel)

- Binomialverteilung(Qualitätskontrolle)

- Hypergeometrische Vert.

- Poissonverteilung

- Gleichmäßig stet. Verteilung

- Normalverteilung undlogarithmische NV

- Exponentialverteilung(Wachstumsprozesse)

- Weibullverteilung(Abnutzungsprozesse)

- Prüfvert. (t-, χ2-, F- Vert.)

Page 143: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

(Gauss, 1809: „Theorie der Beobachtungsfehler“)

Hintergrund:

Führt man wiederholt Messungen an ein und demselben Objekt (Fettgehalt in Milchprobe) durch, so ergibt auf Grund zufälliger Einflüsse nicht jede Messung den gleichen Wert. Es zeigt sich aber, dass bei häufiger Wiederholung der Messung die erhaltenen Werte kleinere oder größere Abweichungen voneinander und von einem bestimmtem „wahren“ Wert, dem Erwartungswert, aufweisen.

Beispiele:

zuf. Mess- und Beobachtungsfehler

Fett- und Eiweißgehalt von Milch, Stammwürzegehalt von Bier, Saccharosegehalt von Zuckerrüben

2.3 Normalverteilung

Page 144: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Def.: Eine stetige ZG X heißt normalverteilt mit den Parametern µ und σ2 (X ~ N (µ, σ2)), wenn ihreDichtefunktion die Form

( )2

2

2

x

X e2

1)x(f σ⋅

µ−−

⋅σ⋅π

= x∈R, hat.

Satz: Eigenschaften der Dichtefunktion der NV

1. fX(x) ≥ 0 x∈R

2. fX besitzt an der Stelle x = µ ein Maximum und

3. fX besitzt an den Stellen x1 = µ -σ und x2 = µ + σzwei Wendepunkte

4. fX ist symmetrisch bez. µ: fX(µ - x) = fX(µ + x)

( )σ⋅π

=µ2

1fX

Page 145: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Standard- NormalverteilungX ~ N (0, 1)

0,14,14,24,0,50,2

Verteilungsfunktion der Normalverteilung

x

Ve

rte

ilun

gsf

un

ktio

n

-10 -6 -2 2 6 10 140

0,2

0,4

0,6

0,8

1

0,14,14,24,0,50,2

Dichtefunktion der Normalverteilung

x

Dic

hte

-10 -6 -2 2 6 10 140

0,2

0,4

0,6

0,8

fX(x; 0, 1) = ϕX(x)

FX(x; 0, 1) = ΦX(x)

ist tabelliert!

Page 146: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bem.: - Für eine normalverteilte ZG X gilt:EX = µ und D2X = σ2

- Der Parameter µ bedeutet : Verschiebung des Symmetriezentrums

Der Parameter σ bedeutet: Streckung oder Stauchung der Dichte

- Die Verteilungsfunktion: FX (x)= P(X ≤ x) =

aber: Integral nicht geschlossen integrierbar!

⇒⇒⇒⇒ Standardisierung der normalverteilten ZG X und Bestimmen der standardisierten Verteilungs-funktion Φ (ist tabelliert!) !

( )∫∞−

x

X dttf

Page 147: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Satz: Eine stet. ZG X mit X ~ N(µ, σ2), kann durch Y = (X-µ)/ σstandardisiert werden, so dass Y ~ N(0, 1), und man erhält:

fX(x) = (1/σ) • ϕY(y) und FX(x) = ΦY(y)

(Zusammenhang von Dichte- und Verteilungsfunktionen)

0,1

Dichtefunktion der Normalverteilung

x

Dic

hte

-5 -3 -1 1 3 50

0,1

0,2

0,3

0,40,1

Verteilungsfunktion der Normalverteilung

xV

ert

eilu

ng

sfu

nkt

ion

-5 -3 -1 1 3 50

0,2

0,4

0,6

0,8

1

ϕY(-y) = ϕY(y) ΦY(-y) = 1- ΦY(y)

N(0,1) N(0,1)

Page 148: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

)y()yY(PxX

P)x(F)xX(P YX Φ=≤=

σµ−

≤σ

µ−==≤1.

Bestimmen von Intervallwahrscheinlichkeiten:

2.

)y(1)yY(P1xX

P1

)x(F1)xX(P1)xX(P

Y

X

Φ−=≤−=

σµ−

≤σ

µ−−

=−=≤−=>

3.

)y()y(yX

YyP

)x(F)x(F)xXx(P

1Y2Y21

1X2X21

Φ−Φ=

σµ−

=<=

−=≤<

σµ−

=

σµ−

=

22

11

xy

xy

Page 149: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

4. Spezialfall von 3.

Seien x1 = µ - kσ und x2 = µ + kσ

Dann gilt: P(|X - µ|) ≤ kσ) = Φ(k) - Φ(-k) = 2 Φ(k) – 1

Bem.: Betrachtet man k = 1,2 und 3, so ergeben sich folgende Wahrscheinlichkeiten:

P(|X - µ|) ≤ 1σ) = 0,638

P(|X - µ|) ≤ 2σ) = 0,955

P(|X - µ|) ≤ 3σ) = 0,997 3σσσσ- Regel

d.h. es ist praktisch „fast sicher“, dass eine normal-verteilte ZG X Werte zwischen µ - 3σ und µ - 3σannimmt.

Page 150: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bsp.: Eine Maschine füllt Tüten. Die Masse der Tüten (ZG X) sei normalverteilt mit X~ N(31,4; 0,04) [g].Eine Tüte ist normgerecht gefüllt, wenn X Werte imIntervall [30,9; 31,7] annimmt.

a) Wieviel % der Tüten sind normgerecht gefüllt?b) Wieviel % der Tüten sind nicht normgerecht gefüllt?c) Wieviel % der Tüten sind unterdosiert?d) Wieviel % der Tüten sind überdosiert?e) Wie müßte die untere Grenze des Toleranzbereiches

xu sein, damit nur 0,2 % der Tüten unterdosiert sind?f) Welchen Wert müßte die Standardabweichung σ

haben, damit bei ursprünglichem Toleranzbereich nur2% der Tüten unterdosiert sind?

Page 151: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Lösung:

a) P(A) = P(30,9 < X ≤ 31,7) = ΦY(1,5) - ΦY(-2,5) = 0,93319-(1-0,99379) = 0,92698 ≈ 92,7 %

b) P( ) = 1- P(A) = 7,3 %c) P(X ≤ 30,9) = ΦY(-2,5) = (1-0,99379) = 0,00621 ≈ 0,6 %d) P(X > 31,7) = 1- P(X ≤ 31,7) = 1 - ΦY(1,5) = 0,06681 ≈ 6,7 %e) P(X ≤ xu) = 0,002

A

= 002,02,0

4,31xuY =

−Φ 1-0,002 = 0,998

→ ΦY(2,88) = 0,998

→ ΦY(-2,88) = 0,002 → 88,22,0

4,31xu −=

→ xu = 30,824

002,04,319,30

Y =

σ−

Φ

f) analog zu e)

→ σ = 0,173688,2

4,319,30−=

σ−

Page 152: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Prüfverteilungen sind Verteilungen stetiger Zufallsgrößen, die insbesondere in der induktiven Statistik eine Rolle spielen.

Für die praktische Durchführung von Prüfverfahren benötigt man insbesondere die Quantile dieser Prüfverteilungen.

Def.: Sei X eine stetige ZG mit der Verteilungsfunktion FX

und p∈(0,1) ⊆ R.Dann heißt eine Zahl xp Quantil der Ordnung p, wenn Fx(xP) = P(X ≤ xP) = p gilt.

Bem.: Ein Quantil der Ordnung p = ½ heißt Median

2.4 Prüfverteilungen

Page 153: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

χχχχ² - Verteilung (Helmert, 1876)

FG10203050100

Chi-Quadrat Verteilung

x

Dic

hte

0 30 60 90 120 150 1800

0,02

0,04

0,06

0,08

0,1

)m²(~²

²S)1n(W χ

σ−

=

Freiheitsgrad m = n-1

Das Quantil der Ordnung p der χ²-Verteilung mit m Freiheitsgraden wird mit χ²p;m

bezeichnet.

Page 154: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

t-Verteilung („STUDENT“ , W. Gosset)

FG10203050100

t- Verteilung

x

Dic

hte

-6 -4 -2 0 2 4 60

0,1

0,2

0,3

0,4

FG10203050100

t- Verteilung

x

Ve

rte

ilun

gsf

un

ktio

n

-6 -4 -2 0 2 4 60

0,2

0,4

0,6

0,8

1- Das Quantil der Ordnung p der t- Vert. mit m FG- en wird mit tp;m bezeichnet.

- Die t- Verteilung ist symmetrisch und konvergiert für m→∞ gegen die Standardnormalverteilung

)m(t~nS

µXt ⋅

−=

Page 155: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

F-Verteilung (Fisher)

FG10,1020,2030,3050,50100,100

F- Verteilung

x

Vert

eilu

ngsf

unkt

ion

0 1 2 3 4 50

0,2

0,4

0,6

0,8

1

FG10,1020,2030,3050,50100,100

F- Verteilung

x

Dic

hte

0 1 2 3 4 50

0,4

0,8

1,2

1,6

2

2,4

Das Quantil der Ordnung p der F-Verteilung mit m1 und m2

FG- en wird mit Fp;m1;m2

bezeichnet.

)m,m(F~S

SF 212

2

21=

Page 156: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

/11/ Stahel, W. (1995)

3. SchließendeMethoden

Page 157: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Obj. Realität Stat. Modell

Merkmale

Messwerte

Zufallsgröße X mit best. Vert. oder Menge allerReal. der ZG, d.h. Menge E aller Versuchsausgänge:x1, x2, ...

= GG

= Mathem.Stichprobe

= KonkreteStichprobe

Menge aller möglichen Stichproben vom Umfang n: X = (X1, ..., Xn)

Realisierungen der ZG X:x = (x1, ..., xn)

Page 158: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

1- Stichprobenproblem:

µ bei X~N(µ, σ2)

ρ0

Mod

σ2 bei X~N(µ, σ2)

MADth

γ1

γ2

Y

MAD

G1

G2

Y

mad

g1

g2

Y

GrundgesamtheitX

Mathematische Stichprobe(X1, Y, Xn)

Schätzfunktion (Stichprobenfunktion)

Konkrete Stichprobe(x1, Y, xn)Schätzwert

(Realisierung)

)x(Fn )x(Fn )x(FX

∑=

=n

1iix

n

1x ∑

=

=n

1iiX

n

1X

5,0x~ 5,0X~

modx modX

∑=

−−

=n

1i

2i

2 )xx(1n

1s ∑

=

−−

=n

1i

2i

2 )XX(1n

1S

Page 159: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Wichtigste Aufgabe der Statistik:

Aus den in der Stichprobe enthaltenen Informationen Aussagen über die Grundgesamtheit zu gewinnen!

Es treten dabei 2 wichtige Probleme auf:

1. Schätzen der Verteilung der GG bzw. von Parametern

2. Prüfen von Hypothesen über die Verteilung der GG bzw.von Parametern

Page 160: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Wir betrachten Punkt- und Intervallschätzungen für Parameter von Zufallsgrößen. Auf der Basis konkreter Stichproben führen: Punktschätzungen ⇒⇒⇒⇒ Näherungswerten und Intervallschätzungen ⇒⇒⇒⇒ Näherungsintervallenfür einen unbekannten Parameter.

1. Punktschätzungen

Bei Punktschätzungen wird ein einziger aus der Stichprobe gewonnener Wert zur Schätzung des unbekannten Parameters herangezogen.

Ein Punktschätzer ist eine Stichprobenfunktion T(X1,J, Xn)der math. Stichprobe und ein Schätzwert ist eine Realisierungt(x1,J, xn) auf der Basis der konkreten Stichprobe.

3.1 Punktschätzungen und Konfidenzintervalle

Page 161: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bsp.: Unter der Voraussetzung, dass die GG X normalverteiltist mit EX = µ und D2X = σ2 , haben die Punktschätzer

∑=

=n

1iiX

n

1X

die besten statistischen Eigenschaften(Erwartungstreue, Konsistenz, Effizienz, Suffizienz)!

∑=

−−

=n

1i

2i

2 )XX(1n

1Sund

Man erhält Punktschätzer mit folgenden Schätzmethoden:

Momentenmethode Maximum Likelihood- Methode (MLM) Methode der kleinsten Quadrate (MkQ)

Die Realisierungen und s2 stellen die zugehörigen Punktschätzwerte (reelle Zahlen) aufgrund einer konkreten Stichprobe dar.

x

Page 162: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Veranschaulichung von Treff- und WiederholgenauigkeitParameter Θ (Schießscheibe)

Bem.: Die Treffgenauigkeit (Erwartungstreue) eines Schätzers ist hoch (Bias klein), wenn die Schätzwerte wiederholter Schätzungen den Parameter im Mittel gut treffen.Die Wiederholungsgenauigkeit (Präzision) ist hoch ( klein), wenn die Schätzwerte wiederholter Schätzungen nahe beieinander liegen.

Treff- u. Wieder-holungsgenauig-keit hoch

Treffgenauigkeitniedrig, Wiederholungs-genauigkeit hoch

Treffgenauigkeithoch, Wiederholungs-genauigkeitniedrig

Treff- u. Wieder-holungsgenauig-keit niedrig

θD 2

Page 163: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

2. Konfidenzintervalle (Vertrauensintervalle)

Mit einer Punktschätzung gewinnen wir keine Aussage über die Genauigkeit einer solchen Schätzung.

Die Abweichungen einzelner Punktschätzwerte vom wahren Wert des Parameters können z.B. dann recht groß sein, wenn der Stichprobenumfang klein ist.

Mit Hilfe einer Intervallschätzung können wir uns eine Vor-stellung von der Genauigkeit der Schätzung verschaffen.

Def.: Ein Konfidenzintervall ist ein Intervall, dass einen unbekannten Parameter der Grundgesamtheit mit einer vorgegebenen Wahrscheinlichkeit (1-α) enthält.

Page 164: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bsp.: Konfidenzintervall für den Erwartungswert µ einer normalverteilten GG

Sei X ~ N(µ, σ2) eine normalverteilte ZG und (X1, ..., Xn) eine mathematische Stichprobe aus der GG X.

1. Fall: Die Varianz σ2 der normalverteilten GG sei bekanntFür den unbekannten Parameter µ ist eine Konfidenz-schätzung anzugeben.

α−=

σ+<µ<⋅

σ−= α

−α

−1z

nXz

nXP

21

21

wobei das - Quantil der Standardnormalverteilung ist.

Dann hat das Konfidenzintervall für µ die Form:

21

z α−

)2

1(α

Page 165: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Jede konkrete Stichprobe liefert uns dann ein realisiertesKonfidenzintervall:

Dichtefunktion der Standard- Normalverteilung

z

Dic

hte

-5 -3 -1 1 3 5

0

0,1

0,2

0,3

0,4

21

z α−2

z α

α/2α/2

1-α

21

z α−

−=-Quantil der Standard- NV

21

α−

σ+⋅

σ− α

−α

−2

12

1z

nx;z

nx 2,332,580,010,99

1,641,960,050,95

z1-αα1-α 21

z α−

21z

21

α−=

Φ α

Page 166: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bem.: Die Breite dieses Konfidenzintervalls für den Erwar-tungswert µ beträgt 2d und ist von α, n, σ und der Verteilung des zugehörigen Schätzers abhängig.

21

zn

2d2 α−

⋅σ

=

Je größer α desto kleiner das Konfidenzintervall

Je größer n desto kleiner das Konfidenzintervall

Die Breite des Konfidenzintervalls ist hier ein Maß für die Genauigkeit der Schätzung von µ und die Irrtumswahrscheinlichkeit α ein Maß für das Risiko.

⇒⇒⇒⇒ Planung des Stichprobenumfangs:geg.: halbe Breite des Konf.intervalls d,

Varianz ,Konfidenzniveau (1-α) 2

12

2

2

zd

n α−⋅

σ=→→→→

Page 167: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

2. Fall: Die Varianz σ2 der normalverteilten GG sei nicht bekannt und muß geschätzt werden. Für den unbekannten Parameter µ ist eine Konfidenz-schätzung anzugeben.

Wir wählen als Punktschätzer:

∑=

=n

1iiX

n

1X

2n

1ii

2 )XX(1n

1S −

−= ∑

=

undfür den Erwartungswert µ:

für die Varianz σ2

wobei das - Quantil der t- Verteilung ist.

)1(tn

SXt

n

SXP

m;2

1m;2

1α−=

⋅+<µ<⋅− α

−α

m;2

1t α

Dann hat das Konfidenzintervall für µ die Form:

)2

1(α

Page 168: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Jede konkrete Stichprobe liefert uns wieder ein realisiertesKonfidenzintervall:

⋅+⋅− α

−α

− m;2

1m;2

1t

n

sx;t

n

sx

m;2

1t

n

sd α

−⋅=

Veranschaulichung analog wie beim 1. Fall!

Page 169: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Toleranzintervall: Anwendung bei der Kontrollkartentechnik:

( - Kontrollkarte)

µ0

1x3x 5x 7x

ix

m;2

10 t

n

−⋅−µ

m;2

10 t

n

−⋅+µ

Toleranz-bereich

Mittelwert liegt außerhalbdes Toleranzbereiches!

x

Page 170: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Es werden zwei Hypothesen für die GG aufgestellt:

die Nullhypothese H0 (Annahme über die Verteilung oder unbekannte Parameter in der Grundgesamtheit) und

die Alternativhypothese HA (wird angenommen, falls H0 verworfen wird)

Durch einen statistische Test wird eine Entscheidung zwischen beiden Hypothesen auf Grund einer Stichprobe herbeigeführt.

Bei der Entscheidung für eine der beiden Hypothesen durch einen Test kann man zwei Fehler begehen:

- Fehler 1. Art: Entscheidung für HA, obwohl H0 richtig ist und- Fehler 2. Art: Entscheidung für H0, obwohl HA richtig ist

3.2 Statistische Tests

Page 171: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bsp. 2: Der Wassergehalt von Butter X sei normalverteilt. Auf Grund einer Stichprobe aus einer Molkerei soll geprüft werden, ob der erhaltene Mittelwert mit dem Qualitäts-sollwert µ0 = 15% verträglich ist, d.h. ob die Abweichung zwischen und µ0 nur zufällig ist oder ob stat. signifikante Unterschiede vorliegen.

H0 : µ = µ0 = 84% HA: µ ≠ µ0 = 84%

⇒⇒⇒⇒ Mittelwerttest für ein Einstichprobenproblem

x

Betrachten wir ein paar Beispiele:

Bsp. 1: Es ist auf Grund einer Stichprobe zu prüfen, ob die Länge von Escherichia Coli- Zellen eines best. Bakterienstammes normalverteilt ist.H0: FX = F0X HA: FX ≠ F0X (F0 - Vert.fkt. der Normalvert.!)

⇒⇒⇒⇒ Test auf Normalverteilung

Page 172: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bsp. 3: Eine sehr zeitaufwendige Standardmethode M1 zur Bestimmung der Trockenmasse von Kondensmilch soll durch eine Schnellmethode M2 ersetzt werden. Auf der Basis zweier Stichproben ist nun zu prüfen, ob die Mittelwerte und Varianzen beider Methoden überein-stimmen oder ob es signifikante Unterschiede gibt. H0: µ1 = µ2 HA: µ1 ≠ µ2 (Vor.: NV!)H0: σ1

2 = σ22 HA: σ1

2 ≠ σ22

⇒⇒⇒⇒ Mittelwert- und Varianztest für ein 2-Stichproben-problem

Bsp.4: Es ist zu prüfen, ob in einer Stichprobe ein stark nach oben (bzw. nach unten) abweichender Wert als „Ausreißer“ zu betrachten ist. (Vor.: NV!)

H0: xmax ist kein Ausreißer HA: xmax ist ein Ausreißer

⇒⇒⇒⇒ Ausreißertest

Page 173: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Güte des Tests (1- ββββ)ββββ

richtige EntscheidungFehler 2. ArtHA richtig

Irrtumswahrsch. ααααSicherheitswahrsch. (1- αααα)

Fehler 1. Artrichtige EntscheidungH0 richtig

Entscheidung für HA

H0 wird abgelehntEntscheidung für H0

HA wird abgelehntRealität

Mögliche Entscheidungen bei einem stat. Test:

Bei zwei Entscheidungen entscheidet man sich richtig, jeweils mit den Wahrscheinlichkeiten (1- αααα) bzw. (1- ββββ) .

Führt ein Test nun zur Ablehnung von H0, so ist diese Entscheidung für HA mit einer Irrtumswahrscheinlichkeit von αbehaftet und man sagt:Das Ergebnis ist signifikant zum Signifikanzniveau αααα.

Page 174: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bem.: 1. Beim Signifikanztest (auch α- Test genannt) wird nur der Fehler 1. Art durch die Vorgabe von αkontrolliert, während der Fehler 2. Art, der mit der (unbekannten) Wahrscheinlichkeit β auftritt, unberück-sichtigt bleibt.Daher formuliert man die Hypothesen so, dass der Fehler 1. Art der in seinen Folgen schwerwiegendereist, den man auf jeden Fall vermeiden möchte!

2. Beide Fehler kann man nicht gleichzeitig minimieren. Denn: Je kleiner der eine Fehler ist, desto größer wird

der andere.Aber: Beide Fehler werden bei der Planung des

Stichprobenumfanges mit berücksichtigt.

3. Das Signifikanzniveau αααα ist unter Beachtung der konkreten Aufgabenstellung und insbesondere der Folgen des Fehlers 1. Art festzulegen.Übliche Werte für α sind: 0,1; 0,05; 0,01; 0,005; 0,001.

Page 175: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Arten statistischer Tests

Ann. eines best. Ver-teilungstyps (z.B. NV!) für die GG,

Prüfung von Hypothesen über die Parameter (z.B. Erwartungswert und Varianz)

Keine Ann. eines best. Ver-teilungstyps für die GG, nur Stetigkeit oder Diskretheit,

Prüfung von Hypothesen über die Art der Verteilung (z.B. NV durch Anpassungstests) oder Parameter (z.B. Median)

Tests basieren oft auf Rang-statistiken

Parametrische TestsVerteilungsfreie(nichtparametrische) Tests

Page 176: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Allgemeine Vorgehensweise bei einem Parametertest:

1. Formulierung der Aufgabenstellung, einschließlich aller Voraussetzungen über die GG

2. Aufstellen der Null- und Alternativhypothese H0 und HA

3. Wahl der Stichprobenfunktion T (Teststatistik) auf der Basis der math. Stichprobe und Angabe ihrer Verteilung bei richtiger Nullhypothese

4. Berechnung eines Wertes der Teststatistik t auf der Basis einer konkreten Stichprobe

5. Wahl des kritischen Bereiches K für vorgegebene Irrtumswahrscheinlichkeit α

6. TestentscheidungWenn t∈K → Ablehnung von H0 u. Annahme von HA

Wenn t∈K → Annahme von H0 u. Ablehnung von HA

Page 177: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

1. Vergleich der Parameter einer NV mit Sollwerten -Einstichprobentest

Annahme: Sei X~N(µ, σ2), (X1, ..., Xn) math. Stichprobe aus GG X

3.2.1.1. Vergleich des Mittelwertes einer NV mit einem Sollwert (Einstichproben- Test)

1. Fall: σ2 bekannt (Gauß- oder Z- Test)1. Kann auf Grund einer Stichprobe geschlossen werden,

dass diese aus einer normalverteilten GG stammt, deren Erwartungswert µ gleich einem vorgegebenen Sollwert µ0 ist? Mit anderen Worten: Ist mit µ0 verträglich oderx

a) gibt es signifikante Abweichungen b) ist der MW echt größer als µ0

c) ist der MW echt kleiner als µ0?

→ 2- seit. Test

→ 1- seit. Test

Page 178: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

)n

,(N~Xn

1X

n

1i

2

i∑=

σµ=

X )1,0(N~nX

Z 0 ⋅σµ−

=

Vor.: X~N(µ, σ2), σ2 ist bekannt

2. Null- und Alternativhypothese

a) H01: µ = µ0 b) H02: µ ≤ µ0 c) H03: µ ≥ µ0

HA1: µ ≠ µ0 HA2: µ > µ0 HA3: µ < µ0

2-seit. Fragestellung 1-seit. Fragestellung

Wählen als geeigneten Punktschätzer für µ und standardisieren:

3. Wahl der Teststatistik

X

→→→→ (unter H0!)

Teststatistikda

Page 179: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

4. Berechnen des Wertes der Teststatistik

nx

z 0 ⋅σµ−

=

5. Wahl des kritischen Bereiches (Verwerfungsbereich) K

Der krit. Bereich ist abhängig von der Irrtumswahrschein-lichkeit α und der Art der Alternativhypothese.

P(Z∈K / H0) = α und P(Z∈K / H0) = (1- α)

Page 180: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Dichtefunktion der Standard- Normalverteilung

z

Dic

hte

-5 -3 -1 1 3 5

0

0,1

0,2

0,3

0,4

Dichtefunktion der Standard- Normalverteilung

zD

ich

te-5 -3 -1 1 3 5

0

0,1

0,2

0,3

0,4

a) HA1: µ ≠ µ0

Dichtefunktion der Standard- Normalverteilung

z

Dic

hte

-5 -3 -1 1 3 5

0

0,1

0,2

0,3

0,4

b) HA2: µ > µ0 c) HA3: µ < µ0

2

>= α−

21

z|z|/zK

+∞∪

∞−= α

−α ;zz;K

21

2

21

z α−

α/2 α/2

1-α

1-α 1-α

α α

α−1z αz

kritische Grenzen

( ) αα <=∞−= zz/zz;K( ) α−α− >=+∞= 11 zz/z;zK

Ann.bereich H0

Page 181: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

21

zz α−

>α−> 1zz α< zz

6. Testentscheidung

H0: µ = µ0 wird abgelehnt, wenn

b) c)a)

Analog gilt:

H0 wird abgelehnt, wenn der zu z gehörige P-Wert < α ist.P heißt „Probability value“ oder „Grenzniveau“ oder „Über-schreitungswahrscheinlichkeit“. Er ermöglicht eine differenziertere Testentscheidung.

Häufig interpretiert man den P-Wert wie folgt:

Wenn P ≥ 0,05 → kein stat. sign. UnterschiedWenn 0,05 > P ≥ 0,01 → stat. sign. Unterschied *Wenn 0,01 > P ≥ 0,001 → stark sign. Unterschied **Wenn 0,001 > P → sehr stark sign. Unterschied ***

Page 182: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Ann.bereich von H0

1-α

Bem.: 1. Falls die Nullhypothese wahr ist, ergeben sich folgende Entscheidungsbereiche:

a) HA1: µ ≠ µ0

1-α

b) HA2: µ > µ0

Ann.bereich von H0

Die schraffierten Flächen α (Irrtumswahrscheinlichkeit) geben die Wahrscheinlichkeiten an, dass die Nullhypothese fälschlicherweise verworfen wird.

Page 183: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bem.: 2. Falls die Nullhypothese falsch ist und µ = µ1 > µ0,ergeben sich folgende Entscheidungsbereiche:

a) HA1: µ ≠ µ0 b) HA2: µ > µ0

Die schraffierten Flächen (1-β) (Trennschärfe, Macht eines Tests) geben die Wahrscheinlichkeiten an, dass die wahre Alternativhypothese durch den Test auch angenommen wird.Die Macht (1-β) sinkt, je kleiner α wird.

Ann.bereich von HA Ann.bereich von HA

α/2 α

β β

Page 184: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

2. Fall: σ2 unbekannt → Schätzen durch s2 (t- Test)

)1n(t~nS

Xt 0 −⋅

µ−=3. Teststatistik unter H0:

4. Wert der Teststatistik:

5. Kritischer Bereich K:

a) HA1: µ ≠ µ0

b) HA2: µ > µ0

c) HA3: µ < µ0

ns

xt 0 ⋅

µ−=

>=

+∞∪

∞−= α

−α

−α

m,2

1m,2

1m,2

t|t|/t;tt;K

( ) m,1m,1 tt/t;tK α−α− >=+∞=

( ) m,m, tt/tt;K αα <=∞−=

Page 185: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

m,2

1t|t| α

−> m,1tt α−> m,tt α<

6. Testentscheidung

H0: µ = µ0 wird abgelehnt, wenn

b) c)a)

bzw. wenn der zu gehörige P-Wert < α ist.t

FG:10

Dichtefunktion der t- Verteilung

t

Dic

hte

-6 -4 -2 0 2 4 60

0,1

0,2

0,3

0,4

t

P-Wert

b)

α

10,1t α−

(1-α)- Quantil der t- Vert. zum FG 10

Hier:Annahmevon H0 !

Ann.bereich vonH0

Page 186: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Ein Test ist von folgenden Größen abhängig:

Mindestdifferenz d (Genauigkeitsvorgabe) Wahrscheinlichkeit für den Fehler 1. Art α Schranke für die Wahrscheinlichkeit für den Fehler 2. Art β0

Varianz σ2 (1. Fall) bzw. s2 (2. Fall)

a) b)

Verlauf der Gütefunktion (Macht, Power) eines zweiseitigenTests (für kleinen und großen Stichprobenumfang) und eines 1-seitigen Tests

Page 187: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bsp.: Wassergehalt von Butter (Gauß- Test)

1. Für die Zufallsgröße X – Wassergehalt [%] von Butter sei NV-Annahme gerechtfertigt. Es liegt eine Stichprobe vom Umfang 10 vor und es ist durch einen Test zu prüfen, ob diese Stichprobe aus einer GG mit dem Erwartungswert µ0 = 15,2 [%] (Sollwert) stammt. Die Varianz σ2 = 0,04 [%]2

kann als bekannt vorausgesetzt werden.a) Weicht signifikant von µ0 ab? oderb) Ist signifikant größer als µ0?Die Messwerte seien: 15,05 15,52 15,44 15,35 15,24

14,89 15,47 15,28 15,18 15,39

2. Hypothesen: a) H01: µ = µ0 b) H02: µ ≤ µ0

HA1: µ ≠ µ0 HA2: µ > µ0

3. Teststatistik:

xx

)1,0(N~nX

Z 0 ⋅σµ−

=

4. Wert der Teststatistik: 28,1nx

z 0 =⋅σµ−

= [%]28,15x =

Page 188: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

96,1z2

1=α

−645,1z =α

5. Kritischer Bereich K:

α = 0,05 →

a) b)

+∞∪

∞−= α

−α ;zz;K

21

2

>= α−

21

z|z|/zK

( )+∞= α− ;zK 1

α−>= 1zz/zK

6. Testentscheidung:

96,1z28,1|z|2

1=<= α

−645,1zz 1 =< α−

Ergebnis:Für α = 0,05 wird H0 beibehalten, sowohl bei der 2- seitigenals auch bei der 1- seitigen Fragestellung. D.h.: Abweichungen bzw. eine Überschreitung des

Sollwertes sind nicht feststellbar.

Page 189: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

)m(t~nS

Xt 0 ⋅

µ−=

2934,1ns

xt 0 =⋅

µ−=

[%]281,15x =

26,2tt9,

21m,

21

== α−

α−

83,1tt 9,1m,1 == α−α−

Bem.: Wäre die Varianz σ2 = 0,04 [%]2 nicht bekannt, dann müsste sie durch s2 geschätzt werden (t- Test, 2. Fall)

b)

3. Teststatistik:

4. Wert der Teststatistik:

α = 0,05 →

s = 0,198 [%]

n = 10

a) 5. Kritischer Bereich K:

6. Testentscheidung:m,

21

t|t| α−

≤ 9,1t29,1t α−≤=

Ergebnis:Für α = 0,05 sind Abweichungen bzw. eine Überschreitung des Sollwertes nicht feststellbar.

Page 190: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Allgemeine Bemerkungen zu Hypothesentests

1. Erweist sich ein Unterschied als nicht signifikant, so sagt das noch nicht, dass damit die Hypothese wahr ist.Es sagt bloß: Die Hypothese steht zum Ergebnis der Stichprobe nicht im Widerspruch.

2. Ist die Abweichung des wahren Parameters, z.B. µ, vom Sollwert µ0 nur klein, wird das Ergebnis einer kleinen Stich-probe nur selten im Widerspruch zu µ0 stehen. D.h., ob eine bestehende Abweichung von der Hypothese erkannt wird oder nicht, hängt entscheidend von der Größe der Stichprobe ab. Wollte man das Ergebnis „nicht signifikant“ als eine Bestätigung der Nullhypothese auffassen, so brauchte man bloß eine hinreichend kleine Stichprobe zu wählen und könnte damit fast jede Nullhypothese bestätigen.

⇒ Als Nullhypothese wählt man daher stets das Gegenteil von dem, was man beweisen möchte und versucht, es zu widerlegen.

Page 191: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

3. Eine Ablehnung von H0 und Annahme von HA bedeutet:

Wir können nicht sicher sein, uns richtig entschieden zu haben, in Wirklichkeit könnte auch H0 wahr sein, dann hätten wir jedoch H0 nur mit einer Wahrscheinlichkeit von höchstens α (Wahrscheinlichkeit für Fehler 1. Art) durch den Test abgelehnt, d.h. wir haben uns mit großer Sicherheit richtig entschieden.

4. Eine Annahme von H0 bedeutet:

Falls in Wirklichkeit HA wahr sein würde, hätten wir einen Fehler 2. Art begangen, deren Wahrscheinlichkeit durch den Signifikanztest nicht kontrolliert wird. Sie lässt sich allerdings durch die Gütefunktion bestimmen.

5. Es gilt nicht: Mit 95%-iger Sicherheit ist bei Ablehnung von H0 HA wahr. Wir wissen nur, dass in 95% der Fälle die wahre H0 durch den Test bestätigt wird und in 5% der Fälle nicht.

Page 192: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

6. In zu kleinen Stichproben können selbst grosse, praktischbedeutsame Unterschiede oder Effekte nicht nach-gewiesen werden, da sie sich nicht klar genug von den zufälligen Fehlern abheben.

Mit grossen Stichproben kann man dagegen praktisch unwichtige Unterschiede oder Effekte als “statistisch signifikant” ausweisen.

⇒⇒⇒⇒ “Praktische Relevanz” beachten und auf der Basis von Vorgaben über die Wahrscheinlichkeiten für dieFehler 1. u. 2. Art den Stichprobenumfang berechnen!

Page 193: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

HA1:

K = (- ∞, )∪( , ∞)

HA2: K = ( , ∞)m = n -1

H01: σ2 = σ0

2

HA1: σ2 ≠ σ0

2

H02: σ2 ≤ σ0

2

HA2: σ2 > σ02

Vergleich derVarianz mit einerKonstanten

1-Stichproben-

χχχχ2- Test

a)

b)

a) HA1:

K= (- ∞, )∪( , ∞)

HA2: K = (z 1-α, ∞)

HA3: K= (- ∞, z α)

b) HA1:

K = (- ∞, )∪( , ∞)

HA2: K = (t1-α,m , ∞)

HA3: K= (- ∞, tα,m)

a) σσσσ bekannt

b) σσσσ unbekannt

m = n-1

H01: µ = µ0

HA1: µ ≠ µ0

H02: µ ≤ µ0

HA2: µ > µ0

H03: µ ≥ µ0

HA3: µ < µ0

Vergleich des Mittelwertes mit einer Konstanten

a) 1-Stichproben-Gauß-Test

b) 1-Stichproben-t-Test

EntscheidungAnnahme H0

P ≥≥≥≥ 0,05Krit. BereichTeststatistikH0 und HAArt des Tests

Übersicht über Parametertests (1- und 2- Stichprobenproblem)

)1,0(N~nX

Z 0 ⋅σ

µ−=

)m(t~nS

Xt 0 ⋅

µ−=

2

21

z α−

m,2

tαm,

21

t α−

21

zz α−

α−≤ 1zz

α≥ zz

m,2

1tt α

−≤

m,1tt α−≤

m,tt α≥

)m(~S)1n( 2

20

22 χ

σ−

2

m,2

αχ 2

m,2

−χ

2m,1 α−χ

2

m,2

1

22

m,2

ˆ α−

α χ≤χ≤χ

2m,1

2ˆ α−χ≤χ

Page 194: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

b)b) HA1:

K = (- ∞, )∪( , ∞)

HA2: K = (t1-α,m , ∞)

m = n1+n2 -2

b) σσσσ12, σσσσ2

2

unbekannt, aber

σσσσ12= σσσσ2

2

m = n1+n2 -2

b) 2-Stichproben-t-Test

a)a) HA1:

K= (- ∞, )∪( , ∞)

HA2: K = (z 1-α, ∞)

a) σσσσ1, σσσσ2 bekannt

H01: µ1 = µ2

HA1: µ1 ≠ µ2

H02: µ1 ≤ µ2

HA2: µ1 > µ2

Vergleich von 2 Mittelwerten bei unabhängigen Stichproben

a) 2-Stichproben-Gauß-Test

EntscheidungAnnahme H0

P ≥≥≥≥ 0,05Krit. BereichTeststatistikH0 und HAArt des Tests

)1,0(N~

nn

XXZ

2

22

1

21

21

σ+

σ

−=

)m(t~nn

nn

S

XXt

21

21

d

21

+

⋅⋅

−=

2nn

S)1n(S)1n(S

21

222

211

d −+

−+−=

2

21

z α− 2

1zz α

−≤

α−≤ 1zz

m,2

tαm,

21

t α−

m,2

1tt α

−≤

m,1tt α−≤

Page 195: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

H01: σ12 = σ2

2

HA1: σ12 ≠ σ2

2

H02: σ11 ≤ σ2

2

HA2: σ11 > σ2

2

HA1:

K = (- ∞, )

∪ ( , ∞)

HA2: K = ( , ∞)

m1 = n1 – 1; m2 = n2 - 1

Vor.: s12 ≥ s2

2 , sonst Stichproben ver-tauschen!

Vergleich von 2 Varianzen bei unabhängigen Stichproben

2-Stichproben-

F-Test

c)c) HA1:

K= (- ∞, )∪( , ∞)

HA2: K = (t1-α,m , ∞)

aber.: unterschiedliches m

im Vergleich zu b)!

c) σσσσ12, σσσσ2

2

unbekannt, aber

σσσσ12≠≠≠≠ σσσσ2

2

mit

und

H01: µ1 = µ2

HA1: µ1 ≠ µ2

H02: µ1 ≤ µ2

HA2: µ1 > µ2

Vergleich von 2 Mittelwerten bei unabhängigen Stichproben

c) 2-Stichproben-t-Test mit Welch-Korrektur

EntscheidungAnnahme H0

P ≥≥≥≥ 0,05Krit. BereichTeststatistikH0 und HAArt des Tests

m,2

tαm,

21

t α− m,

21

tt α−

m,1tt α−≤)m(t~

n

S

n

S

XXt

2

22

1

21

21

+

−=

1n

)c1(

1n

c

m

1

1

2

2

2

−−

+−

=

2

22

1

21

1

22

n

s

n

s

n

s

c

+

=

)m,m(F~S

SF 212

2

21=

21 m,m,2

21 m,m,2

1F α

21 m,m,1F α−

2121 m,m,2

1m,m,2

FfF α−

α ≤≤

21 m,m,1Ff α−≤

Page 196: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

- Die Varianzanalyse ermöglicht es, Unterschiede zwischen den Erwartungswerten normalverteilter Zufallsgrößen (hier: Faktoren) in mehr als zwei Gruppen (oder Stufen) zu untersuchen. Sie ist damit eine Erweiterung des Mittelwert-vergleichs (t- Test) von zwei auf mehr als zwei Gruppen.

- Je nach Anzahl der Faktoren unterscheidet man zwischen einfaktorieller und mehrfaktorieller Varianzanalyse

- Bei VA- Modellen vom Typ I werden nur Faktoren mit festen Stufen betrachtet.

- Sie heißt Varianzanalyse, weil geprüft wird, ob die Variabilität zwischen den Gruppen größer ist als innerhalb der Gruppen.

Bsp.: 4 Laboratorien sind hinsichtlich ihres mittleren 2,3-Butandiolgehaltes in Wein zu vergleichen.

3.3 Varianzanalyse

Page 197: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Voraussetzungen für die Varianzanalyse:

Xi ~ N(µi, σ2) i = 1, ..., a j = 1, ..., ni

Homogenität der Varianzen: σi2 = σ2 ∀i

⇒ Bartlett-Test ( NV, ni > 5)Cochran-Test (NV, ni=n ∀i) Levéne-Test (keine NV)

Anz. der Gruppen od. Stufen

Umfang der i-ten Gruppe

Page 198: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

a1 an

1a

n1

11

X

X

....

....

X

:

X

Man betrachtet a Stichproben:

VA- Modell I mit einfacher Klassifikation:

Xij = µi + εij i = 1, ..., a j = 1, ..., ni

Xij = µ + αi + εij mit εij ~ N(0, σ2) (zufälliger Fehler)

Xij:

- χ2- Anpassungstest- Shapiro- Wilks-Test- T. auf Schiefe und Exzess- Kolmogorov- Smirnov-T.

mit Lilliefors- Korrektur

wobei: µ - Gesamterwartungswertαi - Effekt der i- ten Stufe

des Faktors A;αi = µi - µ

Page 199: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Nr. der Wdhlg.

j L1 L2 L3 L4

1 0,780 0,810 0,760 0,7462 0,770 0,790 0,750 0,7503 0,780 0,770 0,720 0,7344 0,774 0,780 0,756 0,7415 0,750 0,760 0,770 0,7396 0,790 0,770 0,780 0,736xi. 0,774 0,780 0,756 0,741

si. 0,014 0,018 0,021 0,006

Stufen des Faktors: Labor

Bsp.: Vergleich des mittleren Butandiolgehaltes in 4 Laboratorien

Ausgangstabelle (Versuchsplan):

a = 4 ni = n = 6 N = 24

Anz. der Laboratorien Gruppenumfang Gesamtstichprobenumfang

Page 200: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Box- Whisker PlotB

uta

ndio

lgehalt

L 1 L 2 L 3 L 40,72

0,74

0,76

0,78

0,8

0,82

Box- Whisker Plot ansehen!

Page 201: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

1. Unterscheiden sich die 4 Laboratorien hinsichtlich desmittleren Butandiolgehaltes von Wein, d.h. hat der Faktor“Laboratorium” Einfluss auf den Butandiolgehalt?

Vor.: Xi ~ N(µi, σ2) (?) i = 1, ..., 4 j = 1, ..., 6

Homogenität der Varianzen: (Test: H0: σ12 = ... = σ4

2

gegen HA: ∃ (i,j): σi2 ≠ σj

2 (i ≠ j)→ kann angenommen werden (?)

Modellannahme: Xij = µ + αi + εij mit εij ~ N(0, σ2)= µi + εij

2. Hypothesen:H0: µ1 = ... = µ4 äquivalent H0: α1 = ... = α4 = 0HA: ∃ (i,j): µi ≠ µj (i ≠ j) HA: ∃ (i,j): αi ≠ αj (i ≠ j)

Page 202: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

G2

a

1i

n

1jij

2 SQ1N

1)XX(

1N

1s

i

−=−

−= ∑ ∑

= =⋅⋅

SQG – Summe der Abweichungsquadrate der Messwerte vom Gesamtmittelwert

SQG = SQI + SQZ

3. Teststatistik unter H0:

Teststatistik basiert auf Zerlegung der Summe der Abweichungsquadrate

Ausgangspunkt: Empirische Varianz s2

2a

1i

n

1jiijI )XX(SQ

i

∑ ∑= =

⋅−=

SQI - Summe der Ab-weichungsquadrateinnerhalb einer Gruppe (Stufe)

Page 203: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

2a

1i

n

1jiZ )XX(SQ

i

∑ ∑= =

⋅⋅⋅ −=SQZ - Summe der Ab-

weichungsquadratezwischen den Gruppen (Stufen)

∑=

⋅ =in

1jij

ii X

n

1Xwobei Gruppenmittelwert

∑ ∑= =

⋅⋅ =a

1i

n

1jij

i

XN

1X Gesamtmittelwert

Es gilt ebenfalls: FGG = FGI + FGZ

(N-1) = (N-a) + (a-1)

Page 204: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

G2

G SQ1N

1sMQ

−==⇒⇒⇒⇒

II SQaN

1MQ

−=

ZZ SQ1a

1MQ

−=

⇒ Teststatistik unter H0: )m,m(F~MQ

MQF 21

I

Z=

m1 = a-1 m2 = N-a

Page 205: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

4. Wert der Teststatistik:

⇒ Varianztabelle (ANOVA-Tabelle)

QS QM

ZQSZQM

I

Z

QM

QMf =

IQS IQM

GQS GQMN-1

230,009538

Gesamt

= 7,820,00024

N-a

200,00482

innerhalb der Stufen

P =0,0012

0,00188

a-1

30,00565

zwischen den Stufen

P-Wert

Wert der Test-

statistikf

FGVariations-ursache

Page 206: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

5. Kritischer Bereich K:

FG3,20

Dichtefunktion der F- Verteilung

Dic

hte

0 1 2 3 4 50

0,2

0,4

0,6

0,8

F

F 3; 20; 0,95

α

6. Testentscheidung:Wenn f > Fa-1; N-a; 1-α → Ablehnung von H0

Da 7,82 = f > F3; 19; 0,95 = 3,127 → Ablehnung von H0,

d.h. die Mittelwerte des Butandiolgehaltes der Laboratorien unterscheiden sich zum Signifikanzniveau α = 0,05.

Page 207: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

H0: µi = µj (i ≠ j) gegen HA: µi ≠ µj (i≠j)

MW und 95%-iges HSD- Intervall von Tukey

MW

L 1 L 2 L 3 L 40,72

0,74

0,76

0,78

0,8

2

)1a(a

2

a −⋅=

Bem.: Wenn die Nullhypothese H0 abgelehnt wird, ist man daran interessiert, herauszufinden, welche Gruppen einen signifikant höheren oder niedrigeren Mittelwert aufweisen und schließt daher multiple paarweise Ver-gleiche, z.B. mit der Prozedur von Tukey- Kramer an.Man prüft dann den folgenden Hypothesenkomplex,

bestehend aus Hypothesen:

Page 208: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

HSD- Test von Tukey- Kramer (α = 0,05 versuchsbezogen, wird für alle Vergleiche eingehalten!)

------------------------------------------------------------------------------------

Gruppe Anz. MW Homogene Gruppen------------------------------------------------------------------------------------L 4 6 0,741 X L 3 6 0,756 XXL 1 6 0,774 XL 2 6 0,78 X------------------------------------------------------------------------------------

Kontrast Differenz +/- Grenzen------------------------------------------------------------------------------------L 1 - L 2 -0,006 0,0251053 L 1 - L 3 0,018 0,0251053 L 1 - L 4 *0,033 0,0251053L 2 - L 3 0,024 0,0251053 L 2 - L 4 *0,039 0,0251053L 3 - L 4 0,015 0,0251053 ------------------------------------------------------------------------------------* statistisch signifikante Differenz (α = 0,05)

Page 209: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Ergebnis:

- Zwischen zwei Laboratorien gibt es statistisch signifikante Mittelwertunterschiede hinsichtlich des Butandiolgehaltesvon Weinen auf dem 5%- igen Signifikanzniveau, d.h. in 5 % aller Fälle liefert die HSD- Methode von Tukey-

Cramer fälschlicherweise ein oder mehr signifikante Paare mit Mittelwertdifferenzen.

- Zwei homogene Gruppen von Laboratorien wurden gebildet:Gruppe 1: L 3 und L 4 undGruppe 2: L 1, L 2 und L 3.

Page 210: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bem.: Wenn Xi nicht normalverteilt und/ oder keine Varianz-homogenität vorliegen würde (s. Box- Whisker Plot!) → Kruskal- Wallis Test (unabh. Stichproben) anwenden!

H0: ζ1 =J= ζ4 (Mediane)Anz. MW der Ränge HA: ∃ (i,j): ζi ≠ ζj (i ≠j)

------------------------------------------------------------L 1 6 16,8333 L 2 6 17,75 L 3 6 10,75 L 4 6 4,66667 ------------------------------------------------------------

Wert der Teststatistik = 13,4436 →P- Wert = 0,0038 < α = 0,05 → Ablehnung von H0 (Gleichheit

der Mediane)

Um zu ermitteln, welcher der Mediane sich signifikant von welchem unterscheidet, kann man den Box- Whisker Plot mit der „notch option“ auswählen.

Page 211: Statistische Datenanalyse und Versuchsplanung · PDF fileMerkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Klassifizierungvon Merkmalen (Unterscheidung

Bem.: Bei zwei oder mehr Faktoren im Varianzanalyse-modell können neben den Haupteffekten der Faktorenauch deren Wechselwirkungen bestimmt werden.

Bsp.: Der Vanadiumgehalt in Wein ist von den Faktoren „Land“, „Typ“ und „Farbe“ abhängig.

Means Plot with confidence limits for Vanadium(Interaction: Type*Country*Colour)

Czech Republic Hungary

Romania South Africa

White wines

Type: Authentic Commercial-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

2,5V

an

ad

ium

Red wines

Type: Authentic Commercial

Wechsel-Wirkungs-plot