26
Teil I: Deskriptive Statistik 2 Grundbegriffe 2.1 Merkmal und Stichprobe 2.2 Skalenniveau von Merkmalen 2.3 Geordnete Stichproben und R¨ ange 2.1 Merkmal und Stichprobe An (geeignet ausgew¨ ahlten) Untersuchungseinheiten (Beobachtungsein– heiten, Merkmalstr¨ ager) werden Werte eines oder mehrerer Merkmale festgestellt. Merkmal (Variable) ist die zu untersuchende Gr¨ oße einer Untersuchungseinheit. StatBio 24

Teil I: Deskriptive Statistik - Rechenzentrum: Startseite I: Deskriptive Statistik 2 Grundbegri e 2.1 Merkmal und Stichprobe 2.2 Skalenniveau von Merkmalen 2.3 Geordnete Stichproben

Embed Size (px)

Citation preview

Teil I: Deskriptive Statistik

2 Grundbegriffe

2.1 Merkmal und Stichprobe

2.2 Skalenniveau von Merkmalen

2.3 Geordnete Stichproben und Range

2.1 Merkmal und Stichprobe

An (geeignet ausgewahlten)

Untersuchungseinheiten (Beobachtungsein–heiten, Merkmalstrager)

werden Werte eines oder mehrerer Merkmale

festgestellt.

Merkmal (Variable) ist die zu untersuchende

Große einer Untersuchungseinheit.

StatBio 24

Merkmalsauspragungen sind die moglichen

Werte, die von einem Merkmal angenommen

werden konnen.

Tabelle 2–1 Merkmale und ihre Auspragungen

Einheit Merkmal AuspragungPerson Geschlecht weiblich, mannlich

Alter in Jahren 1, 2, 3, . . .Blutgruppe A, B, AB, 0Bluthochdruck Werte in mmHg

Bakterienkolonie Durchmesser Werte in mm

Baum Baumart Eiche, Buche,...

Grundgesamtheit (Kollektiv, Population):

Menge aller potentiellen Untersuchungseinheiten

fur eine bestimmte Fragestellung.

Totalerhebung: Alle Merkmalstrager einer

Grundgesamtheit werden in die Untersuchung

einbezogen.

StatBio 25

Stichprobe: Endliche Teilmenge einer Grund-

gesamtheit. Hat diese Menge n Elemente, so

spricht man von einer Stichprobe vom Umfang

n (sample of size n).

Daten, Beobachtungen: konkrete Werte der

Merkmalsauspragungen einer Stichprobe.

Beispiel:

Grundgesamtheit: Alle Personen

Merkmal: Plasmaalbumingehalt

Stichprobe vom Umfang 5: A, B, C, D, E

Daten: 3.9, 3.3, 4.6, 4.0, 3.8

Bemerkung: Die Begriffe Stichprobe und Daten

werden auch haufig synonym verwendet (so auch

im Folgenden).

StatBio 26

Qualitative (artmaßig erfassbare) Merkmalehaben nur endlich viele Auspragungen, die Na-

men oder Kategorien sind.

Beispiele:

– Geschlecht

– Blutgruppe

– Rhesusfaktor

Quantitative (in naturlicher Weise zahlenmaßig

erfassbare) Merkmale liegen vor, wenn ihre Aus-

pragungen eine Große wiedergeben.

Beispiele:– Kinderzahl

– Anzahl zuckerkranker Personen

– Korpertemperatur

– Adrenalinkonzentration

– Korpergewicht

– Korpergroße

StatBio 27

Eine andere Unterscheidung ist in diskrete und

stetige Merkmale.

• Diskretes Merkmal (discrete variable): Ein

solches Merkmal kann nur endlich viele oder

hochstens abzahlbar unendlich viele Aus-

pragungen annehmen (haufig ganzzahlig, also

0, 1, 2, ...). Alle qualitativen Merkmale sind

trivialerweise diskret. Quantitative Merkmale

sind dann diskret, wenn ihre Merkmalsaus-

pragungen durch einen Zahlvorgang ermittelt

werden (sogenannte Zahldaten).

Beispiele fur Zahldaten:

– Anzahl herzkranker Personen

– Anzahl der Blutspender

– Anzahl der Pulsschlage

– Anzahl der Baume in einer Region

StatBio 28

• Stetiges Merkmal (continuous variable): Die

Auspragungen konnen (wenigstens dem Prin-

zip nach) beliebige Werte aus einem Intervall

annehmen, alle Werte aus einem Intervall sind

also denkbar. Die Auspragungen werden in der

Regel durch einen Messvorgang ermittelt, so-

genannte Messdaten.

Beispiele fur Messdaten:

– Blutdruck

– Korpertemperatur

– Adrenalinkonzentration

– Laktatkonzentration

Zusammenfassung:

Merkmal diskret stetigqualitativ ja neinquantitativ ja ja

(Zahldaten) (Messdaten)

StatBio 29

Bemerkung: Stetige Merkmale konnen nur dis-

kret beobachtet werden (Messgenauigkeit), An-

gaben z. B. auf zwei Dezimalstellen hinter

dem Komma genau (Rundungen). In der Pra-

xis ist die Unterscheidung diskret/stetig vielfach

willkurlich.

2.2 Skalenniveau von Merkmalen

Fur statistische Analysen ist die Einteilung in

qualitative und quantitative Merkmale zu grob.

Von entscheidender Bedeutung fur die

– Interpretation von Daten und

– Eignung statistischer Verfahren

ist es, wie bzw. nach welchen Kriterien die Merk-

malsauspragungen gemessen und geordnet wer-

den konnen.

StatBio 30

Grundsatzlich erfolgt die Messung der Merk-malswerte mit Hilfe einer Skala (Messvor-schrift).

Skala: Anordnung von Zahlen, denen die Merk-

malsauspragungen eindeutig zugordnet werden.

Skalenwerte: Zahlenwerte, die auf einer Skala

Berucksichtigung finden. Man spricht in diesem

Zusammenhang auch von Skalierung.

Das Skalenniveau gibt an

1. welche Vergleichsaussagen und welche rechne-

rischen Operationen fur die Skalenwerte sinn-

voll und somit zulassig sind

2. welche Transformationen von Skalenwer-ten die Messung erhalten (sogenannte zulassi-

ge Transformationen).

StatBio 31

Die verschiedenen Skalenniveaus (Ubersicht):

Qualitative Merkmale

Nominalskala Ordinalskala

Quantitative Merkmale

Metrische Skala

Intervallskala Verhaltnisskala

StatBio 32

Nominalskala (Skala mit dem niedrigsten Niveau)

Charakteristika:

– keine naturliche Rangordnung der Skalenwerte

– Zuordnung von Zahlen ist lediglich eine Ko-

dierung der Merkmalsauspragungen

– Anordnung hat keine inhaltliche Bedeutung

Vergleichsaussagen: gleich (=), ungleich (6=)

Rechnerische Operationen: Haufigkeiten

Zulassige Transformationen: bijektive (einein-

deutige) Abbildungen (siehe Aufgabe 3, Blatt

1)

StatBio 33

Tabelle 2–2 Nominale Merkmale und Kodierungen

Merkmal Merkmalsauspragungen KodierungBaumart Eiche 1

Buche 2Birke 3Linde 4sonstige 5

Geschlecht mannlich 0weiblich 1

Blutgruppe 0 0A 1B 2AB 3

Spezialfall nominalskalierter Merkmale sind

binare Merkmale (dichotome Merkmale):

Merkmale mit nur zwei Auspragungen (haufig

0/1–kodiert).

StatBio 34

Ordinalskala (Rangskala)

Charakteristika:

Die Merkmalsauspragungen sind Kategorien, bei

denen eine naturliche Rangordnung aufgrund

ihrer Große bzw. Intensitat gegeben ist.

Vergleichsaussagen: gleich (=), ungleich (6=)

sowie kleiner (<), großer (>)

Rechnerische Operationen: Haufigkeiten,

Range

Zulassige Transformationen: streng monotone

(ordnungserhaltende) Abbildungen (siehe Aufga-

be 3, Blatt 1)

StatBio 35

Tabelle 2–3 Ordinale Merkmale und Kodierungen

Merkmal Auspragung KodierungAntibiotikaresistenz sehr sensitiv 1

sensitiv 2intermediar 3resistent 4sehr resistent 5

Schmerzen wenig −1 1 3mittel 0 2 2stark 1 3 1

Bei nominal– und ordinalskalierten Merkmalen

haben Abstande (Differenzen) und Verhaltnis-se (Quotienten) von Skalenwerten keine inhalt-liche Bedeutung, sind also nicht vergleichbar.

StatBio 36

Bei quantitativen Merkmalen verwendet man ei-

ne metrische Skala. Hier liegt Messbarkeit im

engeren Sinne vor, wobei Skalenwerte im Allge-

meinen eine Dimension haben (Celsius, mg/l,

mmol, sec, cm, usw.).

Charakteristika:

– Abstande zwischen Skalenwerten sind inter-

pretierbar

– Naturliche Rangordnung durch Große der

Merkmalswerte.

Bei der metrischen Skala wird zwischen Intervall–

und Verhaltnisskala unterschieden.

StatBio 37

Intervallskala (Differenzenskala)

Charakteristika:

Bezugspunkt dieser Skala (Nullpunkt, Durch-

schnittswert) ist willkurlich festgelegt. Konse-

quenz: Vergleich von Differenzen ist sinnvoll,

nicht aber von Quotienten.

Vergleichsaussagen: gleich (=), ungleich (6=)

sowie kleiner (<), großer (>)

Rechnerische Operationen: Haufigkeiten,

Range, Subtraktionen

Zulassige Transformationen: lineare Abbildun-

gen (siehe Aufgabe 3, Blatt 1)

Beispiele intervallskalierter Merkmale:

– Temperatur in Celsius (Gefrierpunkt Wasser

= 0◦ C) bzw. in Fahrenheit (Korpertempe-

ratur Mensch = 100◦ F) (Vgl. Aufgabe 4, Blatt 1)

StatBio 38

– Intelligenzquotient nach Wechsler

(Durchschnittswert = 100)

Verhaltnisskala (Ratioskala)

Charakteristika:

Naturlicher (absoluter) Nullpunkt ist gegeben,

Vergleich von Verhaltnissen (Quotienten) ist

daher sinnvoll. Gleiche Quotienten drucken einen

gleich großen Unterschied aus.

Vergleichsaussagen: gleich (=), ungleich (6=)

sowie kleiner (<), großer (>)

Rechnerische Operationen: Haufigkeiten,

Range, Subtraktionen, Divisionen

Zulassige Transformationen: lineare homoge-

ne Abbildungen (siehe Aufgabe 3, Blatt 1)

StatBio 39

Beispiele verhaltnisskalierter Merkmale:

– Alter in Jahren

– Lange

– Gewicht

– Temperatur in Kelvin

(0◦ Kelvin = −273.15◦ Celsius).

Die verschiedenen Skalenniveaus stellen eine

Hierachie dar:

Tabelle 2–4 Sinnvoll interpretierbare Berechnungen

Skala zahlen ordnen subtrahieren dividierenNominal ja nein nein neinOrdinal ja ja nein neinIntervall ja ja ja nein

Verhaltnis ja ja ja ja

StatBio 40

Bemerkung: Statistische Methoden, die fur ein

niedriges Skalenniveau geeignet sind, konnen

auch fur ein hoheres Skalenniveau verwendet

werden (zahlen und ordnen ist stets fur metri-

sche Merkmale durchfuhrbar). Die Umkehrunggilt nicht! Fur metrische Merkmale kann et-

wa der Durchschnittswert (arithmetisches Mit-

tel) berechnet werden, was fur ordinal– und no-

minalskalierte Merkmale im Allgemeinen vollig

sinnlos ist.

StatBio 41

Skalentransformationen

Fur die statistische Analyse kann es sinnvoll sein,

metrische Daten so zu transformieren, dass ih-

re Auspragungen ordinalskaliert sind, auch wenn

solche Transformationen immer mit einem gewis-

sen Informationsverlust verbunden sind (denn

aus der Kenntnis der transformierten Werte

konnen die ursprunglichen Werte nicht mehr

zuruckgewonnen werden).

Die wichtigsten Transformationen sind der Uber-

gang zu

– Kategorien, Klassen (Klassenbildung ,,von

... bis”, ,,Klassierung der Daten”)

– Rangen (Daten werden der Große nach ge-

ordnet, der kleinste Wert erhalt Rang 1, der

zweitkleinste Wert Rang 2, usw.)

StatBio 42

Beispiel 2.1: Von 20 Blutproben wurde der

Plasmaalbumingehalt (in g/dl) bestimmt, wobei

sich folgende Werte ergaben:

3.9, 3.3, 4.6, 4.0, 3.8, 3.8, 3.6, 4.6 4.0 3.9

3.9, 3.9, 4.1, 3.7, 3.6, 4.6 4.0, 4.0, 3.8 4.1

Die Merkmalsauspragung Plasmaalbumingehalt

wird auf der Verhaltnisskala gemessen. Ord-

net man die Werte in aufsteigender Reihen-

folge, so lassen sich die Rangpositionen zu-

ordnen. Des Weiteren wird die Kategorie 1

,,Plasmaalbumingehalt ≤ 4.0” und die Katego-

rie 2 ,,Plasmaalbumingehalt > 4.0” betrachtet.

StatBio 43

Tabelle 2–5 Skalen–Transformation der Plasma–Daten

Patient– Wert geordnete Rang KategorieNr. Werte1 3.9 3.3 1 12 3.3 3.6 2.5 13 4.6 3.6 2.5 14 4.0 3.7 4 15 3.8 3.8 6 16 3.8 3.8 6 17 3.6 3.8 6 18 4.6 3.9 9.5 19 4.0 3.9 9.5 1

10 3.9 3.9 9.5 111 3.9 3.9 9.5 112 3.9 4.0 13.5 113 4.1 4.0 13.5 114 3.7 4.0 13.5 115 3.6 4.0 13.5 116 4.6 4.1 16.5 217 4.0 4.1 16.5 218 4.0 4.6 19 219 3.8 4.6 19 220 4.1 4.6 19 2

StatBio 44

Durchschnittsrang

Der Beobachtungswert 3.6 kommt zweimal vor.

Es sind die Range 2 und 3 zu vergeben. Bilden

des Durchschnittsrangs:

Rang(3.6) =2 + 3

2= 2.5

Der Beobachtungswert 3.8 kommt dreimal vor.

Es sind die Range 5, 6 und 7 zu vergeben: Bilden

des Durchschnittsrangs:

Rang(3.8) =5 + 6 + 7

3= 6

etc.

StatBio 45

2.3 Geordnete Stichproben und Range

Gegeben seien Daten

x1, x2, . . . , xn

Bezeichne

x(1) die kleinste der n Zahlen x1, . . . , xn

x(2) die zweitkleinste der n Zahlen x1, . . . , xn

...

x(n) die großte der n Zahlen x1, . . . , xn

x(k) heißt k–te Ordnungsgroße. Per Definition

gilt stets

x(1) ≤ x(2) ≤ . . . ≤ x(n)

x(1), . . . , x(n) heißt geordnete Stichprobe.

StatBio 46

Tabelle 2–6 Geordnete Plasma–Daten

i xi x(i) i xi x(i)

1 3.9 3.3 11 3.9 3.92 3.3 3.6 12 3.9 4.03 4.6 3.6 13 4.1 4.04 4.0 3.7 14 3.7 4.05 3.8 3.8 15 3.6 4.06 3.8 3.8 16 4.6 4.17 3.6 3.8 17 4.0 4.18 4.6 3.9 18 4.0 4.69 4.0 3.9 19 3.8 4.6

10 3.9 3.9 20 4.1 4.6

Der Rang einer Zahl xi innerhalb einer Stich-

probe gibt an, die wie–vielt–kleinste Zahl sie ist.

Um den Rang einer Beobachtung zu bestimmen

ist es sinnvoll, die Daten der Große nach zu

ordnen.

Formaler versteht man unter einem Rang folgen-

des:

StatBio 47

1. Fall: Der Beobachtungswert xi kommt in der

Stichprobe nur einmal vor. Dann ist der Rangvon xi gleich 1 plus Anzahl der Beobachtungen

die kleiner als xi sind:

Rang(xi) = 1 + Anzahl der xj mit xj < xi

2. Fall: Der Beobachtungswert xi kommt in der

Stichprobe k–mal vor, k ≥ 2 (man spricht von

einer Bindung der Lange k). Dann hat man fur

diese k gleichen Beobachtungswerte die Range

ri, ri + 1, . . . , ri + (k − 1)

zu vergeben, wobei

ri = 1 + Anzahl der xj mit xj < xi

Kame der Beobachtungswert xi nur einmal vor,

so ware die Zahl ri der Rang von xi.

StatBio 48

Diese k gleichen Beobachtungswerte bekommen

alle den gleichen Rang, den Durchschnittsrang.

Dieser ist definiert als das arithmetische Mittel

der zu vergebenden Range:

Rang(xi)

=ri + (ri + 1) + . . .+ [ri + (k − 1)]

k(2.1)

Formel (2.1) lasst sich vereinfachen (Aufgabe 6,

Blatt 1).

Beachte: Die Rang–Transformation

xi→ Rang(xi)

einer Beobachtung xi ist immer nur in Bezug auf

die Daten x1, . . . , xn festgelegt! (Vgl. Aufgabe

7, Blatt 1)

StatBio 49