32
1 M. Kresken Testen von Hypothesen

1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

Embed Size (px)

Citation preview

Page 1: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

1M. Kresken

Testen vonHypothesen

Page 2: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

2M. Kresken

Testen von Hypothesen

• Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht direkt bewiesen werden, da „unbekannte“ Faktoren eventuell vorhandene deterministische Gesetzmäßigkeiten „stören“.

• Die Gültigkeit einer wissenschaftlichen Hypothese wird überprüft, indem ein konkretes Experiment benutzt wird, um die Vereinbarkeit der Hypothese mit der Realität zu klären.

Page 3: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

3M. Kresken

Testen von Hypothesen

• Wird beispielsweise untersucht, ob eine bestimmte Operationsmethode den Blutzuckerspiegel beeinflusst, muss zusätzlich die Tatsache berücksichtigt werden, dass mehrfache Blutzuckerbestimmungen beim gleichen Patienten zufällige (biologische) Schwankungen aufweisen.

• Auch bei fehlendem Einfluss werden die Messungen der Blutzuckerwerte eines Patienten vor und nach der Operation voneinander abweichen.

• Sind die beobachteten Blutzuckerveränderungen jedoch ausschließlich durch Zufallsschwankungen bedingt, kann man erwarten, dass diese Differenzen im Mittel sehr klein sind, also nur zufällig vom Erwartungswert Null abweichen.

Page 4: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

4M. Kresken

Testen von Hypothesen

• Auf dieser Tatsache basiert die Konstruktion von Beurteilungskriterien für die Hypothese.

• Hypothesen der Art „Es besteht kein Unterschied.“ oder „Beobachtete Unterschiede weichen nur zufällig von Null ab.“ werden in der Statistik als Nullhypothese (H0) bezeichnet.

• Die zu H0 komplementäre Aussage heißt Alternativhypothese (H1).

• Um die Hypothese „Die beobachteten Unterschiede weichen nur zufällig von Null ab.“ beurteilen zu können, werden Modelle der Wahrscheinlichkeitsrechnung herangezogen.

Page 5: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

5M. Kresken

Binominaltest

• Beispiel: Zur Verbesserung der Compliance einer notwendigen Vitamintherapie werden 11 Kindern in zufälliger Reihenfolge Brausetabletten zweier verschiedener Geschmacksrichtungen – Orangen- und Bananengeschmack – verabreicht.

• Jedes Kind sollte über die bevorzugte Geschmacksrichtung entscheiden.

Page 6: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

6M. Kresken

Binominaltest

• Folgende Überlegungen:- Besteht bei den Kindern keine systematische Bevorzugung einer

der beiden Geschmacksrichtungen, so ist zu erwarten, dass die eine Hälfte der Kinder Orangengeschmack und die andere Hälfte Bananengeschmack bevorzugt („unentschieden“ ist dabei nicht zugelassen).

- Untersucht man eine zufällige Stichprobe von Kindern, so wird unter der Voraussetzung gleichwahrscheinlicher Entscheidungen für Orangen- oder Bananengeschmack die Abfolge der Ergebnisse für den Betrachter zufällig erscheinen.

- In diesem Fall wäre die Entscheidung in jedem einzelnen Experiment für Orangen- oder Bananengeschmack gleichbedeutend mit dem Auftreten von Kopf oder Zahl beim wiederholten Werfen einer Münze.

Page 7: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

7M. Kresken

Binominaltest

• Folgende Überlegungen II:- Somit ist die Anzahl der „Erfolge“ – in diesem Fall die

Bevorzugung von Orangengeschmack – binominal(n,p)-verteilt.

- Dabei ist p die Wahrscheinlichkeit für die Bevorzugung von Orangengeschmack und n der Stichprobenumfang.

- Geht man davon aus, dass es keine Präferenz für eine der beiden Geschmacksrichtungen gibt, wird für dieses Beispiel die Nullhypothese für den Parameter p der Binominalverteilung

H0: p = 0,5

und entsprechend die komplementäre AlternativhypotheseH1: p 0,5

nahe gelegt.

Page 8: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

8M. Kresken

Binominaltest• Folgende Überlegungen III:

- Da die Alternative eine Bevorzugung einer der beiden Geschmacksrichtungen beschreibt – mathematisch durch p 0,5 formuliert -, kann also sowohl p > 0,5 (Bevorzugung von Orangengeschmack) als auch p < 0,5 (Bevorzugung von Bananengeschmack) zutreffen.

- Eine solche Formulierung der Alternativhypothese heißt deshalb zweiseitig.

- Als Prüfgröße zur Beurteilung von H0 wird die Zufallsvariable „Zahl der Bevorzugungen von Orangengeschmack in einer Stichprobe vom Umfang n“ betrachtet.

- Liegt die Zahl der Bevorzugungen von Orangengeschmack nahe bei n - entscheidet sich also die überwiegende Mehrzahl der Kinder im Versuch für Orangengeschmack -, so hat man gute Gründe, die Gültigkeit der Nullhypothese anzuzweifeln.

- Das Ergebnis des Versuchs „spricht“ dann eher für die Alternativhypothese, die hier als eine Bevorzugung von Orangengeschmack interpretiert wird.

- Aus den Ergebnissen wird im Allgemeinen der so genannte Wert der Prüfgröße berechnet.

- Anhand dieses Wertes lassen sich die Versuchsausgänge unter Gültigkeit von H0 in extrem oder nicht extrem bewerten.

- Die Prüfgröße beim Binominaltest ist die Anzahl k der Erfolge bzw. Bevorzugungen.

Page 9: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

9M. Kresken

Binominaltest• Folgende Überlegungen IV:

- Wenn die Nullhypothese (p = 0,5) gilt, sind die Anzahlen k der Kinder, die Orangengeschmack bevorzugen, unter n = 11 befragten Kindern(11, 0,5)-verteilt.

- Daraus geht hervor, dass der Versuch durchaus mit extremen Ergebnissen, d. h. Anzahlen k von Bevorzugungen von Orangengeschmack enden kann, falls die Nullhypothese zutrifft.

- So ist die Wahrscheinlichkeit für 10 oder 11 Bevorzugungen von Orangengeschmack:

(1110) ( 1

2 )•11

(1111) ( 1

2 )•11

+ = (11 + 1) • 1

2048 =12

2048

- Wenn p = 0,5 gilt, so wäre es genauso wenig wahrscheinlich, 0 oder 1 Bevorzugung von Orangengeschmack wie 10 oder 11 zu erhalten, d.h. 0 oder 1 Bevorzugungen wären ein genauso extremes Ergebnis wie 10 oder 11.

- Insgesamt ist dann die Wahrscheinlichkeit für die extremen Anzahlen 0,1,10 oder 11 Bevorzugungen gegeben durch:

= 0,0059.

12 + 122048

= 0,0117

Page 10: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

10M. Kresken

Wahrscheinlichkeitsfunktion der Binominalverteilung (11, 0,5)

Page 11: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

11M. Kresken

Signifikanzniveau

• Die zentrale Bedeutung der Nullhypothese (H0) ist, dass sie Annahmen zur Formulierung eines Wahrscheinlichkeitsmodells festlegt.

• Lassen sich die tatsächlichen Beobachtungen durch das so festgelegte Modell nur unzugänglich erklären, werden die ursprünglichen Annahmen (die Nullhypothese) als unhaltbar verworfen.

• Die Denkweise ist dabei die folgende: Unter der Annahme der Richtigkeit der Nullhypothese ist man in der Lage, die Verteilung der Prüfgröße (im Beispiel war dies die Zahl der Bevorzugungen) vor Beginn des Versuchs zu spezifizieren.

• So können Aussagen über das voraussichtliche Versuchsergebnis gemacht werden.

• Es wird ein Bereich angegeben, in dem der Wert der Prüfgröße mit einer bestimmten (hohen), vor Versuchsbeginn festzulegenden Wahrscheinlichkeit zu finden sein wird (z.B. 95% oder 99%).

• In den komplementären Bereich fällt bei Zutreffen der Nullhypothese die Prüfgröße nur mit einer geringen Wahrscheinlichkeit von = 0,05 (5%) bzw. 0,01 (1%), der so genannten Irrtumswahrscheinlichkeit.

Page 12: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

12M. Kresken

Signifikanzniveau• Fällt der Wert der Prüfgröße in diesen Ablehnbereich oder Verwerfungsbereich,

so ist ein Ereignis eingetreten, dem bei Zutreffen der Nullhypothese nur eine geringe Wahrscheinlichkeit zukommt.

• In diesem Falle wird man sich daher dafür entscheiden, die Nullhypothese fallen zu lassen:

Die Nullhypothese wird verworfen.

• Fällt die Realisation der Prüfgröße nicht in den Ablehnbereich (also in den Annahmebereich), so hat das Experiment keine gewichtigen statistischen Gründe geliefert, die Nullhypothese anzuzweifeln.

Die Nullhypothese wird nicht verworfen.

• Wird vor dem Versuch die Irrtumswahrscheinlichkeit von = 0,05 (5%) gewählt, so bedeutet dies, dass im Durchschnitt in 5 von 100 gleichartigen Experimenten der Test zu einer fälschlichen Ablehnung der Nullhypothese führt.

• D.h. für den Fall, dass die Nullhypothese zutrifft, wird sie mit 5% Wahrscheinlichkeit irrtümlicherweise abgelehnt.

• Die Wahrscheinlichkeit = 0,05 (5%) heißt auch Signifikanzniveau.

Page 13: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

13M. Kresken

Signifikanzniveau• Häufig wird die Entscheidung bei einem statistischen Test an Hand des

p-Wertes und nicht des Wertes der Prüfgröße getroffen. (Leider wird in der üblichen Nomenklatur der Buchstabe p auch für den Parameter der Binominalverteilung verwendet.)

• Der p-Wert gibt die Wahrscheinlichkeit an, vorliegende oder extremere Versuchsgänge zu beobachten, wenn die Nullhypothese zutrifft.

• Die Berechnung erfolgt über den beobachteten Wert der Prüfgröße.

• Die Entscheidungsregel für bzw. gegen das Verwerfen der Nullhypothese lässt sich dann – analog zum Vergleich des beobachteten Wertes der Prüfgröße mit dem Schwellenwert – an Hand des Vergleiches des p-Wertes mit dem Signifikanzniveau (häufig 0,05) in der Form

verwerfe die Nullhypothese, falls gilt: p bzw.

verwerfe die Nullhypothese nicht, falls gilt: p >

formulieren.

Page 14: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

14M. Kresken

Zweiseitiger 5% Ablehnbereich beim Binominaltest (11, 0,5)

Page 15: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

15M. Kresken

Signifikanzniveau• Da die Richtung der Bevorzugung vor Versuchsbeginn unbekannt ist, wird ein

zweiseitiger symmetrischer Bereich so gewählt, dass der Ablehnbereich in je einen unteren sowie einen oberen 2,5%-Bereich zerfällt.

• Man spricht von einem zweiseitigen Niveau--Test mit zugehörigem zweiseitigen 5%-Ablehnbereich bzw. dem zweiseitigen p-Wert.

• Im Gegensatz dazu wird bei einem einseitigen Niveau--Test beispielsweise die einseitige Nullhypothese H0: p 0,5 gegen die einseitige Alternativhypothese H1: p > 0,5 auf dem Signifikanzniveau geprüft.

• Dabei ist man an der Aussage „der Anteil p ist größer als 0,5“ interessiert.

• Der einseitige 5%-Ablehnbereich ist dann durch die Ergebnisse k = 9,10,11 gegeben, da die einseitige Nullhypothese nur verworfen wird, wenn die Anzahl der Bevorzugungen von Orangengeschmack nahe bei n liegt.

• Die Auswahl, ob eine medizinische Fragestellung „einseitig“ oder „zweiseitig“ geprüft werden soll, ist vor dem Test auf Grund sachlogischer Überlegungen festzulegen.

Page 16: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

16M. Kresken

Einseitiger 5% Ablehnbereich beim Binominaltest (11, 0,5)

Page 17: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

17M. Kresken

Signifikanzniveau

Beispiel:

• Nehmen wir an, dass 10 Kinder Tabletten mit Orangengeschmack bevorzugt hätten.

• Dann ergibt sich auf Grund der Beobachtung von 10 Bevorzugungen ein einseitiger p-Wert von 0,0059, berechnet als Wahrscheinlichkeit für Werte von k, die größer oder gleich dem Wert von k = 10 sind (also 10 und 11).

• Der entsprechende zweiseitige Wert beträgt p = 0,0117, berechnet als Wahrscheinlichkeit für Werte von k, die größer oder gleich k = 10 bzw. kleiner oder gleich k = 11-10 = 1 sind (also 0,1,10,11).

• Wurde vor Studienbeginn das Signifikanzniveau von 5% für den zweiseitigen Wert gewählt, so lautet die Testentscheidung, da der p-Wert von 0,0117 kleiner als das Signifikanzniveau von 5% ist, dass die Nullhypothese zu verwerfen ist.

• Gleichzeitig ist im Fall eines signifikanten zweiseitigen Testergebnisses die einseitige Interpretation – hier signifikant höhere Anteil von Bevorzugungen von Orangengeschmack – zulässig.

Page 18: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

18M. Kresken

Fehler 1. und 2. Art

• Trifft man auf Grund des erläuterten Verfahrens eine Entscheidung, so kann diese richtig oder falsch sein.

• Die möglichen Ergebnisse des Entscheidungsprozesses lassen sich in einer Vierfeldertafel beschreiben.

richtige Entscheidungfalsche Entscheidung

„Fehler 1. Art“verwerfen

falsche Entscheidung

„Fehler 2. Art“richtige Entscheidungnicht verwerfen

falschrichtigNullhypothese

Nullhypothese ist tatsächlichTestentscheidung

lautet:

Entscheidungsschema eines statistischen Tests

Page 19: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

19M. Kresken

Fehler 1. und 2. Art

• Die Bedeutung einer Fehlentscheidung hängt von der betrachteten Fragestellung ab; es ist im Allgemeinen ohne weitere Annahmen nicht möglich, Wahrscheinlichkeiten für beide Fehlerarten anzugeben.

• Legt man jedoch einen Bereich fest, in welchem die Werte der Prüfgröße erwartet werden, wenn die Nullhypothese richtig ist, so ist dies gleichbedeutend mit der Festlegung der Wahrscheinlichkeit für einen Fehler 1. Art.

• Der Bereich wird dabei derart gewählt, dass der folgende Schluss möglich ist: Ist die Nullhypothese richtig, kommen Werte außerhalb dieses Bereiches, des so genannten „Annahmebereiches“, nur mit einer bestimmten vorgegebenen Wahrscheinlichkeit (der so genannten Irrtumswahrscheinlichkeit) vor.

Page 20: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

20M. Kresken

Fehler 1. und 2. Art

• Offensichtlich ist diese Irrtumswahrscheinlichkeit identisch mit der Wahrscheinlichkeit für den Fehler 1. Art. Die Wahl der Irrtumswahrscheinlichkeit ist im Prinzip freigestellt und hängt mit dem bereits angesprochenen Entscheidungsrisiko zusammen.

• Im Bereich der medizinischen Forschung haben sich Werte von 0,05 (5%) und 0,01 (1%) eingebürgert.

• Wie schon erläutert, bedeutet das Signifikanzniveau die Wahrscheinlichkeit für „falsch-positive“ Testentscheidungen, die nur auftreten können, wenn die Nullhypothese zutrifft.

Page 21: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

21M. Kresken

Fehler 1. und 2. Art

• Die Wahrscheinlichkeit für einen Fehler 2. Art kann im Allgemeinen nicht quantifiziert werden.

• Vorstellungen über die Größenordnung von ergeben sich, wenn man in einer Modellrechnung die Alternativhypothese in Form einer Punkthypothese (etwa p = 0,8) spezifiziert und damit berechnet.

Page 22: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

22M. Kresken

Fehler 1. und 2. Art

• Beispiel: Wir gehen davon aus, dass bei dem Test „Präferenz von Orangengeschmack“ ein zweiseitiger Test zum Signifikanzniveau = 0,05 geplant war.

• Um die Wahrscheinlichkeit für den Fehler 2. Art quantifizieren zu können, nehmen wir an, dass die Kinder eine klare Präferenz für Orangengeschmack von p = 0,8 haben.

• Somit wäre unter der Alternativhypothese H1: p = 0,8 die Zufallsvariable „Zahl der Kinder, die Orangengeschmack bevorzugen“(11, 0,8)-verteilt.

• Für eine Stichprobe vom Umfang n = 11 befragter Kinder erhält man dann die die folgende Verteilung (nächstes Chart):

Page 23: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

23M. Kresken

Wahrscheinlichkeitsfunktion der Binominalverteilung (11, 0,8)

Page 24: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

24M. Kresken

Fehler 1. und 2. Art

= 0,3221

• Tatsächlich würde man sich also lediglich mit der Wahrscheinlichkeit von p = 0,3221 (also ca. 32%) für eine Ablehnung der Nullhypothese (k = 0,1,10,11) entscheiden, falls die Alternative in der Form p = 0,8 zutrifft.

(110 ) (0,2)•

11

(111 ) ( )•

1

+ 0,8 ( )•10

0,2 (1110) ( )•

10

+ 0,8 ( )•1

0,2 (1111) ( )•

11

+ 0,8

Page 25: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

25M. Kresken

Fehler 1. und 2. Art

• Die konkrete Formulierung der relevanten punktuellen Alternativhypothese vor Versuchsbeginn ist im Allgemeinen ein schwieriges, manchmal jedoch auf Grund sachlogischer Argumente zumindest annährend zu lösendes Problem.

• Zuweilen geht man jedoch von einer punktförmigen Alternativhypothese aus, um den Mindest-Stichprobenumfang des Versuchs berechnen zu können.

• Dabei gibt der Unterschied zwischen dem Wert unter der Nullhypothese (in unserem Beispiel p = 0,5) und dem Wert der Alternativhypothese (gemäß der Annahme p = 0,8, Unterschied 0,3) den Effekt an, den es aufzudecken gilt.

• Der mindestnotwendige Stichprobenumfang „zum Aufdecken des relevanten Unterschiedes bei vorgegebener Sicherheit“ kann wie folgt abgeschätzt werden:

Page 26: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

26M. Kresken

Fehler 1. und 2. Art

• Aus der Theorie ist bekannt, dass sich mit wachsendem Stichprobenumfang die konkurrierenden Wahrscheinlichkeitsmodelle unter der Null- und Alternativhypothese immer mehr unterscheiden.

• Das bedeutet, dass bei vorgegebenem Fehler 1. Art und wachsendem Stichprobenumfang die Wahrscheinlichkeit für einen Fehler 2. Art kleiner wird.

• Mit wachsendem Stichprobenumfang steigt also die Chance, Abweichungen von der Nullhypothese auch zu entdecken.

• Die Wahrscheinlichkeit für die korrekte Ablehnung der Nullhypothese nennt man die Macht (POWER) eines Tests.

POWER = 1 – „Wahrscheinlichkeit für einen Fehler 2. Art“ = „Wahrscheinlichkeit für korrektes Verwerfen der Nullhypothese“

Page 27: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

27M. Kresken

Fehler 1. und 2. Art

• Beispiel: Nimmt man an, dass der Anteil der Kinder, die Orangengeschmack bevorzugen, tatsächlich p = 0,8 ist, so wäre bei Gültigkeit der Alternative die Zufallsvariable „Zahl der Kinder, die Orangengeschmack bevorzugen“(n, 0,8)-verteilt.

• In den folgenden Abbildungen ist die Verteilung der Prüfgröße k für H0: p = 0,5 und H1: p = 0,8 für die Stichprobenumfänge n = 25 undn = 50 veranschaulicht.

Page 28: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

28M. Kresken

Wahrscheinlichkeitsfunktion der Binominalverteilung (25, 0,5) und (25, 0,8)

Page 29: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

29M. Kresken

Wahrscheinlichkeitsfunktion der Binominalverteilung (50, 0,5) und (50, 0,8)

Page 30: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

30M. Kresken

Fehler 1. und 2. Art

• Die zweiseitigen 5%-Ablehnungsbereiche für den Binominaltest mit n = 25 setzen sich aus den Ergebnissen k = 0,....7 und k = 18,....25 bzw. für n = 50 aus den Ergebnissen k = 0,....17 und k = 33,....50 zusammen.

• Der folgende Tabelle entnimmt man die Macht (POWER) des zweiseitigen Binominaltests mit den punktförmigen Hypothesen in Abhängigkeit vom Stichprobenumfang n (H0: p = 0,5 und H1: p = 0,8)

Page 31: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

31M. Kresken

Macht (POWER) des zweiseitigen Binominaltests in Abhängigkeit vom Stickprobenumfang (H0: p = 0,5 und H1: p = 0,8)

nWahrscheinlichkeit für einen Fehler 2. Art (%)

POWER = 1 - (%)

11 67,8 32,2

15 35,2 64,8

20 19,6 80,4

25 10,9 89,1

30 6,1 93,9

35 3,4 96,6

40 1,9 98,1

45 1,1 98,9

50 0,6 99,4

100 0 100

Page 32: 1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht

32M. Kresken

Fehler 1. und 2. Art

• Versuchsplanerische Konsequenzen lassen sich aus der Tabelle folgendermaßen ziehen:

• Können auf Grund berechtigter medizinischer Annahmen die konkurrierenden Wahrscheinlichkeitsmodelle in der Form (H0: p = 0,5 und H1: p = 0,8) spezifiziert werden oder, anders formuliert, ist man an der Entdeckung einer relevanten Anteilsdifferenz von 0,3 gegenüber der Nullhypothese interessiert und möchte diesen Unterschied auch tatsächlich mit 90% Wahrscheinlichkeit entdecken, so wird ein Stichprobenumfang von mehr als n=25 (exakt berechnet 28) benötigt.

• Offensichtlich gilt, dass im Falle einer geringeren Anteilsdifferenz die entsprechende Power sinkt und damit ein größerer Stichprobenumfang benötigt wird.