25
Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion aus klassierten Daten Quantile aus klassierten Daten Worum geht es in diesem Modul In diesem Lernmodul wird die Klassierung von Daten und ihre Zusammenfassung in einer Häufigkeitstabelle behandelt. Nach der Erklärung ihres Aufbaus wird deren grafische Darstellung in Form eines Histogramms betrachtet. Anschließend wird die Verteilungsfunktion für klassierte Daten aufgestellt. Mögliche Anwendungsgebiete werden skizziert. Dies geschieht abschließend in Form eines statistischen Reports. Klassierung Bei einem Merkmal mit vielen möglichen Ausprägungen ergeben die bisher betrachteten Häufigkeitstabellen unter Umständen keine anschauliche Darstellung. (s. ). Im Rahmen des Mikrozensus, einer amtlichen Repräsentativstatistik über die Bevölkerung und den Arbeitsmarkt, an der jährlich 1% aller Haushalte in Deutschland beteiligt sind, wird eine Reihe von Daten erhoben; eine der hier gestellten Fragen ist die nach dem monatlichen Bruttoverdienst des befragten Haushalts. Die Übersichtlichkeit über dieses Datenmaterial kann nicht durch die Erstellung eines Stabdiagramms erhöht werden, da hier eine Vielzahl von unterschiedlichen Ausprägungen vorliegen. Deshalb wird eine "Transformation" des Datensatzes vorgenommen. Der Wertebereich wird in nicht-überlappende Teilbereiche, so genannte Klassen, eingeteilt. Diese Klassen stellen neue Ausprägungen dar, in welche die beobachteten Merkmalsausprägungen eingeteilt werden. Bei dieser Klassierung geht die Information über den genauen Wert der Ausprägung innerhalb der Klassen verloren. (c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten Page 1

Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

  • Upload
    vothuan

  • View
    217

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

Klassierte Daten

Worum geht es in diesem ModulKlassierung

Häufigkeitstabelle für klassierte DatenHistogramm

Verteilungsfunktion aus klassierten DatenQuantile aus klassierten Daten

Worum geht es in diesem Modul

In diesem Lernmodul wird die Klassierung von Daten und ihre Zusammenfassung ineiner Häufigkeitstabelle behandelt. Nach der Erklärung ihres Aufbaus wird derengrafische Darstellung in Form eines Histogramms betrachtet. Anschließend wird dieVerteilungsfunktion für klassierte Daten aufgestellt. Mögliche Anwendungsgebietewerden skizziert. Dies geschieht abschließend in Form eines statistischen Reports.

Klassierung

Bei einem Merkmal mit vielen möglichen Ausprägungen ergeben die bisherbetrachteten Häufigkeitstabellen unter Umständen keine anschauliche Darstellung.

(s. ).

Im Rahmen des Mikrozensus, einer amtlichen Repräsentativstatistik über dieBevölkerung und den Arbeitsmarkt, an der jährlich 1% aller Haushalte in Deutschlandbeteiligt sind, wird eine Reihe von Daten erhoben; eine der hier gestellten Fragen ist dienach dem monatlichen Bruttoverdienst des befragten Haushalts. Die Übersichtlichkeitüber dieses Datenmaterial kann nicht durch die Erstellung eines Stabdiagramms erhöhtwerden, da hier eine Vielzahl von unterschiedlichen Ausprägungen vorliegen.

Deshalb wird eine "Transformation" des Datensatzes vorgenommen. Der Wertebereichwird in nicht-überlappende Teilbereiche, so genannte Klassen, eingeteilt. Diese Klassenstellen neue Ausprägungen dar, in welche die beobachteten Merkmalsausprägungeneingeteilt werden. Bei dieser Klassierung geht die Information über den genauen Wertder Ausprägung innerhalb der Klassen verloren.

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 1

Page 2: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

Die Klassen werden durchgezählt und mittels eines Index bezeichnet. Bei Klassen

läuft der Index von bis . Jede Klasse hat eine untere (linke) und obere (rechte)

Klassengrenze. Für die i-te Klasse werden sie mit und bezeichnet.

Abgesehen von den Randklassen, ist die obere Klassengrenze der i-ten Klasse gleich derKlassengrenze der unteren Klassengrenze der (i+1)-ten Klasse.

Mit wird jeder Klasse eine Klassenbreite zugeordnet.

Ausprägungen, die genau mit einer Klassengrenze zusammenfallen, sind in die kleinereKlasse einzuordnen. Der Ausprägungsbereich der i-ten Klasse ist damit als

festgelegt.

: Flashanimation ' Animation Klassierung ' siehe Online-Version

Häufigkeitstabelle für klassierte Daten

Bei der Erstellung einer klassierten Häufigkeitstabelle werden nicht die beobachtetenMerkmalsausprägungen und ihre Häufigkeiten, sondern die Häufigkeiten derbeobachteten Klassen betrachtet (s. Abschnitt Klassierung ).

Die Häufigkeit der i-ten Klasse gibt an, wie oft eine Merkmalsausprägung im Datensatzauftritt, die zwischen den Grenzen der i-ten Klasse liegt. Diese Zählung liefert dieabsolute Häufigkeit für die i-te Klasse. Der Umfang des Datensatzes bleibt unverändert.Die relative Häufigkeit für die i-te Klasse wird jeweils durch die Division derzugehörigen absoluten Häufigkeit durch den Umfang des Datensatzes bestimmt.

Klassennummer Auspräg.bereich absolute Häufigkeit relative Häufigkeit

1

2

Die i-te Klasse lässt sich schreiben als oder auch als .

Die absolute Häufigkeit der i-ten Klasse wird als

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 2

Page 3: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

,

die entsprechende relative Häufigkeit als

angegeben.

Für das Beispiel werden 100 Haushalte nach ihrem monatlichen Bruttoverdienst befragt.Die erhobenen Daten werden in einer klassierten Häufigkeitstabelle dargestellt:

1 0 500 9 0.09

2 500 1000 13 0.13

3 1000 1500 32 0.32

4 1500 2000 41 0.41

5 2000 3000 3 0.03

6 3000 5000 2 0.02

Wir sehen, dass der Großteil der Bruttoverdienste in dem mittleren Einkommensbereichliegt, die wenigsten zu den Spitzenverdienern zählen. Da die "wahren" Einkommen inden Klassen verschwinden, ist nicht mehr klar, wie viel genau die beidenSpitzenverdiener tatsächlich verdienen.

Zur praktischen Umsetzung der hier vorgestellten statistischen Methoden imStatistiklabor sei auf den folgenden Exkurs verwiesen.

Beispiel: Körpergewicht - Erstellung einer klassierten Häufigkeitstabelle

Problemstellung

Im Rahmen des Fragebogens, den die Studierenden des ersten Semesters in der

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 3

Page 4: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

Veranstaltung Statistik-I ausfüllen sollten, wurde neben vielen weiteren Merkmalenauch das Körpergewicht der dort Anwesenden erhoben.

Dabei ergab sich folgende Urliste der 20 Studierenden:

79 73 70 71 80 70 68 66 80 80

74 80 70 76 75 84 83 73 76 69

Der Dozent dieser Veranstaltung möchte nun diese Urliste genauer untersuchen, umAussagen über die Verteilung des Körpergewichts treffen zu können

Lösungsweg

Die Lösung besteht darin, die Daten zu klassieren. Der Dozent entschließt sich für diefolgenden 4 Klassen:

1.Klasse: von über 65 bis 702.Klasse: von über 70 bis 753.Klasse: von über 75 bis 804.Klasse: von über 80 bis 85

Aus dem vorliegenden Datensatz erstellt er hiernach die folgende Häufigkeitstabelle:

1 65 70 6 0.3

2 70 75 5 0.25

3 75 80 7 0.35

4 80 85 2 0.1

Antwort

Nach dieser klassierten Häufigkeitstabelle wiegen die meisten Studierenden derStatistik-I-Veranstaltung zwischen 75 und 80 kg; diese machen einen Anteil von 35%an den befragten Studierenden aus. Die wenigsten Studierenden befinden sich in dervierten Klasse der Häufigkeitstabelle - nur 10% haben ein Gewicht zwischen 80 und 85kg.

Um weitergehende Aussagen treffen zu können, scheint unser Dozent eine anderestatistische Methode anwenden zu müssen, welche diesen Sachverhalt deutlicherdarstellt.

Um detailliertere Informationen zu erhalten, wählt der Dozent eine kleinere

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 4

Page 5: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

Klassenbreite:

1 65 68 2 0.1

2 68 71 5 0.25

3 71 74 3 0.15

4 74 77 3 0.15

5 77 80 5 0.25

6 80 83 1 0.05

7 83 86 1 0.05

Antwort

Die zweite Tabelle lässt sich schwerer interpretieren, da hier 7 und nicht 4 Klassengebildet wurden. In der zweiten und in der fünften Klasse liegen die meisten Werte.Jeweils 25% der Studierenden wiegen zwischen 68 und 71 kg beziehungsweisezwischen 77 und 80 kg. Die wenigsten Werte können in den letzten beiden Klassenbeobachtet werden - dort liegt jeweils nur ein Beobachtungswert.

Die relativen Häufigkeiten in den einzelnen Klassen lassen, wie bereits in der erstenklassierten Häufigkeitstabelle, eher auf eine schiefe Verteilung des Datensatzesschließen.

Zu Beginn des Wintersemesters ist es für jeden unterkunftssuchenden Studierenden eineSelbstverständlichkeit, in den Anzeigenteil der hiesigen Tageszeitung zu blicken. In derletzten Ausgabe der Zeitung erschienen 20 Anzeigen für in Frage kommendeWohnungen, bei denen die Warmmiete angegeben wurde:

690 370 490 580 650 460 460 479 580 490

660 560 500 383 580 400 650 580 522 469

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 5

Page 6: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

a) Erstellen Sie die Häufigkeitstabelle. Wählen Sie dabei eine Klassenbreite von 70 undbilden Sie 5 Klassen, wobei die erste bei 350 beginnt.

b) Verkleinern Sie nun die Klassenbreite auf 50 und erstellen Sie erneut eineHäufigkeitstabelle.

c) Interpretieren Sie Ihre Ergebnisse.

Die Funktion KontHaeuf setzt das Konzept der Häufigkeitstabelle für klassierte Datenim Labor um.

- Aufruf im Statistiklabor: KontHaeuf(x)- Demoseite im Statistiklabor: Häufigkeitstabelle für klassierte Daten ( d14.spf )

Hinweise

- Die Funktion ist nur auf Daten x in der Form einer Urliste oder Rangwertreiheansetzbar.- NA`s sind in Urlisten zugelassen, sie werden bei der jeweiligen Verarbeitung nichtberücksichtigt.- Das Objekt Häufigkeitstabelle hat Matrixform mit den 4 Spalten:Klassenuntergrenzen, Klassenobergrenzen, absolute Häufigkeiten und relativeHäufigkeiten.- Mit Aufrufen wie beispielsweise xh <- KontHaeuf(x) wird die Häufigkeitstabelle aufder Variablen xh zur weiteren Verarbeitung in Funktionen wie beispielsweiseMittelwert, Histogramm etc. abgelegt.- Als Funktion aus der Bibliothek danalyse.r arbeitet sie defaultmäßig im Silent-Modus.Durch Setzen des Parameters SIL=F im Aufruf, gibt die Funktion Informationen überihr Arbeiten.- Im Labor findet sich im Objekt Häufigkeitstabelle" eine einfache Umsetzung desKonzepts "Häufigkeitstabelle für klassierte Daten".

Für die Gestaltung der Klasseneinteilung stehen dem Benutzer vier Möglichkeiten zurVerfügung.

1. Vorgabe der Klassenanzahl m KontHaeuf(x,N=m)2. Vorgabe der Klassenbreite s KontHaeuf(x,S=s)3. Vorgabe von Klassengrenzen xg KontHaeuf(x,B=xg)4. R entscheidet (Defaultsetzung) KontHaeuf(x)

Steckbrief/Kurzbeschreibung

Steckbrief der Funktion KontHaeuf: KontHaeuf() ( : d2e.pdf )

Weitere Quellen

Im Anhang sind die für das Labor benötigte Bibliothek "danalyse.R" und eineBeschreibung der Bibliothek abgelegt.

Histogramm

Das Stabdiagramm hat sich bei unklassierten Daten als ein geeignetes Werkzeugerwiesen, den Inhalt einer Häufigkeitstabelle darzustellen. Da in der Häufigkeitstabellefür klassierte Daten der Ausprägungsbereich an Stelle der Ausprägungen getreten ist

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 6

Page 7: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

und in der Klassenbreite eine zusätzliche Information verankert ist, wird eine geeignetegrafische Darstellung benötigt.

Statt die Häufigkeit (absolute, relative) wie bisher der Länge des Stabes zuzuordnen,werden die Häufigkeiten als Fläche dargestellt. Dabei wird über jeder Klasse, d.h. überjedem Intervall , ein Rechteck mit einer zur Häufigkeit proportionalen

Fläche aufgetragen. Die Breite des Rechtecks ist die Klassenbreite , die Höhe ergibt

sich aus der Häufigkeit dividiert durch die dazugehörige Klassenbreite . Diese wird

als Häufigkeitsdichte bezeichnet, welche wie folgt definiert ist:

Wird gesetzt, so ergibt sich die folgende erweiterte

Häufigkeitstabelle:

1

Gehen wir auf das Beispiel bezüglich des monatlichen Bruttoverdienstes in Euro ein, soerweitern wir die klassierte Häufigkeitstabelle zunächst um die Spalte derHäufigkeitsdichte (s. Abschnitt Häufigkeitstabelle ):

1 0 500 9 0.09 500 0.00018

2500

100013 0.13 500 0.0002

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 7

Page 8: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

31000

150032 0.32 500 0.00064

41500

200041 0.41 500 0.00082

52000

30003 0.03 1000 0.00003

63000

50002 0.02 2000 0.00001

Das dazugehörige Histogramm ergibt sich, indem auf der Merkmalsachse (x-Achse) dieKlassengrenzen markiert, auf der Ordinate (y-Achse) aufgetragen wird, d.h.

es entsteht über jeder Klasse ein Rechteck mit der Höhe .

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 8

Page 9: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

Histogramm des Merkmals "Monatlicher Bruttoverdienst in Euro"Quelle: Eigener Datensatz

Anhand dieser grafischen Darstellung wird deutlich, dass der Großteil der befragtenHaushalte einen monatlichen Bruttoverdienst zwischen 1000 und 2000 Euro zurVerfügung hat, während der Anteil der Spitzenverdiener sehr gering ist.

: Flashanimation ' Animation Histogramm ' siehe Online-Version

Zur praktischen Umsetzung der hier vorgestellten statistischen Methoden imStatistiklabor sei auf den folgenden Exkurs verwiesen.

Beispiel: Körpergewicht - Erstellung eines Histogramms

Problemstellung

Im Rahmen der Datenerhebung wurde in einer Veranstaltung neben einer Vielzahl vonMerkmalen auch das Gewicht der Studierenden erfragt. Die daraus resultierende Urlistekann unter dem folgenden Link eingesehen werden: Teil 1 des Beispiels

Es wurde bereits eine klassierte Häufigkeitstabelle des Datensatzes erstellt undinterpretiert. Da eine grafische Darstellung vorgezogen wird, besteht die Aufgabe darin,

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 9

Page 10: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

die zu den klassierten Häufigkeitstabellen gehörigen Histogramme zu erstellen.

Lösungsweg

In einem ersten Schritt werden die beiden bereits erstellten klassiertenHäufigkeitstabellen um die Spalte der Häufigkeitsdichte erweitert:

1 65 70 6 0.3 5 0.06

2 70 75 5 0.25 5 0.05

3 75 80 7 0.35 5 0.07

4 80 85 2 0,1 5 0,02

1 65 68 2 0.1 3 0.033

2 68 71 5 0.25 3 0.083

3 71 74 3 0.15 3 0.05

4 74 77 3 0.15 3 0.05

5 77 80 5 0.25 3 0.083

6 80 83 1 0.05 3 0.017

7 83 86 1 0.05 3 0.017

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 10

Page 11: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

In einem nächsten Schritt können die grafischen Darstellungen dieser erstellt werden:

Histogramm des Merkmals "Gewicht" mit der Klassenbreite 5Quelle: Eigene Befragung

Histogramm des Merkmals "Gewicht" mit der Klassenbreite 3

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 11

Page 12: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

Quelle: Eigene Befragung

Antwort

Aufgrund der beiden Histogramme kann die Annahme bestätigt werden, dass es sich beidiesem Datensatz nicht um eine symmetrische Verteilung handelt.

Das erste Histogramm, welches aus vier Klassen besteht, zeigt deutlich eine schiefeVerteilung, welche zwei "Hochpunkte" besitzt; in der zweiten und in der vierten Klassebefinden sich die meisten Beobachtungswerte. Man spricht von einem bimodalenHistogramm. Eine mögliche Erklärung hierfür könnte sein, dass zwei Gruppen, d.h.Männer und Frauen, gleichzeitig betrachtet werden. Da Frauen im Allgemeinen leichtersind als Männer, kann hier ein bimodales Histogramm entstehen. Dies müsste jedochgenauer überprüft werden, da dieses auch durchaus andere Gründe haben kann.

Auch das zweite Histogramm zeigt deutlich eine Bimodalität; die zweite und die fünfteKlasse ragen deutlich hervor. Damit drängt sich auch hier die Erklärung dergleichzeitigen Betrachtung zweier Gruppen auf, von der die eine im Allgemeinenweniger wiegt als die andere. Doch die Aussage kann auch in diesem Fall nicht ohneeine genauere Überprüfung des Sachverhaltes getroffen werden. Ansonsten zeigt diesesHistogramm, dass die meisten der Studierenden ein Gewicht zwischen 68 und 80 kghaben. Zu den Rändern fällt die Häufigkeitsverteilung deutlich ab.

Bei Ihrer Suche nach einer passenden Wohnung durchsuchen Sie den Anzeigenteil derTageszeitung und finden dabei 20 Anzeigen von in Frage kommenden Wohnungen, beidenen die Warmmiete angegeben wurde. Diese wollen wir erneut betrachten ( Teil 1 derAufgabe ).

a) Zeichnen und interpretieren Sie das Histogramm zu der Häufigkeitstabelle mit derKlassenbreite von 70.

b) Zeichnen und interpretieren Sie das Histogramm zu der Häufigkeitstabelle mit derKlassenbreite von 50.

c) Welche Unterschiede lassen sich zwischen diesen beiden Histogrammen erkennen?Welches dieser beiden halten Sie für eine Darstellung des Wohnungsmarktes fürsinnvoller?

Die Funktion Histogramm setzt das Konzept des Histogramms im Labor um.

- Aufruf im R-Kalkulator des Labors: Histogramm(x)- Demoseite im Statistiklabor: Histogramm ( I10ed.spf )

Hinweise

- Sie ist nur auf Daten x in der Form einer kontinuierlichen Häufigkeitstabelleansetzbar.- Die Graphik erscheint in dem mit dem R-Kalkulator1 verbundenen LaborobjektR-Graphik.- Als Funktion aus der Bibliothek danalyse.r arbeitet sie defaultmäßig im Silent-Modus.Durch Setzen des Parameters SIL=F im Aufruf, gibt die Funktion Informationen überihr Arbeiten.- Im Labor findet sich im Objekt R-Graphik-Wizard mit dem Angebot "Histogramm"eine eingeschränkte Umsetzung des Konzepts "Histogramm". Damit können alternativzum Aufruf in R schnell Histogramme gezeichnet werden.

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 12

Page 13: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

Steckbrief/Kurzbeschreibung

Steckbrief zur Funktion Histogramm: Histogramm() ( : I10ff.pdf )

Weitere Quellen

Im Anhang sind die für das Labor benötigte Bibliothek "danalyse.R" und eineBeschreibung der Bibliothek abgelegt.

Verteilungsfunktion aus klassierten Daten

Um das Konzept der Verteilungsfunktion auf den Fall klassierter Daten zu übertragen,gehen wir von der nachstehenden Definition aus:Formal ist die Verteilungsfunktion definiert als als

Anteil der Beobachtungen, die kleiner oder gleich sind.

Fällt mit einer Klassengrenze zusammen, so gibt es keine Probleme bei derBerechnung von .

Betrachten wir die i-te Klasse. Setzen wir , dann ist die Summe

aller relativen Häufigkeiten der Klasse bis . Für tritt zu

diesem Wert die relative Häufigkeit hinzu.

Ein Problem besteht für Werte von zwischen den Klassengrenzen und .

Der gesuchte Wert liegt zwischen und , schreiben wir die

als .

Zur Bestimmung von r gehen wir davon aus, dass die Werte innerhalb einer Klassegleichmäßig verteilt sind; dann ist der Beitrag des Stücks zur relativen

Häufigkeit der i-ten Klasse proportional zu seinem Anteil an der Klassenbreite.

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 13

Page 14: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

Skizze eines SteigungsdreiecksQuelle: eigene Darstellung

Formelmäßig heißt das

woraus folgt: .

Da weiterhin gilt , kann für die Verteilungsfunktion die folgende Formel

aufgestellt werden:

Empirische Verteilungsfunktion

wobei die Nummer der Klasse ist, in die fällt.

Die praktische Umsetzung im Statistiklabor zeigt der folgende Exkurs .

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 14

Page 15: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

Setzen wir diese Überlegungen für ein Zahlenbeispiel um:

Betrachten wir die Häufigkeitstabelle des Merkmals "Monatlicher Bruttoverdienst inEuro", so erhalten wir folgende empirische Verteilungsfunktion:

Empirische Verteilungsfunktion des Merkmals "Monatlicher Bruttoverdienst in Euro"Quelle: Eigener Datensatz

Zur grafischen Darstellung der hier vorgestellten statistischen Methoden imStatistiklabor sei auf den folgenden Exkurs verwiesen.

Beispiel: Körpergewicht - Erstellung einer empirischen Verteilungsfunktion

(Problemstellung)

Problemstellung

Im Rahmen einer Datenerhebung wurde in einer Veranstaltung neben einer Vielzahlvon Merkmalen auch nach dem Gewicht der Studierenden gefragt. Die darausresultierende Urliste kann unter dem folgenden Link eingesehen werden: Teil 1 desBeispiels

Nachdem der Dozent die klassierte Häufigkeitstabelle und das dazugehörigeHistogramm zu jeweils zwei unterschiedlichen Klassenbreiten erstellt und interpretiert

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 15

Page 16: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

hat, möchte er Aussagen bezüglich Anteile treffen können ( Teil 2 des Beispiels ).

Lösungsweg

Um Anteile bestimmen zu können, bietet sich die Berechnung der empirischenVerteilungsfunktion an.

Da bei diesem Datensatz eine Klassierung der Merkmalsausprägungen vorgenommenwurde, können die konkreten Werte der Verteilungsfunktion nur an den Klassengrenzenbestimmt werden. Um diese Werte wird die klassierte Häufigkeitstabelle erweitert:

165

703 0.15 5 0.03 0.15

270

757 0.35 5 0.07 0.5

375

804 0.2 5 0.04 0.7

480

856 0.3 5 0.06 1

Die Häufigkeitstabelle zur Klassenbreite 3 ist die Folgende:

165

682 0.1 3 0.033 0.1

2668

71 5 0.25 3 0.083 0.35

371

743 0.15 3 0.05 0.5

474

773 0.15 3 0.05 0.65

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 16

Page 17: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

577

805 0.25 3 0.083 0.9

680

831 0.05 3 0.017 0.95

783

861 0.05 3 0.017 1

Die beiden Verteilungsfunktionen sehen demnach wie folgt aus:

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 17

Page 18: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

Empirische Verteilungsfunktion des Merkmals "Gewicht" mit der Klassenbreite 5Quelle: Eigene Befragung

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 18

Page 19: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

Empirische Verteilungsfunktion des Merkmals "Gewicht" mit der Klassenbreite 3Quelle: Eigene Befragung

Beispiel: Antwort

Der Vergleich der beiden Verteilungsfunktionen zeigt deren Unterschiede auf:

Die zweite Verteilungsfunktion steigt vor allem im mittleren Bereich schneller an, d.h.in dem gesamten Beobachtungsraum der erhobenen Daten befinden sich demnach hierdie meisten Beobachtungen. Wie wir schon bei der Betrachtung des dazugehörigenHistogramms festgestellt haben, wiegen die meisten der befragten Studierendenzwischen 68 und 80 kg.

Die erste Verteilungsfunktion zeigt keine so deutliche Gruppierung in dem mittlerenBereich auf. Der gleichmäßige Anstieg der Funktion konnte bereits aufgrund derrelativen Häufigkeiten der einzelnen Klassen vermutet werden; diese liegen relativ dichtbeieinander, so dass eine Aufsummierung dieser auch einen relativ gleichmäßigenFunktionsverlauf ergeben muss.

Nehmen wir an, der Dozent wiegt 72 kg. Aus diesem Grund möchte er wissen, wie großder Anteil der Studierenden ist, die höchstens 72 kg wiegen.

Zunächst berechnet er diesen Anteil aus der ersten klassierten Häufigkeitstabelle:

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 19

Page 20: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

29% der befragten Studierenden in der Veranstaltung Statistik-I wiegen höchstens soviel wie ihr Dozent, nämlich 72 kg.

Nun berechnet er den selben Anteil mit den Werten aus der zweiten klassiertenHäufigkeitstabelle und stellt fest, dass dieses Ergebnis deutlich höher ist:

Damit stellt sich die Frage, welches Ergebnis das genauere ist. Da in der zweitenDarstellung mit der kleineren Klassenbreite der Informationsverlust geringer ist, geradeweil die Klassen schmaler gewählt wurden, ist anzunehmen, dass der Wert der zweitenBerechnung des gesuchten Anteils genauer ist. Allerdings soll diese Einschätzung nichtbedeuten, dass der Grundsatz gilt: "Je schmaler, desto besser."

Bei Ihrer Suche nach einer passenden Wohnung durchsuchen Sie den Anzeigenteil derTageszeitung und finden dabei 20 Anzeigen von in Frage kommenden Wohnungen, beidenen die Warmmiete angegeben wurde. Diese wollen wir an dieser Stelle erneutbetrachten: Teil 1 der Aufgabe

a) Zeichnen und interpretieren Sie die empirische Verteilungsfunktion zu derKlassenbreite 70.

b) Zeichnen und interpretieren Sie die empirische Verteilungsfunktion zu derKlassenbreite 50. Zeigen Sie die Unterschiede zwischen den beiden Funktionen auf.

c) Bestimmen Sie zu beiden Fällen .

Die Funktion DiskHaeuf setzt das Konzept der Häufigkeitstabelle für nichtklassierteDaten im Labor um.

- Aufruf im Statistiklabor: DiskHaeuf(x)- Demonstrationsseite im Statistiklabor: Häufigkeitstabelle (nichtklassierte Daten) (I13e0.spf )

Hinweise:

- Sie ist nur auf Daten x in der Form einer Urliste oder Rangwertreihe ansetzbar.- NA`s sind in Urlisten zugelassen, sie werden bei der jeweiligen Verarbeitung nichtberücksichtigt.- Das Objekt Häufigkeitstabelle hat Matrixform mit den 3 Spalten Ausprägungen,absolute Häufigkeiten und relative Häufigkeiten.- Als Funktion aus der Bibliothek danalyse.r arbeitet sie defaultmäßig im Silent-Modus.Durch Setzen des Parameters SIL=F im Aufruf, gibt die Funktion Informationen überihr Arbeiten.- Mit xh <- DiskHaeuf(x) wird die Häufigkeitstabelle auf der Variablen xh zur weiterenVerarbeitung in Funktionen wie beispielsweise Mittelwert, Stabdiagramm etc. abgelegt.- Im Labor findet sich im Objekt "Häufigkeitstabelle" eine eingeschränkte Umsetzung

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 20

Page 21: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

des Konzepts "Häufigkeitstabelle für diskrete Daten".

Steckbrief/Kurzbeschreibung

Ein Steckbrief der Funktion: Häufigkeitstabelle (nichtklassierte Daten) ( :

I13f6.pdf )

Weitere Quellen

Im Anhang sind die für das Labor benötigte Bibliothek "danalyse.R" und eineBeschreibung der Bibliothek abgelegt.

Die Funktion EmpVert setzt das Konzept Graph einer empirischen Verteilungsfunktionim Labor um.

- Aufruf im R-Kalkulator des Labors: EmpVert(x)- Demonstrationsseite 1 im Labor: Grafik(1) der empirischen Verteilung ( I140d.spf )- Demonstrationsseite 2 im Labor: Grafik(2) der empirischen Verteilung ( I1410.spf )

Hinweise

- Die Daten seien auf der Variablen x abgelegt. Sie können in Form einer Urliste,Rangwertreihe, diskreten oder kontinuierlichen Häufigkeitstabelle vorliegen.- NA`s sind in Urlisten zugelassen, sie werden bei der jeweiligen Verarbeitung nichtberücksichtigt.- Die Graphik erscheint in dem mit dem R-Kalkulator verbundenen LaborobjektR-Graphik.- Als Funktion aus der Bibliothek danalyse.r arbeitet sie defaultmäßig im Silent-Modus.Durch Setzen des Parameters SIL=F im Aufruf, gibt die Funktion Informationen überihr Arbeiten.- Im Labor findet sich im Objekt R-Graphik-Wizard mit dem Angebot "EmpirischeVerteilungsfunktion" eine einfache Umsetzung des Konzepts "EmpirischeVerteilungsfunktion".

Steckbrief/Kurzbeschreibung

Steckbrief der Funktion EmpVert: EmpVert() ( : I1424.pdf )

Weitere Quellen

Im Anhang sind die für das Labor benötigte Bibliothek "danalyse.R" und eineBeschreibung der Bibliothek abgelegt.

Quantile aus klassierten Daten

Die Idee der Quantile aus klassierten Daten ist analog zu der bei unklassierten Daten. (s.)

Die Frage nach einem Quantil, d.h. "Welcher Wert wird von einem bestimmten Anteilnicht überschritten?" ist gerade die Umkehrung der Frage, die zur Verteilungsfunktionführt, d.h. "Welcher Anteil wird von einem bestimmten Wert nicht überschritten?"

Da die Verteilungsfunktion bei klassierten Daten streng monoton ist, ist diesesInversionsproblem leicht zu lösen.

Die Verteilungsfunktion im klassierten Fall wird über folgende Formel bestimmt:

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 21

Page 22: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

Die Lösung des Problems liegt nun darin, die Inverse der Verteilungsfunktionaufzustellen. Sei der (gegebene) Anteil, dann bestimmt sich das zugehörige Quantil

durch

,

dabei ist die Klasse für die gilt

.

Zur praktischen Umsetzung der hier vorgestellten statistischen Methoden imStatistiklabor sei auf den folgenden Exkurs verwiesen.

Die bisher sehr theoretischen Ausführungen werden nun mit Hilfe eines Beispiels nähererläutert:

Betrachten wir die folgende Häufigkeitstabelle

1 0 500 9 0.09 0.09

2 500 1000 13 0.13 0.22

31000

150032 0.32 0.54

41500

200041 0.41 0.95

52000

30003 0.03 0.98

63000

50002 0.02 1.00

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 22

Page 23: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

(s. Abschnitt Histogramm )

Es wurden 100 Haushalte nach ihrem monatlichen Bruttoverdienst befragt. Wir wollenwissen, welcher Verdienst von 80% der Haushalte nicht überschritten wird, d.h. gesuchtist das Quantil . Der erste Schritt besteht darin, die Klasse zu suchen, in welche

dieses 0.8 - Quantil fällt; in unserem Fall ist das die 4. Klasse. Nun können wir alleerforderlichen Werte in die entsprechende Formel einsetzen:

Das heißt, 80% der befragten Haushalte haben einen monatlichen Bruttoverdienst vonnicht mehr als 1817.07 Euro.

Eine Firma XY stellt Glühbirnen her. Um deren Brenndauer besser einschätzen zukönnen, wird eine Stichprobe aus der täglichen Produktion gezogen, die Brenndauerdieser Glühbirnen beobachtet und die Ergebnisse in der folgenden Häufigkeitstabellezusammen gefasst:

(Das Merkmal X gibt die Brenndauer der Glühbirne in Stunden an)

1 0 4000 12

2 4000 6000 28

3 6000 7000 44

4 7000 8000 68

5 8000 9000 30

6 9000 10000 18

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 23

Page 24: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

a) Erweitern Sie die Häufigkeitstabelle um die relativen Häufigkeiten, die kumuliertenrelativen Häufigkeiten und die Häufigkeitsdichte.

b) Erstellen Sie das dazugehörige Histogramm und interpretieren Sie dieses.

c) Zeichnen Sie die empirische Verteilungsfunktion und interpretieren Sie diese.

d) Bestimmen Sie den Anteil der Glühbirnen, die höchstens 7900 Stunden gebrannthaben.

e) Bestimmen Sie den Anteil der Glühbirnen, die mindestens 6800 Stunden aberhöchstens 8000 Stunden gebrannt haben.

f) Wie würde sich das Histogramm verändern, wenn bei gleich bleibenden Häufigkeitendie Obergrenze der fünften Klasse 10000 Stunden und die Grenzen der sechsten Klasse10000 und 12000 Stunden betragen hätte? Erklären Sie hieran den Begriff derHäufigkeitsdichte.

Die zu dieser Übung gehörige Laborseite finden Sie unter dem folgenden Link:

Labordatei öffnen ( I1602.spf )

Die Funktion qemp setzt das Konzept eines Quantils (Prozentpunkt) im Labor um.

- Aufruf im Labor: qemp()- Demonstrationsseite im Labor: Quantile der Empirischen Verteilung ( I1611.spf )

Hinweise

- Die Daten seien auf der Variablen x abgelegt. Sie können in Form einer Urliste,Rangwertreihe, diskreten oder kontinuierlichen Häufigkeitstabelle vorliegen.- NA`s sind in Urlisten zugelassen, sie werden bei der jeweiligen Verarbeitung nichtberücksichtigt.- Soll der Wert des Quantils für den Anteil p (das p-Quantil) berechnet werden, dannerreicht man dies im R-Kalkulator des Labors durch den Aufruf: qemp(p,x)- Quartile und Dezile werden durch entsprechende Setzungen von p ermittelt.- Als Funktion aus der Bibliothek danalyse.r arbeitet sie defaultmäßig im Silent-Modus.Durch Setzen des Parameters SIL=F im Aufruf, gibt die Funktion Informationen überihr Arbeiten.

Steckbrief/Kurzbeschreibung

Steckbrief der Funktion: qemp() ( : I1625.pdf )

Weitere Quellen

Im Anhang sind die für das Labor benötigte Bibliothek "danalyse.R" und eineBeschreibung der Bibliothek abgelegt.

Die Methoden der statistischen Datenanalyse sollen die Möglichkeit geben, aus eineminteressierenden Datensatzes benötigte Informationen zur Beschreibung undInterpretation desselben zu gewinnen. Eine Anwendung der Methoden ist allerdingsnicht ausreichend, um statistisch sinnvoll zu arbeiten. Vielmehr müssen die Auswahlder Methoden, die einzelnen Arbeitsschritte und die abschließende Interpretation derErgebnisse dokumentiert werden. Eine derartige Dokumentation wird im Rahmen einesstatistischen Reports verfasst.

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 24

Page 25: Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul Klassierung Häufigkeitstabelle für klassierte Daten Histogramm Verteilungsfunktion

Wir wollen abschließend einen solchen Report über einen exemplarischen Datensatzerstellen und aufzeigen, wie die beschriebenen statischen Methoden zur Datenanalyseaus einer Häufigkeitstabelle mit Klassierung sinnvoll angewandt und deren Ergebnisseinterpretiert werden können.

Der Datensatz, der diesem Report zugrunde gelegt wird, ist der "Videofallstudie"entnommen worden.

In einem Wohnviertel werden Lärmmessungen vorgenommen, um mit den derarterhaltenen Daten gegen die dort herrschende Lärmbelästigung vorgehen zu können.

Es wird eine Woche lang jeden Tag von acht Uhr morgens bis acht Uhr abends alle 5Sekunden eine Messung vorgenommen. Auf diese Art entsteht eine kaum zubewältigende Datenmasse. Auch der Versuch, diese zu reduzieren, indem ein Rastereingefügt wird, welches für die Messergebnisse einer Stunde den Mittelwert bildet,kann das Datenmaterial nicht so zusammenfassen, als das es übersichtlich erscheint. DieTabelle ist immer noch zu umfangreich.

Mit Hilfe eines statistische Reports wird nun aufgezeigt, wie ein derartig umfangreichesDatenmaterial übersichtlich zusammengefasst und sinnvoll interpretiert werden kann.

Der Report kann unter dem folgenden Link eingesehen werden:

Reportdatei öffnen ( I164f.rtf )

Die dazugehörige Laborseite könne Sie hier einsehen:

Labordatei öffnen ( I1654.zmpf )

Um die in diesem Lernmodul besprochenen Funktionen im Statistiklabor ausprobierenzu können, muss die Bibliothek "Danalyse.R" geladen werden. Sollte sie bei IhrerVersion des Statistiklabors nicht mit installiert worden sein, können sie diese hier laden:

Bibliothek "danalyse.R" ( I165e.r )

Informationen zum Aufbau und der Verwendung der Funktionen:

Beschreibung der Bibliothek "danalyse.R" ( : I1663.pdf )

LiteraturangabeBourier (2001): Beschreibende Statistik, 4.Auflage, Wiesbaden, Gabler Verlag.

(c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale SystemeKontakt: http://www.neuestatistik.de

(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten

Page 25