79
A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II Mathematik und Statistik für Raumplaner II SS 2007 Leiter und Autor: A.Prof. Dr. Wolfgang Feilmayr Fachbereich Stadt- und Regionalforschung Technische Universität Wien 1

Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Mathematik und Statistik für Raumplaner II

SS 2007

Leiter und Autor: A.Prof. Dr. Wolfgang Feilmayr

Fachbereich Stadt- und Regionalforschung Technische Universität Wien

1

Page 2: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

I N H A L T

1. Grundzüge der Statistik 2. Einführung in das Programmsystem SPSS 3. Univariate deskriptive Statistiken in SPSS 4. Systematik multivariater Verfahren 5. Regressions- und Korrelationsanalyse 6. Varianz- und Kovarianzanalyse

2

Page 3: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

1. Grundzüge der Statistik Die Statistik ist ein selbständiger Teilbereich der Mathematik und hat sich zur Jahrhundertwende vom neunzehnten zum zwanzigsten Jahrhundert als eigene Disziplin herauskristallisiert. Erst gegen Ende des neunzehnten Jahrhunderts wurde die Statistik als allgemeine Theorie zur Analyse zufallsabhängiger Probleme anerkannt. Unter Statistik versteht man die Erfassung, Zusammenfassung, Analyse und Darstellung von Massendaten, sowie die Methoden zum vernünftigen Entscheiden bei Unsicherheit.

1.1 Wichtige Begriffe Grundgesamtheit Die Menge aller Objekte, über die man Informationen gewinnen will. Eine exakte räumliche und sachliche Abgrenzung ist notwendig Erhebungseinheit/Beobachtungseinheit/Daten-Record Ein einzelnes Element der Grundgesamtheit. Die Anzahl der Erhebungseinheiten/Beobachtungseinheiten/Records bildet den Umfang der Grundgesamtheit Merkmal/Attribut/Charakteristikum Die interessierenden Eigenschaften der Erhebungseinheiten. Jedes Merkmal besitzt verschiedene Ausprägungen Wertebereich Alle möglichen Ausprägungen eines Merkmals bilden den Wertebereich Stichprobe Eine Teilmenge der Grundgesamtheit Repräsentative Stichprobe Die Stichprobe zeichnet ein möglicht genaues Abbild der Grundgesamtheit Einfache Zufallsstichprobe Jedes Element der Grundgesamtheit hat die gleiche Chance in die Stichprobe zu gelangen Man unterscheidet in der Statistik drei inhaltliche Teilbereiche:

3

Page 4: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Deskriptive Statistik Die deskriptive (beschreibende) Statistik ist Ausgangspunkt jeder Datenanalyse, hier erfolgt die Beschreibung und Darstellung der Daten. Dazu gehört die Aufbereitung der Daten in Form von Tabellen und Grafiken und die Berechnung einfacher statistischer Kennzahlen. Mit den Methoden der deskriptiven Statistik verschafft man sich einen ersten Überblick über die Datensituation, manchmal gibt man sich damit auch schon zufrieden. Induktive Statistik Ist der erhobene Datensatz eine repräsentative Stichprobe einer interessierenden Grundgesamtheit, so erlauben die Methoden der induktiven (=schließenden) Statistik Rückschlüsse von der Stichprobe auf die Grundgesamtheit. Obwohl man also nur einen Auszug aus der Grundgesamtheit kennt, ist es trotzdem möglich, Aussagen über diese unbekannte Grundgesamtheit zu treffen. Diese Aussagen sind zwar mit Unsicherheit behaftet, die sich jedoch abschätzen lässt. Explorative Datenanalyse (Strukturprüfende und strukturentdeckende Verfahren) Mittlerweile hat sich die explorative Datenanalyse als eigener Bereich im Übergang zwischen deskriptiver und induktiver Statistik etabliert. Die explorative Datenanalyse dient dem Suchen nach Strukturen, nach möglichen Fragestellungen und Hypothesen (Behauptungen). Diese Hypothesen werden anschließend mit Methoden der induktiven Statistik überprüft. Eine andere Möglichkeit, die Statistik in Teilbereiche aufzusplittern erhält man, wenn man die Anzahl der gleichzeitig betrachteten Merkmale als Unterscheidungskriterium heranzieht. Univariate, bivariate und multivariate Statistik Üblicherweise werden an den Erhebungseinheiten mehrere Merkmale erhoben. Greift man zur Analyse nur ein einziges Merkmal heraus, so spricht man von univariater Statistik, Dem entsprechend betrachtet man bei bivariaten Verfahren zwei Merkmale, die multivariate Statistik analysiert mehrere Variablen gleichzeitig. Merkmale und Merkmalstypen Man unterscheidet folgende vier Skalen unterschiedlichen Messniveaus (-) Nominalskala Damit werden qualitative Merkmalsausprägungen klassifiziert

Beispiele: Farbe, Religion, Automarke

Zulässige math. Operationen: Gleichheit, Ungleichheit

(-) Ordinalskala Nächst höhere Skala; erlaubt die Aufstellung einer Rangordnung

4

Page 5: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Beispiele: Schulnoten, Präferenzen

Zulässige math. Operationen: Vergleichsoperationen

(-) Intervallskala Weist gleichgroße Skalenabschnitte auf. Es fehlt der absolute Nullpunkt

Beispiel: Temperaturskala nach Celsius

Zulässige math. Operationen: Addition, Subtraktion, Multiplikation

(-) Ratioskala Diese Skala stellt das höchste Messniveau dar. Es besteht ein natürlicher

Nullpunkt

Beispiele: Einkommen, Distanz, Zeitdauer

Zulässige math. Operationen: Quotient, Logarithmen, Exponentiation

Die beiden ersten Skalen werden auch als nichtmetrische Skalen und die auf ihnen ge-messenen Variablen als qualitativ bezeichnet. Die beiden letzten Skalen werden auch als metrische Skalen und die auf ihnen gemessenen Variablen als quantitativ oder stetig bezeichnet. Quantitative Variablen können sowohl diskret (Wertebereich: positiv ganzzahlig) als auch kontinuierlich (Wertebereich: reelle Zahlen) sein. Dichotome Merkmale sind eine Sonderform von diskreten Merkmalen und besitzen nur zwei Ausprägungen. Eine gängige Ausprägung einer dichotomen Variable ist die so genannte Binärvariable, deren Wertebereich 0 und 1 ist. Von quasistetigen Merkmalen spricht man bei Merkmalen, die auf Grund der Definition diskret sind, gleichzeitig aber über eine so feine Abstufung verfügen, dass man sie als stetige Merkmale behandeln kann. Insbesondere zählen hierzu alle monetären Merkmale (Preis, Kredithöhe, Miete, …) Die Bezeichnung diskretisierte Merkmale wird verwendet, wenn stetige Merkmale nur in diskreter Form erfasst werden, beispielsweise die frage nach dem Alter in ganzen Jahren. Die Zusammenfassung von Ausprägungen in Gruppen wird als Gruppieren bezeichnet.

1.2 Beispiel: Immobilienbewertung Beobachtungseinheiten sind hier in der Regel monetär bewerte Immobilien, wobei beim Preis zwischen Angebotspreis und Verkaufspreis unterschieden werden kann. Es können aber auch räumliche Einheiten (Gemeinden, Bezirke) sein, für die Immobilienpreise vorliegen.

5

Page 6: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Neben dem Merkmal Preis ist es sinnvoll, noch folgende (weitere) Merkmale bzw. Merkmalsgruppen zu erheben: Objektmerkmale:

• Betriebskosten • Nutzfläche (m2) • Größe des Grundstücks • Zustand • Baujahr • Stockwerk • Verfügbarkeit von Strom, Gas, Wasser, Kanal, Telefon, Kabel-TV, Internet • Zahl der Räume, Badezimmer, Balkone, Terrassen,

Garagen/Autoabstellplätze • Heizungsart • Möblierung • Orientierung

Lagemerkmale: • Adresse • Naturraum: Höhenlage, Hangneigung, Nähe zu Parkanlagen, Weingärten, Wiesen

oder Wäldern

• Infrastruktur: Erreichbarkeit des Siedlungszentrums im öffentlichen und im Individual-verkehr, Nähe zu Haltestellen des öffentlichen Verkehrs, Nähe zu Autobahnanschlüssen, Nahversorgungsqualität, Nähe zu Schulen, Ärzten und Spitälern

• Soziales Milieu: Anteil der Akademiker, der Pensionisten oder von Gastarbeitern in der Nachbarschaft

• Ökologie: Belastungen durch Lärm oder Staub, Parkplatzsituation, Verbauungsdichte

• Bauliches Milieu: Lage in Schutzzonen, Nähe zu Denkmälern und Monumenten

• Ökonomie: Arbeitsplätze, Einkommen, Arbeitslosigkeit, Tourismus

• Demografie: Anteil der Kinder und Jugendlichen, Zu- bzw. Abwanderung

und den Zeitpunkt der Transaktion bzw. der Anbotslegung

Üblicherweise wird man es bei einzelnen Immobilien mit einer Stichprobe zu tun haben, wobei die Grundgesamtheit dann die Menge aller Transaktionen bzw. Angebote ist.

6

Page 7: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Anzumerken ist allerdings hier, dass es sich dabei nicht um eine repräsentative Stichprobe handeln wird.

Bei räumlichen Daten hat man es oft mit Grundgesamtheiten zu tun (Grundpreisstatistik des GEWINN, Immobilienpreisspiegel des Fachverbandes der Immobilien- und Vermögenstreuhänder).

Beispiele für Merkmalstypen:

Nominal: Heizungsart

Ordinal: Zustand

Stetig: Nutzfläche, Erreichbarkeit

Diskret: Zahl der Räume (Zimmer)

Dichotom / Binär: Verfügbarkeit von Internet, Gas, Kanal

2. Einführung in das Programmsystem SPSS

Die vier Buchstaben stehen für Statistical Package for the Social Sciences. SPSS ist also ein Statistikprogramm. Die Version 14.0 von SPSS, welche im Rahmen dieser Lehrveranstaltung eingesetzt wird, läuft unter gängigen WINDOWS-Betriebssystemen. Die Möglichkeiten, welche SPSS anbietet, lassen sich grob in drei Bereiche einteilen:

• Statistische Analyseprozeduren Von einfachen deskriptiven Kennzahlen bis zu multivariaten Analysen und Hypothesentests

• Diagramme und Grafiken Die Palette der angebotenen Diagrammtypen ist speziell auf statistische Auswertungen zugeschnitten und geht dabei weit über die von MS-EXCEL angebotenen Möglichkeiten hinaus (z.B. 3-dimensionale Scatterplots, etc...)

• Programmiersprache

Oft wiederkehrende Bearbeitungsschritte (z.B. Standardanalysen) lassen sich in eine Art Programm zusammenfassen, welches dann en bloc ausgeführt werden kann.

Die grundlegende Datenstruktur von SPSS ist ähnlich dem Aufbau einer Tabelle in MS-EXCEL, nämlich in Zeilen und Spalten organisiert. In den Zeilen stehen untereinander die auszuwertenden Datensätze (Fälle, Beobachtungseinheiten und in den Spalten nebeneinander deren Merkmale (Variablen).

7

Page 8: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

2.1 Datenmangement und Datenmanipulation

Im Folgenden sollen einige grundlegende Konzepte des Datenmanagements und der Datenmanipulation vorgestellt werden.

Nach dem Aufruf von SPSS erscheint folgendes Dialogfenster:

Wie bereits erwähnt, sind Daten in SPSS in Tabellenform (Zeilen und Spalten) angeordnet. Es wird automatisch eine neue, leere Datentabelle mit dem provisorischen Namen „Unbenannt1“ (siehe ganz oben links im Fenster) präsentiert. Ebenfalls oben befindet sich die Menüleiste. Standardmäßig ganz links das Datei-Menü für die Dateiverwaltung und rechts daneben das Bearbeiten-Menü mit Befehlen zum Suchen, Ersetzen und Kopieren von Daten sowie dem wichtigen Befehl Rückgängig, etc. Im Daten-Menü finden sich verschiedene Möglichkeiten der Datenmanipulation (Sortieren, Aggregieren, Gewichten,…). Das Transformieren-Menü eröffnet die Möglichkeit neue Variable zu generieren, umzukodieren, … Schließlich stellt das Analysieren-Menü das Kernstück des SPSS-Systems, nämlich die unterschiedlichsten

8

Page 9: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

statistischen Analyseprogramme dar. Zum Schluss sei noch auf das Hilfe-Menü verwiesen, dass neben einem Tutorial (zum Selberlernen) Informationen über die verschiedensten Features von SPSS bereit hält. Eine Art „Schnelle Hilfe“ erhält man durch Drücken der rechten Maustaste, entweder über einer Variablen, über einem Eintrag in einem Fenster oder über einem Subfenster. Unter den Pull-Down-Menüs befindet sich eine Leiste mit Schaltflächen (grafischen Buttons), hinter denen sich die wichtigsten und am häufigsten gebrauchten Befehle verbergen. Wenn man den Mauszeiger genau über eine Schaltfläche bringt und einen Moment wartet, erscheint ein kurzer Text zur Hilfestellung (tooltip).

2.2 Filetypen Datenfiles (Tabellen) sind in SPSS mit .SAV gekennzeichnet Outputfiles (sowohl grafischer als auch numerischer Output) sind mit .SPO, Programmfiles mit .SPS gekennzeichnet.

2.3 Dateneingabe Im Prinzip gibt es hier drei Möglichkeiten:

1. Der Aufruf eines bestehenden SPSS-Datenfiles (.SAV) über die Befehlsfolge Datei – Öffnen – Daten.

2. Die direkte Eingabe von Daten in die Tabelle (ähnlich wie EXCEL): ist nur für kleine Datenmengen empfehlenswert.

3. Der Import von Datenfiles aus anderen Programmsystemen (Datenbanken). Dies wird hier an Hand von EXCEL dargestellt: Datei – Öffnen – Daten. Dann unter Files of type Excel auswählen und das entsprechende EXCEL-File aktivieren. Es erscheint folgendes Fenster:

9

Page 10: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen … zu aktivieren, sonst nicht.

2.4 Abspeichern von SPSS-Files Befehlsfolge: Speichern unter (Vorsicht: wenn man nur Speichern angibt, wird das bestehende File überschrieben) und im folgenden Fenster den gewünschten Filenamen einfügen. Um ein EXCEL-File zu generieren bei Save as type Excel auswählen und den Filenamen einfügen. Für die folgenden Operationen in SPSS wird das Übungsfile Wien.sav verwendet.

Es enthält 4053 Datensätze bezogen auf Wiener Eigentumswohnungen (Anbote und Verkäufe) aus der Datenbank der Wiener Immobilienbörse der Jahre 1986 bis 1999. Das File enthält den Preis, den Zeitpunkt der Transaktion bzw. des Anbots sowie Objekt- und Lageeigenschaften.

10

Page 11: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

2.5 Variablenansicht und Variablendefinition In der untersten Befehlsleiste von Datenansicht auf Variablenansicht wechseln

Unter Typ findet man den Typ der Variable: üblich sind Numerisch bzw. String (Textvariable). Es gibt aber auch die Möglichkeit, die wissenschaftliche Notation, Datum oder Währungseinheiten anzugeben. Unter Spaltenform kann die Anzahl der Stellen der Variable insgesamt und unter Dezimalstellen die Anzahl der Kommastellen definieren. Variablenlabel erlaubt es, einzelne Variable mit einem ausführlichen, längeren Text zu beschreiben. Bei Wertelabel kann man den Ausprägungen einzelner Variablen ebenfalls erklärenden Text zuordnen (nur bei qualitativen Variablen sinnvoll !). Unter Meßniveau kann das Skalenniveau der Variablen eingestellt werden (Vorsicht: das vom Programm voreingestellte Niveau muss nicht mit dem tatsächlichen Niveau übereinstimmen !)

2.6 Sortieren von Daten Durch Aufruf von Daten / Fälle Sortieren ... können die Daten aufsteigend oder absteigend nach gewünschten Schlüsselfeldern sortiert werden.

11

Page 12: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Im Beispiel wird nach dem Preis aufsteigend geordnet. Dazu Preis markieren und dann durch Klicken auf das Dreieck in der Mitte in das Fenster Sortieren nach verschieben. Danach beginnt das File mit den billigsten Wohnungen:

12

Page 13: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

2.7 Syntax / Programmieren Über den Button Einfügen wird die Syntax der Befehle auf einem Syntaxfile abgespeichert. Derartige Programme können dann mittels Ausführen ausgeführt werden. SORT CASES BY preis (A) .

2.8 Selektieren von Daten

In manchen Fällen kann es notwendig sein, nicht alle Datensätze in eine Analyse mit ein zu beziehen. So kann etwa eine Immobilienanalyse nur für bestimmte Bezirke Wien gewünscht sein. Dazu wird die Befehlsfolge Daten /Fälle auswählen durchgeführt:

Die gewünschten Beobachtungseinheiten werden in der Regel über Falls Bedingung zutrifft selektiert. Weiters besteht hier auch die Möglichkeit, Stichproben zu ziehen (beispielsweise eine Zufallsstichprobe über Zufallsstichprobe). Die nicht selektierten

13

Page 14: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Fälle können entweder gefiltert (in den folgenden Operationen bzw. Analysen nicht verwendet) oder gelöscht werden (Vorsicht !). Wir wollen nun jene Fälle selektieren, die in „Transdanubien“ (Bezirke 21 und 22) angesiedelt sind:

Der Operator | stellt hier das logische ODER dar (& ist das logische UND).

2.9 Berechnen / Definieren neuer Variablen Mit dem Befehl Transformieren / Berechnen erscheint folgendes Dialogfenster:

14

Page 15: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Hier steht eine Vielzahl an mathematischen und statistischen Funktionen und Operatoren zur Verfügung, welche auf die vorhandenen Variablen (im linken Fenster) angewendet werden können. Zur Berechnung wird in das Feld Zielvariable der Name der neuen Variable geschrieben und im Feld Numerischer Ausdruck der mathematische Ausdruck (Formel), der den Wert der neuen Variable definiert (in unserem Beispiel wird der Quadratmeterpreis als Quotient aus preis und m2 berechnet).

2.10 Umkodieren / Klassifizieren von Daten Die Verwendung von Textvariablen ist in vielen Statistikprozeduren nicht zulässig. Es ist daher empfehlenswert, allfällige Text (String-) Variable in numerische Variable umzuwandeln. Dies geschieht über die Befehlsfolge Transformieren/Umkodieren/In andere Variablen (Vorsicht: bei … In dieselben Variablen werden die Werte der ursprünglichen Variable überschrieben !). Hier wollen wir die Variable lift (Wertebereich: J / N) in eine Variable lift1 (Wertebereich: 1 / 0) umwandeln:

15

Page 16: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Der Name der neuen Variable ist in das Fenster Name zu stellen und mit Zuweisen zu bestätigen. Die eigentliche Umwandlung erfolgt dann über den Button Alte und neue Werte

In Alter Wert ist der jeweilige alte und in Neuer Wert der jeweilig neue Wert zustellen und die Eingabe dann mit Hinzufügen abzuschließen. Die Prozedur ist für jeden Wert zu wiederholen und mit Weiter gelangt zum übergeordneten Fenster, wo die Prozedur dann mit OK ausgeführt wird.

16

Page 17: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Die eben gezeigte Prozedur eignet sich aber auch zur Klassifizierung quantitativer Daten, beispielsweise zur Klasseneinteilung von m2-Preisen von Eigentumswohnungen. Die Vorgabe ist: 5 Klassen: bis 700 €, 700-1300 €, 1300-2000 €, 2000-3000 € und über 3000 €. Die Befehlsfolge ist wie zuvor:

Wobei man sich bei „bis“ und „über“ der Optionen Bereich, KLEINSTER bis Wert und Bereich, Wert bis GRÖSSTER bedienen kann.

3. Univariate deskriptive Statistiken in SPSS

3.1 Qualitative Variable: Häufigkeiten, Lageparameter, Streuung Häufigkeitsverteilungen, entsprechende Lageparameter und Streuungsmaße können in SPSS mit der Befehlsfolge Analysieren – Deskriptive Statistiken – Häufigkeiten – Statistik angefordert werden:

17

Page 18: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

m2preisc

Häufigkeit Prozent Gültige

Prozente Kumulierte Prozente

1,00 169 4,2 4,2 4,22,00 759 18,7 18,7 22,93,00 1938 47,8 47,8 70,74,00 979 24,2 24,2 94,95,00 208 5,1 5,1 100,0

Gültig

Gesamt 4053 100,0 100,0 Häufigkeit gibt die absolute, Prozent die relative Häufigkeit und Kumulierte Prozente die relative Summenhäufigkeit an. (Man beachte, dass die absolute Summenhäufigkeit in SPSS nicht unmittelbar dargestellt werden kann). Grafische Darstellungen Diese können entweder direkt aus dem Häufigkeiten-Fenster (Diagramme) oder über den Befehl Grafiken (in der oberen Task-Leiste) angefordert werden. Wir wollen hier mit der Darstellung eines Histogramms beginnen:

18

Page 19: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

6,005,004,003,002,001,000,00

m2preisc

2.000

1.500

1.000

500

0

Häu

figke

it

Mittelwert =3,0735�Std.-Abw. =0,89201�

N =4.053

Histogramm

SPSS bietet darüber hinaus noch viele andere Möglichkeiten der grafischen Darstellung. Als weiteres Beispiel sei hier ein Torten / Kreisdiagramm (pie-chart) angeführt.

m2preisc1.002.003.004.005.00

Absolute und relative sowie kumulierte Summenhäufigkeiten können über Grafiken – Linie angefordert werden:

19

Page 20: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

5,004,003,002,001,00

m2preisc

2.000

1.500

1.000

500

0

Abs

olut

e W

erte

20

Page 21: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

5,004,003,002,001,00

m2preisc

4.000

3.000

2.000

1.000

0

Kum

ulat

ive

Häu

figke

it

Mit Hilfe des Subfensters Statistik können Perzentilwerte, Lagemaße und Maße der Streuung und Verteilung angefordert werden

21

Page 22: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Statistiken

m2preisc4053

03,0000

3,00,7964,00

GültigFehlend

N

MedianModusVarianzSpannweite

3.2 Quantitative Variable: Arithmetisches Mittel, Lageparameter, Streuung

Analysieren – Deskriptive Statistiken – Optionen (gewünschte Parameter aktivieren)

Deskriptive Statistik

4053 5924,71 137,09 6061,80 7136250 1760,7327 680,10038 462536,5 ,980 ,038 2,519 ,077

4053

m2preisGültige Werte(Listenweise)

Statistik Statistik Statistik Statistik Statistik Statistik Statistik Statistik StatistikStandardf

ehler StatistikStandardf

ehler

N Spannwei Minimum Maximum Summe Mittelwert Standard Varianz Schiefe Kurtosis

3.3 Quantitative Variable: Geometrisches und Harmonisches Mittel

22

Page 23: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Analysieren – Mittelwerte vergleichen – Mittelwerte – Optionen: Geometrisches bzw. Harmonisches Mittel auswählen Mit dieser Befehlsfolge kann u.a. auch der Median für quantitative Variable berechnet werden.

4. Systematik multivariater Verfahren Datenstruktur: Datenmatrix Zeilen: Beobachtungseinheiten, Objekte Spalten: Variablen (Attribute, Eigenschaften, Merkmale) Beispiel: Wohnungen nach Ausstattung und Baualter Baublockcode WINSG WT4 WT5 1010001 56 1 1 1010004 44 0 0 1011001 59 2 5 1011002 287 11 9 WINSG Wohnungen insgesamt WT4 Wohnungen vom Ausstattungstyp 4 (Einzelheizung, kein WC und

kein Bad); vor 1919 erbaut WT5 Wohnungen vom Ausstattungstyp 5 (Kein Wasser in der

Wohnung); vor 1919 erbaut Strukturentdeckende Verfahren Faktorenanalyse Verdichtung auf Variablenebene Clusteranalyse Verdichtung auf Objektebene Diskriminanzanalyse Analyse von Gruppenunterschieden; Klassifizierung

Strukturprüfende Verfahren Grundmodell y = f (x1, x2, . . ., xm)

23

Page 24: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

y abhängige, endogene, erklärte oder Prognosevariable

xi unabhängige, exogene, erklärende oder Prädiktorvariable

f Erklärungsfunktion, Prognosefunktion, Wirkungsfläche, Responsesurface

Unterscheidung der Verfahren (1) nach der Gestalt von f

(2) nach dem Skalenniveau der Variablen

Unterscheidung multivariater Verfahren nach der Gestalt der Erklärungsfunktion (-) Lineare Modelle Hier wird Substituierbarkeit der exogenen Faktoren unterstellt. y = b0 + b1x1 + b2x2 + . . . + bmxm b0 Modellkonstante, Intercept

bi (zu schätzende) Modellparameter; messen den Einfluss der xi auf y

(-) Nichtlineare, linearisierbare Modelle In vielen Fällen können nichtlineare Modelle durch Transformationen in

lineare Modelle überführt werden und dann wie lineare Modelle behandelt werden.

Beispiel: y = axb → ln y = ln a + bln x (-) Nichtlineare Modelle Die Schätzung der Parameter kann nicht oder nur schwer analytisch

durchgeführt werden. Häufig werden dafür numerische (iterative) Verfahren verwendet.

Beispiel (HUFF): ij

ij

ij

pAdAd

=

α

α

(-) Stochastische Modelle

24

Page 25: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

In den Prädiktorvariablen ist eine stochastische Größe (Zufallsterm) enthalten.

Begründung: (1) Nicht alle Einflussgrößen können tatsächlich

berücksichtigt werden (2) Messfehler in den Variablen

(-) Deterministische Modelle Die im Modell verwendeten Erklärungsvariablen bestimmen alleine den

Wert der zu erklärenden Variablen und sind daher eigentlich keine statistischen Modelle. Werden in der Praxis selten angewendet.

Aus Gründen leichter mathematischer und statistischer Handhabbarkeit (analytische Lösungen) wird üblicherweise ein linearer und stochastischer Zusammenhang unterstellt: y = b0 + b1x1 + b2x2 + . . . + bmxm + u Die beiden letzten Skalen werden auch als metrische Skalen und die auf ihnen gemessenen Variablen als quantitativ bezeichnet. Quantitative Variablen können sowohl diskret (Wertebereich: positiv ganzzahlig) als auch kontinuierlich (Wertebereich: reelle Zahlen) sein.

25

Page 26: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Überblick über multivariate Verfahren x

quantitativ gemischt qualitativ

quantitativ Regressionsanalyse Kovarianzanalyse Varianzanalyse

y qualitativ Logistische Regression Discrete Choice Kontingenzanalyse

5. Regressions- und Korrelationsanalyse

5.1 Regressionsanalyse Die Regressionsanalyse ist ein Verfahren, das die Wirkung einer (oder) mehrerer unabhängiger Variablen auf eine abhängige Variable untersucht. Von sämtlichen Variablen wird dabei metrisches Skalenniveau verlangt. Anwendungsbeispiele

• Wie wirken Erreichbarkeit oder soziales Milieu auf Immobilienpreise

• Wie ist der Auslastungsgrad der Fremdenbetten von der Anzahl der touristischen Gelegenheiten abhängig.

• Wie werden sich die Baulandreserven einer Gemeinde zukünftig entwickeln

(Trendanalyse: Die Zeit ist dabei die unabhängige Variable). Aufgaben der Regressionsanalyse (1) Den Zusammenhang zwischen Regressand (abhängige Variable) und

Regressoren (unabhängige Variablen) zu untersuchen, d.h., die Regressi-onskoeffizienten bj zu schätzen.

(2) Überprüfung, ob der auf diese Weise ermittelte Zusammenhang in der Stichprobe auch in der Grundgesamtheit gilt (in der Regionalwissenschaft entfällt diese Aufgabe manchmal, wenn man von vornherein Grund-gesamtheiten untersucht). Ist der Zusammenhang in der Stichprobe signifikant, so sind auch Simulationen und Prognosen zulässig.

y = b0 + b1x1 + b2x2 + . . . + bnxn + u y Regressand

26

Page 27: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

xi Regressoren bi Regressionskoeffizienten u stochastischer Term (Residuum) Schätzverfahren für die Regressionskoeffizienten 1. Methode der Kleinsten Quadrate 2. Maximum Liklihood Es kann gezeigt werden, dass im Falle der Regressionsanalyse beide Verfahren zum selben Ergebnis führen. Wir beschränken uns auf die erste Methode und detaillieren sie an Hand eines bivariaten Falles. Die Regressionsgerade soll die Punktwolke "möglichst gut" approximieren:

. .. ..

.

. .. ...

.

.....

... .

..

..

..

.

.

.

.

.

.

..

..

. .

.

.. .

. ..

.

.

. .

..

Methode der Kleinsten Quadrate Summe der Quadrate der Abstände von der Regressionsgeraden soll minimiert werden:

y = a + bx + u

27

Page 28: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

y∧

= a + bx

geschätzer Wert für y y∧

u = - y y∧

∑ui2 = ∑(yi - a - bxi)2 → min !

∑ui2 = ∑yi2 - 2∑ayi - 2∑bxi yi + 2∑abxi + ∑a2

+ ∑b2xi2

Ableiten nach a und b und die Ableitungen 0 setzen ! ∑ui2 / δa = -2∑yi + 2∑bxi + 2∑a = 0 ∑ui2 / δb = -2∑xi yi + 2∑axi + 2∑bxi2 = 0 Daraus ergeben sich die so genannten Normalgleichungen: aN + b∑xi = ∑yi a∑xi + b∑xi2 = ∑xiyi und daraus die geschätzten Regressionskoeffizienten:

a y b xN

i∧

=− ∑∑ i

und bN x y x y

N x xi i i i

i i

∧=

−∑∑∑

∑∑ 2 2( )

N Zahl der Beobachtungen Beispiel: Die yi sind Grundstückspreise (m2) in Wien. Zu deren Erklärung soll der Einfluß der infrastrukturellen Lage (die xi repräsentieren die Entfernung zum Zentrum) untersucht werden. yi xi xi

2 ii yx iy u

10.000 25 625 250.000 14026.54867 -4026.54867 40.000 5 25 200.000 41283.18584 -1283.18584 25.000 10 100 250.000 34469.02655 -9469.02655 45.000 5 25 225.000 41283.18584 3716.81416

28

Page 29: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

50.000 0 0 0 48097.34513 1902.65487 30.000 20 400 600.000 20840.70796 9159.29204 200.000 65 1175 1.525.000 0

xy

aa

bb

832.1362345.48097

345.480976

65*8.1362200000

832.1362656*1175

65*2000001525000*62

−=

=+

=

−=−

−=

∧∧

∧∧

Wie sieht nun der virtuelle (simulierte) Grundstückspreis für eine Liegenschaft aus, die 15 min vom Stadtzentrum entfernt liegt ?

y = 48097.345 - 1362.832 x 15 = 27654.865

29

Page 30: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Varianzanalytische Betrachtung der Regressionsanalyse

Methode: Varianzzerlegung

( )y yi−∑ 2 = (y yi )

−∑ 2 + ( )y y

i i−

∑ 2

Gesamt- = erklärte + nicht erklärte streuung Streuung Streuung SStot = SSreg + SSerr

30

Page 31: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

r2 = SSreg/SStot = SSreg/(SSreg + SSerr) ε [0,1] Es lässt sich zeigen, dass das Bestimmtheitsmaß r2 gleich ist dem Quadrat des Korrelationskoeffizienten r zwischen y und x. Beispiel: Es soll das Bestimmtheitsmaß für den Erklärungsansatz der Grundstückspreise ermittelt werden: yi iy 2)ˆ( yyi − 2)ˆ( ii yy − 2)( yy i −

10.000 14026.54867 372752191.36 16213094.2 544444755.6 40.000 41283.18584 63200048.89 1646565.9 44444355.56 25.000 34469.02655 1289783.94 89662463.8 69444555.56 45.000 41283.18584 63200048.89 13814707.5 136110955.6 50.000 48097.34513 217975847.56 3620095.54 277777555.6 30.000 20840.70796 156065855.17 83892630.6 11111155.56 200.000 874483775.81

208849558

1083333333.33

y =33.333,33 r2 = 874.442.894 / 1.083.333.336 = 0,8072

5.1.1 Statistische Signifikanz 1. Die Prüfung des Bestimmtheitsmaßes Nullhypothese: Es besteht (in der Grundgesamtheit) kein Zusammenhang zwischen Regressand und Regressoren. F-Test: Wenn der empirische F-Wert Femp größer ist als der tabellarische F-Wert Ftab, wird die Nullhypothese verworfen, also der Einfluss auf dem jeweiligen Signifikanzniveau (üblicherweise zwischen 90% und 99.9%) bestätigt. Femp = (r2/M) / ((1-r2)/(N-M-1)) M Zahl der Regressoren N Zahl der Beobachtungseinheiten (Stichprobenumfang) 2. Die Prüfung der Regressionskoeffizienten

31

Page 32: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Nullhypothese: Die Regressionskoeffizienten sind (in der Grundgesamtheit) gleich Null; die entsprechenden Variablen haben keinen Einfluss. T-Test: Wenn der empirische T-Wert Temp größer ist als der Absolutbetrag des tabellarischen T-Wertes Ttab, wird die Nullhypothese verworfen, also der Einfluss auf dem jeweiligen Signifikanzniveau (üblicherweise zwischen 90% und 99.9%) bestätigt. Temp = bj / Sbj bj Regressionskoeffizienten des j-ten Regressors Sbj Standardabweichung (Standardfehler) von bj 5.1.2 Probleme, die sich aus der Verletzung bestimmter Prämissen des

linearen Regressionsmodells ergeben 1. Multikollinearität

Prämisse: Regressoren müssen voneinander unabhängig sein (dürfen

nicht miteinander korreliert sein).

Messung: Bestimmung der sogenannten Toleranzwerte

Toleranz von xj : 1 - rj2 rj2 Bestimmtheitsmaß der Regression mit xj als abhängiger Variable und den

übrigen unabhängigen Variablen als Regressoren Toleranzwerte, die nahe bei 0 liegen, deuten auf Multikollinearität hin. Empfehlung:

(1) Variablen mit niedrigen Toleranzwerten aus der Regressionsgleichung entfernen

(2) Neue Objekte (Beobachtungseinheiten) aufnehmen

(3) Faktorenanalyse

2. Autokorrelation Prämisse:

Die einzelnen Residuen sind unkorreliert.

Autokorrelation liegt dann vor, wenn die Abweichungen von der Regressionsgeraden nicht zufällig sind, sondern z.B. von der Abweichung eines vorangegangenen

32

Page 33: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Beobachtungswertes abhängig sind. Man spricht in diesem Fall von zeitlicher Autokorrelation.

Messung: Durbin-Watson Test

d = ∑ (ek - ek-1)2 / ∑ek ek Residualwert des Beobachtungswertes k d Durbin-Watson Index Faustregel: Liegt d nahe bei 2, so liegt keine Autokorrelation vor; Werte nahe bei 0 weisen auf eine positive, Werte nahe bei 4 auf eine negative Autokorrelation hin.

Empfehlung:

Suche jene Variable, die für die Autokorrelation verantwortlich ist und nehme sie in das Regressionsmodell auf; eventuell: nichtlinearen Ansatz wählen.

Nicht mit herkömmlichen Tests zu messen ist die sogenannte räumliche Autokorrelation (Spatial Autocorrelation). Sie tritt dann auf, wenn der Variablenwert einer Beobachtungseinheit vom Wert einer benachbarten Einheit abhängt. (Beispiel: Der Kaufpreis eines Grundstücks hängt von den Preisen ab, die in der Nachbarschaft bezahlt wurden). Räumliche Autokorrelation kann sichtbar gemacht werden, wenn man die Residuen kartographisch darstellt.

3. Heteroskedastizität Prämisse: Die Streuung der Residuen muss konstant sein Die Residualgrößen dürfen in ihrer Höhe nicht vom Betrag bzw. der Reihenfolge der Beobachtungswerte der abhängigen Variable beeinflusst werden. (Beispiel: Zunehmende Messfehler aufgrund der nachlassenden Aufmerksamkeit der Erhebungsperson).

Messung: Direkte Beobachtung der Standardfehler der Residuen.

Empfehlung: Heteroskedastizität kann als Hinweis auf einen nichtlinearen Zusammenhang gedeutet werden.

5.1.3 Empfehlungen zur Anwendung der Regressionsanalyse 1. Das Problem, das es zu untersuchen gilt, muss genau definiert werden: Welche Größe soll erklärt werden? Der zu erklärende Sachverhalt bedarf einer metrischen Skalierung.

2. Die Stichprobe muss genügend groß sein. Die Zahl der Beobachtungen sollte wenigstens doppelt so groß sein wie die Anzahl der Variablen in der Regressions-gleichung.

3. Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zunächst hypothetische Regressionsmodelle mit den vorhandenen Variablen

33

Page 34: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

formuliert werden. Dabei sollten auch die Art und Stärke der Wirkung von berücksichtigten Variablen überlegt werden.

4. Nach Schätzung der Regressionsfunktion ist zunächst das Bestimmtheitsmaß auf Signifikanz zu prüfen. Wenn kein signifikantes Testergebnis erreichbar ist, muß der Regressionsansatz verworfen werden.

5. Anschließend sind die Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu prüfen.

6. Die gefundene Regressionsgleichung ist auf die Einhaltung der Prämissen des linearen Regressionsmodells zu prüfen.

7. Eventuell sind Variable aus der Gleichung zu entfernen oder neue Variable aufzunehmen. Die Modellbildung ist oft ein iterativer Prozess, bei dem der Unter-sucher auf der Basis von empirischen Ergebnissen neue Hypothesen formuliert und diese anschließend wieder überprüft.

8. Der angesprochene iterative Prozess der Modellbildung wird von den meisten EDV-gestützten Statistikprogrammen durch verschiedene Verfahren unterstützt, auf die bei der Beschreibung der SPSS - Prozeduren noch näher eingegangen wird.

5.2 Korrelationsanalyse Korrelationsanalysen sind Verfahren, die den statistischen Zusammenhang zwischen zwei oder mehreren Variablen messen, ohne explizit zwischen abhängigen und unabhängigen Variablen zu unterscheiden. Beispiele: (-) Gibt es einen Zusammenhang zwischen Sozialstruktur und der

Grünflächenversorgung (-) Gibt es bei den Raumplanungsstudenten einen Zusammenhang zwischen

den Prüfungsnoten in Mathematik und in EDV.

5.2.1 Bivariate Korrelation metrischer Variablen

rxy =( )( )

( ) (x x

)y y

x x y yi i

i i

− −− −

∑∑ 2 2

rxy Korrelationskoeffizient (Produktmoment-Korrelationskoeffizient nach

PEARSON) zwischen den Variablen x und y -1 ≤ rxy ≤ +1 Statistische Signifikanz

34

Page 35: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Test der Nullhypothese: Es besteht kein Zusammenhang zwischen den beiden Variablen. T-Test: Wenn der empirische T-Wert Temp größer ist als der tabellarische T-Wert Ttab, dann wird die Nullhypothese verworfen, also der statistische Zusammenhang in der Grundgesamtheit bestätigt:

Temp = xy

xy

rr

n −−

21 2

n Zahl der Beobachtungseinheiten

5.2.2 Partielle Korrelation zwischen metrischen Variablen Im Allgemeinen muss damit gerechnet werden, dass eine Korrelation zwischen zwei bestimmten Variablen von anderen weiteren Variablen mitbestimmt wird. Als Maß des linearen Zusammenhangs zwischen den beiden Variablen kann ein partieller Korrelationskoeffizient rxy.z definiert werden. Dieser gibt den Grad der Abhängigkeit zwischen den beiden Variablen an, wobei die übrigen Variablen konstant gehalten werden. Soll beispielsweise der Einfluss einer Variable (hier: z) ausgeschaltet werden, so lautet der partielle Korrelationskoeffizient:

rr r r

r rxy z

xy xz yz

xz yz

. ( )( )=

−− −1 12 2

rxy.z partieller Korrelationskoeffizient zwischen x und y unter Konstanthaltung von

z

5.2.3 Korrelation zwischen ordinal skalierten Variablen Will man den Zusammenhang zwischen zwei ordinal skalierten Variablen (Beispiel: Die Rangfolgen der Standortqualität vor und nach einer Infrastrukturinvestition) messen, so bietet sich dafür der SPEARMANSCHE Rangkorrelationskoeffizient rs an:

rs = 1 61

2

2−

−∑D

n n( )

35

Page 36: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

rs SPEARMANSCHER Rangkorrelationskoeffizient D Rangdifferenzen bei den jeweiligen Beobachtungseinheiten n Zahl der Beobachtungseinheiten

5.2.4 Korrelation zwischen nominal skalierten Variablen Die Korrelationsanalyse nominal-skalierter Variablen entspricht der Analyse von Kontingenztabellen. Kontingenztabellen (Kreuztabellen) sind Matrizen, wo die Zeilen die Ausprägungen der einen und die Spalten die Ausprägungen der anderen Variable darstellen. Die Matrixelemente fij enthalten die Anzahl der Beobachtungen, wo die erste Variable die Eigenschaft i und die zweite Variable die Eigenschaft j annimmt. f11 f12 R1

F = f21 f22 R2

C1 C2 fij Matrix Elemente Ri Zeilensummen Cj Spaltensummen Beispiel: Zusammenhang zwischen Nationalität und Geschlecht von Urlaubern Nationalität männlich weiblich Zeilensummen

A 50 78 128

D 80 32 112

NL 23 90 113

andere 43 12 55

Spaltensummen 196 212 408

Die Beziehung zwischen den beiden Variablen kann mit dem sogenannten χ2

-Test (Chi - Quadrat Test) gemessen werden. Der χ

2- Index ist definiert als:

2

2

1

2

1

1

χ =−

∑∑==

( )ij ijf fefeijj

k

i

k

feij Erwartungswert von fij

feij = (Ri * Cj)/N χ2 = 84.38

36

Page 37: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

61 67

FE = 53 58

54 59

26 29

Eine Schwierigkeit bei der Interpretation von χ

2 ergibt sich, dass der Wert von χ

2 in

jeder Kontingenztafel direkt proportional zu der Anzahl der Beobachtungen ist. Zwei Tafeln mit gleichen relativen Zellhäufigkeiten weisen verschiedene χ

2- Werte auf.

Daher verwendet man, um die Abhängigkeit nominal skalierter Variablen zu überprüfen, Indizes, die auf dem χ

2- Wert aufbauen, beispielsweise den sogenannten

φ - Wert:

φχ

=2

N

Signifikanz - Test: Wenn der empirische χ2-Wert größer ist als der tabellarische χ

2-

Wert, dann muss die Nullhypothese, dass es keinen Zusammenhang gibt, zurückgewiesen werden; es kann von einem signifikanten Zusammenhang (bei einer Sicherheitswahrscheinlichkeit zwischen 95% und 99.9%) ausgegangen werden.

5.2.5 Empfehlungen zur Anwendung der Korrelationsanalyse metrischer Daten

Die sachliche Deutung gefundener statistischer Zusammenhänge und ihre Prüfung auf mögliche kausale Zusammenhänge liegt außerhalb der statistischen Methoden-lehre.

Es ist daher am Beginn einer Interpretation sinnvoll zu überprüfen, ob eine formale Korrelation (manchmal auch als Scheinkorrelation bezeichnet) vorliegt. Dies ist dann der Fall, wenn z.B. die beiden Variablen sich auf 100% ergänzende Prozentsätze sind, was automatisch zu einer negativen Korrelation führt. Liegt keine formale Korrelation vor, so ist als nächstes eine mögliche Inhomogenitäts-korrelation zu prüfen. Dabei bestehen die Beobachtungseinheiten aus verschiede-nen Teilmassen, die in unterschiedlichen Bereichen des Koordinatensystems liegen. Unterscheidet man die Teilmassen nicht, so wird durch die Lageunterschiede der Punktwolken ein Korrelationseffekt erzielt, der den Korrelationsverhältnisse innerhalb der Teilmassen völlig widerspricht.

Beispielsweise wird eine Korrelation zwischen "Durchschnittlicher Lebenserwartung" und dem Pkw-Besitz pro Einwohner vorgetäuscht, wenn man nicht zwischen den Teilmassen unterschiedlich entwickelter Regionen unterscheidet.

37

Page 38: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

5.3 SPSS-Prozeduren für Regressionsanalysen 1. Aufruf Der Aufruf einer (multivariaten) linearen Regression erfolgt über die Befehlsfolge Analysieren - Regression - Linear. Daraufhin erscheint das

2. Hauptfenster Lineare Regression

In diesem Fenster kann der Benutzer sein Regressionsmodell definieren. Die abhängige Variable ist in das Fenster Abhängige Variable zu stellen; die unab-hängigen Variablen in das Fenster Unabhängige eariable(n) Im Fenster Methode kann die gewünschte Form der Modellbildung eingestellt werden. Defaultmäßig ist Einschluß eingestellt; dabei werden alle unabhängigen Variablen auf einmal (simultan) zur Erklärung herangezogen.

Bei der Variante "Vorwärts" wird aus den unabhängigen Variablen jene mit dem höchsten Erklärungsbeitrag ausgewählt und dann eine Regression gerechnet. Sodann wird die Variable mit dem zweithöchsten Erklärungsbeitrag dazu aufge-nommen (als statistische Kriterien für die Aufnahme fungieren entweder ein F-Wert

38

Page 39: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

(FIN), oder ein Wahrscheinlichkeitswert (PIN)). Das Verfahren wird fortgesetzt, bis keine Variable mehr einen signifikanten Erklärungsbeitrag liefert.

Spiegelbildlich dazu kann das Verfahren der "Rückwärts" verwendet werden. Hier werden zuerst alle Variable in das Modell ausgenommen und sodann Variable, die bestimmten statistischen Kriterien (FOUT oder POUT) nicht genügen, sukzessive ausgeschieden.

Eine Kombination der beiden dargestellen Verfahren stellt die Methode "Schrittweise" dar. Hier können Variable, die einmal aufgenommen wurden, wieder eliminiert werden, wenn ihr FOUT oder POUT über einer definierten Grenze liegt. Das durch diesen stufenweisen Prozeß gefundene Regressionsmodell stellt in vielen Fällen eine brauchbare Lösung zur Erklärung der abhängigen Variablen dar.

Mit Hilfe des Fensters "Auswahlvariable" kann die Regression auf eine Teilmenge der Beobachtungen ("wenn die Selektionsvariable einen bestimmten Wert annimmt") reduziert werden.

Das Fenster "Fallbeschriftungen" dient der Beschriftung von Beobachtungen in graphischen Diagrammen.

3. Subfenster "Statistiken"

Über dieses Fenster können bestimmte Statistiken angefordert werden.

Unbedingt zu aktivieren sind die buttons Schätzer (geschätzte Regressionskoeffizi-enten) und Anpassungsgüte des Modells (Bestimmtheitsmaß). Je nach Aufgabenstellung ist es sinnvoll, auch folgende buttons zu aktivieren: Konfidenz-intervalle (Vertrauensbereiche für die Regressionskoefizienten); Deskriptive Statistik (Mittelwerte und Varianzen der verwendeten Variablen); Kollinearitäts-diagnose (z.B. Toleranzwerte für die unabhängigen Variablen) sowie die Ver-änderungen im Bestimmtheitsmaß (Änderung in R-Quadrat) und partielle Korrelationen (Teil- und partielle Korrelationen). Zusätzlich können hier auch die Residuen aller Beobachtungen dargestellt werden. Und zwar durch Aktivieren von Fallweise Diagnose und Alle Fälle. (Achtung auf den Umfang des Outputs; gegebenenfalls Ausreißer außerhalb 3 Standard-

39

Page 40: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

abweichungen aktivieren: Druckt nur Residuen, die mehr als das 3-fache der Standardabweichung aufweisen).

4. Subfenster "Diagramme"

Dieses Fenster dient einerseits der Darstellung von Residuen, abhängiger Variable sowie deren Schätzungen in 2-dimensionalen Graphiken. Wenn man überprüfen will, ob die Residuen annähernd normalverteilt sind sollte man Histogramm bzw. Normal verteilungsdiagramm aktivieren. Gewarnt wird vor dem button Alle partiellen Diagramme erzeugen. Damit wird eine kaum zu interpretierende Unmenge an Output produziert.

40

Page 41: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

5. Subfenster "Speichern"

Hier können Ergebnisvariable der Regressionsanalyse für andere (statistische) Analysen abgespeichert werden. Interessant sind vor allem die ursprünglichen (nicht standardisierten) und die standardisierten Werte der geschätzten y-Werte (vorhergesagte Werte) und der Residuen.

41

Page 42: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

6. Subfenster "Optionen"

Neben der Behandlung der "Fehlenden Werte" können hier individuelle Werte der PIN, POUT, FOUT und FIN eingestellt werden (Tipp: Defaultwerte nicht verändern).

5.4 SPSS – Output für Regressionsanalysen 1. Basis Output (Methode Einschluß)

Deskriptive Statistiken der verwendeten Variablen werden angeführt ebenso die Korrelationen:

Deskriptive Statistiken

156425,87 129577,869 405383,47 41,349 40531,02 ,390 4053

24,16996 10,1553665 4053

preisGröße in m2Zahl der BäderAnteil derAkademiker/Maturanten

MittelwertStandardabweichung N

42

Page 43: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Korrelationen

1,000 ,819 ,525 ,477,819 1,000 ,504 ,359,525 ,504 1,000 ,233

,477 ,359 ,233 1,000

. ,000 ,000 ,000,000 . ,000 ,000,000 ,000 . ,000

,000 ,000 ,000 .

4053 4053 4053 40534053 4053 4053 40534053 4053 4053 4053

4053 4053 4053 4053

preisGröße in m2Zahl der BäderAnteil derAkademiker/MaturantenpreisGröße in m2Zahl der BäderAnteil derAkademiker/MaturantenpreisGröße in m2Zahl der BäderAnteil derAkademiker/Maturanten

Korrelation nach Pearson

Signifikanz (einseitig)

N

preis Größe in m2Zahl derBäder

Anteil derAkademiker/Maturanten

Modellzusammenfassung

,850a ,723 ,723 68237,474Modell1

R R-QuadratKorrigiertesR-Quadrat

Standardfehler desSchätzers

Einflußvariablen : (Konstante), Anteil derAkademiker/Maturanten, Zahl der Bäder, Größe in m2

a.

Hier wird das Bestimmtheitsmaß (R-Quadrat) ausgewiesen. Bei niedrigen Fallzahlen stellt das korrigierte R-Quadrat) ein besseres Maß für die Güte des Modells dar. Standardfehler des Schätzers stellt die Standardabweichung der Residuen dar und kann ebenfalls als (nicht normiertes) Maß für die Modellgüte gelten.

ANOVAb

5E+013 3 1,6E+013 3520,726 ,000a

2E+013 4049 4,7E+0097E+013 4052

RegressionResiduenGesamt

Modell1

Quadratsumme df

Mittel derQuadrate F Signifikanz

Einflußvariablen : (Konstante), Anteil der Akademiker/Maturanten, Zahl der Bäder,Größe in m2

a.

Abhängige Variable: preisb.

Hier wird die Varianzzerlegung dargestellt (Anmerkung: Regression Quadratssumme = SSreg dividiert durch Gesamt = SStot ergibt das r2). Für die Überprüfung der Signifikanz werden der F-Wert und die Irrtumswahrscheinlichkeit (Signifikanz) ausgewiesen.

43

Page 44: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Koeffizientena

-129550 3599,399 -35,992 ,0002122,748 31,336 ,677 67,741 ,000

45417,947 3186,538 ,137 14,253 ,000

2578,457 113,343 ,202 22,749 ,000

(Konstante)Größe in m2Zahl der BäderAnteil derAkademiker/Maturanten

Modell1

BStandardf

ehler

Nicht standardisierteKoeffizienten

Beta

Standardisierte

Koeffizienten

T Signifikanz

Abhängige Variable: preisa.

In dieser Tabelle werden die (nichtstandardisierten) Regressionskoeffizienten (B) für die einzelnen unabhängigen Variablen angeführt. Diese Koeffizienten können aber nicht als Indikatoren für die absolute Bedeutung der Variablen herangezogen werden. Ihre Größe hängt ab vom Wertebereich der unabhängigen Variablen.

Um dennoch einen Vergleich herstellen zu können, werden auch standardisierte Regressionskoeffizienten (Beta) ausgewiesen. So sieht man hier, dass die Variable Größe den größten Einfluss hat, gefolgt vom Akademikeranteil, der Zahl der Badezimmer und zuletzt der Erreichbarkeit. Zur Überprüfung der Signifikanz der einzelnen Regressionskoeffizienten dienen hier der t-Wert sowie wiederum die Irrtumswahrscheinlichkeit Signifikanz.

Simulationsbeispiel Wieviel kostet eine Wohnung, 70 m2 groß und 2 Badezimmer, 35% Akademikeranteil in der Umgebung ?

Wohnungswert: -129550 + 2122,748 x 70 (148592,36) + 45417,947 x 2 (90835,894) + 2578,457 x 35 (90245,995) = 200124,249 €

44

Page 45: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

2. Schrittweise Regression

45

Page 46: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Aufgenommene/Entfernte Variablena

Größe in m2 .

SchrittweiseAuswahl(Kriterien:WahrscheinlichkeitvonF-Wert fürAufnahme <= ,050,WahrscheinlichkeitvonF-Wert fürAusschluß >=,100).

Anteil derAkademiker/Maturanten

.

SchrittweiseAuswahl(Kriterien:WahrscheinlichkeitvonF-Wert fürAufnahme <= ,050,WahrscheinlichkeitvonF-Wert fürAusschluß >=,100).

Zahl derBäder .

SchrittweiseAuswahl(Kriterien:WahrscheinlichkeitvonF-Wert fürAufnahme <= ,050,WahrscheinlichkeitvonF-Wert fürAusschluß >=,100).

Modell1

2

3

Aufgenommene Variablen

EntfernteVariablen Methode

Abhängige Variable: preisa.

46

Page 47: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Zuerst wird der PREIS nur durch die Größe (Model 1), dann durch die Größe und dem Akademikeranteil (Model 2), dann durch die Größe, dem Akademikeranteil und die Zahl der Bäder (Model 3) erklärt

Modellzusammenfassung

,819a ,670 ,670 74389,802 ,670 8243,314 1 4051 ,000,842b ,709 ,709 69919,726 ,038 535,531 1 4050 ,000,850c ,723 ,723 68237,474 ,014 203,150 1 4049 ,000

Modell123

R R-QuadratKorrigiertesR-Quadrat

Standardfehler desSchätzers

Änderung inR-Quadrat Änderung in F df1 df2

Änderung inSignifikanz

von F

Änderungsstatistiken

Einflußvariablen : (Konstante), Größe in m2a.

Einflußvariablen : (Konstante), Größe in m2, Anteil der Akademiker/Maturantenb.

Einflußvariablen : (Konstante), Größe in m2, Anteil der Akademiker/Maturanten, Zahl der Bäderc.

Hier sind auch die Veränderungen der einzelnen Parameter dargestellt. So sieht man beispielsweise, dass mit der Größe alleine 67 % (R Square: .67) der Varianz des Wohnungspreises erklärt werden. Im Modell 2 erhöht sich das r2 auf .709 um im Modell 4 schließlich auf den schon bekannten Wert von .723 zu kommen.

Die beiden letzten Tabellen zeigen die Varianzzerlegung sowie die Regressions-koeffizienten für alle 3 Modelle:

ANOVAd

5E+013 1 4,6E+013 8243,314 ,000a

2E+013 4051 5,5E+0097E+013 40525E+013 2 2,4E+013 4933,276 ,000b

2E+013 4050 4,9E+0097E+013 40525E+013 3 1,6E+013 3520,726 ,000c

2E+013 4049 4,7E+0097E+013 4052

RegressionResiduenGesamtRegressionResiduenGesamtRegressionResiduenGesamt

Modell1

2

3

Quadratsumme df

Mittel derQuadrate F Signifikanz

Einflußvariablen : (Konstante), Größe in m2a.

Einflußvariablen : (Konstante), Größe in m2, Anteil der Akademiker/Maturantenb.

Einflußvariablen : (Konstante), Größe in m2, Anteil der Akademiker/Maturanten,Zahl der Bäder

c.

Abhängige Variable: preisd.

47

Page 48: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Koeffizientena

-57774,1 2632,734 -21,945 ,0002566,059 28,263 ,819 90,793 ,000-102845 3149,053 -32,659 ,000

2329,403 28,465 ,743 81,834 ,000

2682,071 115,899 ,210 23,142 ,000

-129550 3599,399 -35,992 ,0002122,748 31,336 ,677 67,741 ,000

2578,457 113,343 ,202 22,749 ,000

45417,947 3186,538 ,137 14,253 ,000

(Konstante)Größe in m2(Konstante)Größe in m2Anteil derAkademiker/Maturanten(Konstante)Größe in m2Anteil derAkademiker/MaturantenZahl der Bäder

Modell1

2

3

BStandardf

ehler

Nicht standardisierteKoeffizienten

Beta

Standardisierte

Koeffizienten

T Signifikanz

Abhängige Variable: preisa.

3. Darstellung der Residuen

Als Beispiel sollen hier all jene Residuen aufgelistet werden, deren Abweichung vom Mittelwert (0) (absolut) größer ist als das dreifache der Standardabweichung.

48

Page 49: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Fallweise Diagnosea

1012001 -3,710 290966 544115,52 -253149,2941012001 10,069 1091123 404014,17 687109,1801016005 7,047 945640 464781,80 480858,4331035005 4,540 691045 381265,40 309779,3861052003 4,284 720141 427819,56 292321,8531052004 5,557 1032930 653737,22 379192,8781077001 5,049 581932 237391,63 344540,8182027001 8,244 909269 346694,52 562574,9343026002 3,258 591462 369146,11 222315,4893026002 3,030 725313 518578,69 206734,6403034001 -3,022 96746 302993,94 -206247,6683092003 -8,167 290966 848291,22 -557324,9974035006 3,120 378256 165387,56 212868,5324037009 -3,091 436449 647394,22 -210944,8814041001 6,677 1091123 635535,55 455587,7976016001 -4,500 133844 440922,12 -307077,6527031001 -5,033 140173 483619,23 -343446,2537044002 -3,195 61830 279833,76 -218003,4387048001 -4,966 332836 671709,72 -338873,4528027001 -3,507 105475 344799,24 -239323,9858027003 -5,277 327337 687427,66 -360090,6558029001 -3,031 218225 425058,92 -206834,2509012004 5,564 982011 602341,80 379669,2149017001 6,248 1236606 810226,42 426380,0399024002 -8,023 152757 700228,05 -547470,7819029001 12,684 1654870 789343,65 865526,7639029001 3,250 1011108 789343,65 221763,9889049007 -7,336 338248 838849,60 -500601,3669054003 -4,941 101838 438991,60 -337153,419

10221005 -3,056 130935 339449,60 -208514,80212065005 -6,876 76379 545581,47 -469202,83812070001 -3,614 301877 548515,85 -246638,38913020006 6,762 1229332 767895,85 461436,45813020006 4,987 938366 598076,03 340290,05213023006 -3,197 218225 436361,57 -218136,90213026001 -4,043 269144 545039,84 -275896,08313026001 4,676 727416 408343,74 319071,82313026001 9,116 1091123 469063,18 622060,16513026004 3,617 618303 371493,05 246810,18213031005 -3,246 119587 341058,79 -221471,67313060003 4,109 618303 337932,13 280371,09713110004 3,770 472820 215584,66 257235,45314015006 -3,467 30551 267157,36 -236605,90517051007 3,309 923818 698030,21 225787,56217051007 4,868 1036567 704398,45 332168,73218010009 3,059 458272 249508,20 208763,60618011005 3,219 676496 456832,29 219664,18918011005 4,845 909269 578669,15 330600,30418027007 4,442 576259 273141,51 303117,10118053003 5,104 792883 444584,07 348298,89619013006 3,127 800157 586808,17 213348,95219045001 6,233 1018382 593048,04 425333,75619046001 5,852 945640 546329,12 399311,11319047003 3,239 581932 360878,82 221053,63719050001 -3,058 349159 557810,53 -208651,05519051006 4,879 872899 539954,10 332944,57519053002 -3,378 160031 390571,40 -230539,97319054003 3,761 523739 267126,38 256612,82319060028 3,020 501917 295847,67 206069,07319061007 3,405 468456 236085,09 232370,53819062003 4,105 654674 374579,88 280094,13319063006 5,227 632852 276159,40 356692,14619070013 3,066 421901 212666,96 209234,06819070024 6,481 872899 430656,95 442241,72719092001 3,599 836528 590925,29 245602,61219094002 4,897 800157 465969,53 334187,59319103005 3,007 654674 449509,47 205164,54020080006 -6,189 35643 457972,60 -422329,23223112004 -6,329 203676 635558,61 -431882,250

Fallnummer910133848498511936737039153065366269193211341161117512891292130213421361139614121413149915241779200620162060206120752083208420852097213122522289230329162917295029542955303931773183325832683287329733013310332433383354335833603373338434783494351836654005

BaublockcodeStandardisierte Residuen preis

Nichtstandardis

iertervorhergesagter Wert

Nichtstandardisierte Residuen

Abhängige Variable: preisa.

49

Page 50: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Positive Residuen bedeuten, dass die abhängige Variable unterschätzt, negative Residuen, dass sie überschätzt werden.

4. Histogramm der Residuen

151050-5-10

Regression Standardisiertes Residuum

1.250

1.000

750

500

250

0

Häu

figke

it

Mittelwert =1,33E-15�Std.-Abw. =1�

N =4.053

Histogramm

Abhängige Variable: preis

Man sieht, dass die Verteilung der Residuen sehr gut einer Normalverteilung entspricht, dass also eine der Vorrausetzungen für das lineare Regressionsmodell erfüllt ist.

5.5 SPSS-Prozeduren für bivariate Korrelationsanalysen

1. Aufruf Der Aufruf einer bivariaten Korrelationsanalyse erfolgt über die Befehlsfolge Analysieren - Korrelation – Bivariate Korrelationen. Daraufhin erscheint das

50

Page 51: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

2. Hauptfenster Bivariate Korrelationen

Die zu korrelierenden Variablen sind in das Fenster Variablen zu stellen. Handelt es sich dabei um quantitative Variablen, so ist der button Pearson zu aktivieren; handelt es sich um ordinale Variablen (Rangkorrelation), so sind Kendall's Tau-b oder Spearman zu aktivieren.

3. Subfenster "Optionen"

Hier können neben der Behandlung von "Fehlenden Werten" Mittelwerte und Standardabweichungen der Variablen angefordert werden.

51

Page 52: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

5.6 SPSS-Output für bivariate Korrelationsanalysen 1. Pearson Korrelation

Korrelationen

1 ,011 ,038*,502 ,017

4053 4053 4053,011 1 ,859**,502 ,0004053 4053 4053,038* ,859** 1,017 ,0004053 4053 4053

Korrelation nach PearsonSignifikanz (2-seitig)NKorrelation nach PearsonSignifikanz (2-seitig)NKorrelation nach PearsonSignifikanz (2-seitig)N

preis

Erreichbarkeit der City IV

Erreichbarkeit der City ÖV

preisErreichbarkeit

der City IVErreichbarkeitder City ÖV

Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.*.

Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.**.

Im der ersten Zeile der Tabelle werden die Korrelationskoeffizienten, in der zweiten die Irrtumswahrscheinlichkeiten und am Ende die Zahl der gültigen Beobachtungen angeführt.

2. Rangkorrelation (Nichtparametrische Korrelation)

Korrelationen

1,000 -,088**. ,000

4053 4053-,088** 1,000,000 .4053 4053

KorrelationskoeffizientSig. (2-seitig)NKorrelationskoeffizientSig. (2-seitig)N

Zustand

lift1

Spearman-RhoZustand lift1

Die Korrelation ist auf dem 0,01 Niveau signifikant (zweiseitig).**.

Die Variable ZUST (Zustand der Wohnung) hat die Ausprägungen 1 (sehr gut), 2 (gut), 3 (durchschnittlich) und 4 (mäßig/schlecht). Der negative Korrelations-koeffizient mit dem Vorhandensein eines Lifts entspricht daher den Erwartungen.

52

Page 53: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

3. Grafische Darstellungen von Korrelationen

Zweidimensionales Streudiagramm

Der Aufruf eines zweidimensionalen Streudiagramms erfolgt über die Befehlsfolge Grafiken – Streu-/Punkt-Diagramm – Einfaches Streudiagramm - Definieren. Daraufhin erscheint

Die entsprechenden Variablen sind in die Fenster Y-Achse bzw. X-Achse einzugeben:

53

Page 54: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Dreidimensionales Streudiagramm

Der Aufruf eines zweidimensionalen Streudiagramms erfolgt über die Befehlsfolge Grafiken – Streu-/Punkt-Diagramm – 3D Streudiagramm - Definieren. Daraufhin erscheint

54

Page 55: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

55

Page 56: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

5.8 SPSS-Prozeduren für partielle Korrelationsanalysen

1. Aufruf Der Aufruf einer partiellen Korrelationsanalyse erfolgt über die Befehlsfolge Analysieren - Korrelation – Partielle Korrelationen. Daraufhin erscheint das

2. Hauptfenster Partielle Korrelationen

56

Page 57: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Das gezeigte Fenster ist identisch mit jenem für die bivariate Korrelationsanalyse, mit der einzigen Ausnahme, dass die konstant zu haltende Variable in das Fenster Kontrollvariablen zu stellen ist. Auch das Options-Fenster entspricht dem bei der bivariaten Analyse und wird hier nicht mehr dargestellt.

5.9 SPSS-Output für partielle Korrelationsanalysen

Um den Output entsprechend interpretieren zu können, wird auch noch die biavariate Korrelation zwischen dem Preis und dem Akademikeranteil dargestellt:

Korrelationen

1 ,477**,000

4053 4053,477** 1,0004053 4053

Korrelation nach PearsonSignifikanz (2-seitig)NKorrelation nach PearsonSignifikanz (2-seitig)N

preis

Anteil derAkademiker/Maturanten

preis

Anteil derAkademiker/Maturanten

Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.**.

57

Page 58: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Korrelationen

1,000 ,342. ,000

0 4050,342 1,000,000 .

4050 0

KorrelationSignifikanz (zweiseitig)FreiheitsgradeKorrelationSignifikanz (zweiseitig)Freiheitsgrade

preis

Anteil derAkademiker/Maturanten

KontrollvariablenGröße in m2

preis

Anteil derAkademiker/Maturanten

Man sieht, dass sich die Korrelation verringert, wenn man die Größe kontrolliert (Ursache: Akademiker/Maturanten haben größere Wohnungen)

5.10 SPSS-Prozeduren für Kontingenzanalysen 1. Aufruf Der Aufruf einer Kontingenzanalyse erfolgt über die Befehlsfolge Analysieren – Deskriptive Statistiken - Kreuztabellen. Daraufhin erscheint das

58

Page 59: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

2. Hauptfenster Kreuztabellen

Die beiden zu korrelierenden, nominal skalierten Variablen sind in die Fenster Zeilen bzw. Spalten zu stellen.

Wenn man nur die statistischen Messwerte, nicht aber die Kontingenz- (Kreuz)-Tabellen ausgedruckt haben möchte, sollte man Keine Tabellen aktivieren.

Um Statistiken und Abhängigkeitsmaße zu erhalten ist Statistik zu aktivieren:

59

Page 60: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Neben dem Chi-Quadrat Wert ist es empfehlenswert auch Phi and Cramers' V anzufordern.

Die defaultmäßige Kreuztabelle weist nur die Zahl der Fälle in jeder Zelle aus. Um Prozentwerte und Erwartungswerte getrennt nach Zeilen und Spalten zu erhalten ist Zellen zu aktivieren. Außerdem ist es sinnvoll, auch die erwarteten Werte (Häufigkeiten erwartet) anzufordern.

5.11 SPSS-Output für Kontingenzanalysen Für die folgende Analyse wird eine Variable Bezinnen definiert, derart, dass diese Variable gleich 1 ist, wenn es sich um die Bezirke 1 – 9 handelt und sonst gleich 2 ist. In diesem Beispiel wird nun der Zusammenhang zwischen dem Zustand und dieser Variable BEZINNEN analysiert. In der Tabelle sind zuerst die Zahl der Beobachtungen in jeder Zelle und dann die erwarteten Werte (wenn es keinen Zusammenhang zwischen den beiden Variablen) angeführt.

Eine erste Analyse der Tabelle zeigt, dass gute und sehr gute eher in den Außenbezirken Wiens vorkommen.

60

Page 61: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

bezinnen * Zustand Kreuztabelle

842 450 160 88 1540869,4 489,0 131,1 50,5 1540,0

54,7% 29,2% 10,4% 5,7% 100,0%36,8% 35,0% 46,4% 66,2% 38,0%20,8% 11,1% 3,9% 2,2% 38,0%

1446 837 185 45 25131418,6 798,0 213,9 82,5 2513,057,5% 33,3% 7,4% 1,8% 100,0%63,2% 65,0% 53,6% 33,8% 62,0%35,7% 20,7% 4,6% 1,1% 62,0%

2288 1287 345 133 40532288,0 1287,0 345,0 133,0 4053,056,5% 31,8% 8,5% 3,3% 100,0%

100,0% 100,0% 100,0% 100,0% 100,0%56,5% 31,8% 8,5% 3,3% 100,0%

AnzahlErwartete Anzahl% von bezinnen% von Zustand% der GesamtzahlAnzahlErwartete Anzahl% von bezinnen% von Zustand% der GesamtzahlAnzahlErwartete Anzahl% von bezinnen% von Zustand% der Gesamtzahl

1,00

2,00

bezinnen

Gesamt

sehr gut gutdurchsch

nittlichMäßig/sc

hlecht

Zustand

Gesamt

Diese Vermutung wird dann durch die statistischen Kennzahlen bestätigt:

Chi-Quadrat-Tests

61,489a

3 ,000

59,628 3 ,000

29,561 1 ,000

4053

Chi-Quadrat nachPearsonLikelihood-QuotientZusammenhanglinear-mit-linearAnzahl der gültigen Fälle

Wert df

Asymptotische Signifikanz

(2-seitig)

0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Dieminimale erwartete Häufigkeit ist 50,54.

a.

So ist beispielsweise der Pearson´sche Chi-Quadratkoeffizient hochsignifikant und es muss daher die Nullhypothese (kein Zusammenhang zwischen den Variablen) zurückgewiesen werden. Auch der Phi-Wert ist hochsignifikant:

61

Page 62: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Symmetrische Maße

,123 ,000,123 ,000,122 ,0004053

PhiCramer-VKontingenzkoeffizient

Nominal- bzgl.Nominalmaß

Anzahl der gültigen Fälle

Wert

Näherungsweise

Signifikanz

Die Null-Hyphothese wird nicht angenommen.a.

Unter Annahme der Null-Hyphothese wird der asymptotischeStandardfehler verwendet.

b.

6. Varianz- und Kovarianzanalyse Die Varianzanalyse ist ein Verfahren, das die Wirkung einer (mehrerer) unabhängiger Variablen auf eine abhängige Variable untersucht. Die unabhängigen Variablen sind dabei nominal oder ordinal skaliert, während die abhängige Variable metrisches Skalenniveau aufweisen muss. Anwendungsbeispiele

• Welchen Einfluss haben Geschlecht und/oder Nationalität auf die Urlaubsausgaben.

• Wie wirken Baualters- und Zustandskategorien auf Preise von Eigentumswohnungen

• Wie wirken Düngemittel und Bodenbeschaffenheit auf die Erträge bestimmter Nutzpflanzen.

Definitionen Die unabhängigen Variablen werden in der Varianzanalyse als Faktoren bezeichnet, ihre Ausprägungen als Niveaus (Levels). Die Anordnung der Faktoren heißt Versuchsplan (faktorielles Design). Werden bei einer Varianzanalyse alle möglichen Faktorkombinationen (Zellen) (m1 x m2x . . . x mi; mj: Anzahl der Niveaus der jeweiligen Faktoren) verwendet, so spricht man von einem vollständigen, andernfalls von einem unvollständigen Design. Ist die Zahl der Beobachtungen in jeder Zelle gleich, so spricht man von einem regelmäßigen (balanced), andernfalls von einem unregelmäßigen (unbalanced) Design.

6.1 Einfache Varianzanalyse Wir wollen uns im Folgenden vorerst nur auf vollständige und regelmäßige Verfahren beziehen und die Methodik der Varianzanalyse vorerst am Beispiel eines Faktors darstellen:

62

Page 63: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

x x x x x x x x x x x x x x x x Nationalität 1 2 3 4 ykz k-ter Beobachtungswert in der Gruppe z (z.B m2-Preis einer Wohnung mit Zustand 2 (gut)) Varianzanalyse bedeutet: Zerlegung der Gesamtstreuung in: Erklärte Streuung Nicht erklärte Streuung Summe der quadrierten Summe der quadrierten Summe der quadrierten Abweichungen vom Abweichungen zwischen Abweichungen innerhalb Gesamtmittelwert den (Gruppen)-Mittelwerten der Gruppen

∑ ∑ (ykz - y..)2 = ∑ ∑ (y.z - y..)

2 + ∑ ∑ (ykz - y.z)2

SStot = SSvar + Sserr

y.z Mittelwert der Gruppe z

y.. Gesamtmittelwert k Zahl der Beobachtungen je Gruppe z Zahl der Niveaus (Gruppen) Die exakte Aufteilung der Gesamtvarianz gemäß obiger Formel in einen erklärten und einen nicht erklärten Teil gilt allerdings nur für regelmäßige Versuchspläne. Bestimmtheitsmaß (Goodness of Fit) η2 = r2 = SSvar/SStot = SSvar/(SSvar + SSerr) ε [0,1]

63

Page 64: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Beispiel: M2-Priese Zustand ( )..y ykz −

2

( ). ..y yz −2 ( ).y ykz z− 2

700 schlecht 10.000 40.000 10.000 500 schlecht 90.000 40.000 10.000 600 mittel 40.000 40.000 0 600 mittel 40.000 40.000 0 900 gut 10.000 0 10.000 700 gut 10.000 0 10.000 1300 Sehr gut 250.000 160.000 10.000 1100 Sehr gut 90.000 160.000 10.000 Σ 540.000 480.000 60.000 Gruppenmittelwert (schlecht): 600 Gruppenmittelwert (mittel): 600 Gruppenmittelwert (gut): 800 Gruppenmittelwert (sehr gut): 1200 Gesamtmittelwert: 800 r2 = 480.000 / 540.000 = 0.8889

64

Page 65: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Statistische Signifikanz Test der Nullhypothese: Der Faktor hat keinen Einfluss auf die abhängige Variable (die Gruppenmittelwerte sind nicht verschieden). F-Test: Wenn der empirische F-Wert Femp größer ist als der tabellarische F-Wert Ftab, dann wird die Nullhypothese verworfen, also der Einfluss auf dem jeweiligen Signifikanzniveau (üblicherweise zwischen 90% und 99.9%) bestätigt. Femp = (SSvar/(Z-1)) / (SSerr/(K-Z))

6.2 Zweifaktorielle Varianzanalyse Die zweifaktorielle Varianzanalyse erlaubt die Erfassung des gleichzeitigen Wirksamwerdens zweier Faktoren, indem das Vorliegen von Wechselwirkungen ("interactions") zwischen den Faktoren getestet wird. So mag zum Beispiel die Vermutung gerechtfertigt erscheinen, dass bestimmte Düngemittel, angewendet auf verschiedene Bodenarten zu unterschiedlichen Erträgen führen. Liegen Wechsel-wirkungen vor, so spricht man von einem saturierten Modell, andernfalls von einem additiven Modell. Saturierte (vollständige) Modelle sind also solche, bei denen alle Parameter aufgenommen werden, die sich aus den Variablen und ihren Interaktionen bilden lassen. Durch solche Modelle werden die Daten vollständig "reproduziert". Es erfolgt keine Vereinfachung, sondern nur eine Umformung der Daten, durch die keine Information, die in den Daten steckt, verloren geht. Der Vorteil liegt darin, dass alle möglichen Effekte quantifiziert und verglichen werden können. Der Nachteil liegt darin, dass es nicht zu einer Vereinfachung der Datenstruktur kommt und Simulationen nur zu trivialen Ergebnissen führen. Varianzzerlegung SStot = SSA + SSB + SSAB + SSerr

SSA = ∑ ∑ ∑ (y i.. - y...)2

SSB = ∑ ∑ ∑ (y.j. - y...)2

SSAB = ∑ ∑ ∑ (y ij. - y i.. - y.j. + y...)2

SStot = ∑ ∑ ∑ (yijk - y...)2

SSerr = ∑ ∑ ∑ (yijk - y ij.)2

65

Page 66: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

y ... Gesamtmittelwert

y i.. Mittelwert der i-ten Ausprägung des Faktors A (Zeilenmittel)

y .j. Mittelwert der j-ten Ausprägung des Faktors B (Spaltenmittel)

y ij. Mittelwert der Gruppe (Zelle) ij

yijk k-ter Beobachtungswert in der Gruppe (Zelle) ij Diese Form der Varianzzerlegung, dass die Summe der einzelnen Varianzanteile die Gesamtvarianz ergeben, gilt auch hier nur für den Fall, dass in jeder Gruppe (Zelle) gleich viele Beobachtungen zur Verfügung stehen. Ist die Zahl der Beobachtungen (in den Zellen) ungleich, so besteht einerseits die Möglichkeit, aus jeder Zelle eine zufällige, gleichgroße Stichprobe zu ziehen (in SPSS mit DATA - SELECT CASES - RANDOM SAMPLE OF CASES) und eine rege-lmäßige Analyse durchzuführen. Andererseits bietet SPSS auch Möglichkeiten, unregelmäßige Versuchspläne zu analysieren, worauf später noch im Detail eingegangen wird. Bestimmtheitsmaß (Goodness of Fit)

η2 = r2 = (SSA + SSB + SSAB) / SStot SSA bzw. SSB werden oft auch als Haupteffekte (main effects) der Faktoren A bzw. B bezeichnet. Beispiel: Urlaubs- ausgaben

Zustand Garage SSA SSB SSAB SSTOT SSERR

700 Mittel/schlecht J 40.000 10.000 10.000 10.000 10.000 500 Mittel/schlecht N 40.000 10.000 10.000 90.000 10.000 600 Mittel/schlecht J 40.000 10.000 10.000 40.000 0 600 Mittel/schlecht N 40.000 10.000 10.000 40.000 0 900 Sehr gut / gut J 40.000 10.000 10.000 10.000 10.000 700 Sehr gut / gut N 40.000 10.000 10.000 10.000 10.000 1300 Sehr gut / gut J 40.000 10.000 10.000 250.000 10.000 1100 Sehr gut / gut N 40.000 10.000 10.000 90.000 10.000 Σ 320.000 80.000 80.000 540.000 60.000

Gruppenmittelwert (A+D): 600 Gruppenmittelwert (Sonst.): 1000 Gruppenmittelwert (M): 700 Gruppenmittelwert (W): 900 Gruppenmittelwert (A+D; M): 600 Gruppenmittelwert (A+D; W): 600 Gruppenmittelwert (Sonst.; M): 800 Gruppenmittelwert (Sonst.; W): 1200 Gesamtmittelwert: 800

66

Page 67: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

r2 = 480.000 / 540.000 = 0.8889 Wie man die Ergebnisse der Varianzanalyse für Schätzungen (Simulationen) nutzt, darauf wird bei der Interpretation der SPSS - Outputs noch näher eingegangen. Statistische Signifikanz 1. Genereller Modelltest Nullhypothese: Die im Modell spezifizierten Faktoren haben keinen Einfluss auf die abhängige Variable.

F-Test: Wenn der empirische F-Wert Femp größer ist als der tabellarische F-Wert Ftab, wird die Nullhypothese verworfen, also der Einfluss auf dem jeweiligen Sig-nifikanzniveau bestätigt.

Femp = (SSA+SSB+SSAB)/((I-1)+(J-1)+(I-1)*(J-1)) /(SSerr/(I*J*(K-1)))

I Anzahl der Ausprägungen (Niveaus) von Faktor A J Anzahl der Ausprägungen (Niveaus) von Faktor B K Zahl der Beobachtungswerte je Zelle 2. Test auf Additivität Nullhypothese: Es liegen keine Wechselwirkungen zwischen den einzelnen Faktoren vor.

F-Test: Wenn der empirische F-Wert Femp größer ist als der tabellarische F-Wert Ftab, wird die Nullhypothese verworfen, also das Vorhandensein von Wechsel-wirkungen auf dem jeweiligen Signifikanzniveau bestätigt.

Femp = SSAB/((I-1)*(J-1)) / (SSerr/(I*J*(K-1))) 3. Test auf Signifikanz der einzelnen Faktoren Nullhypothese: Der jeweilige Faktor hat keinen signifikanten Einfluß auf die abhängige Variable

F-Test: Wenn der empirische F-Wert Femp größer ist als der tabellarische F-Wert Ftab, wird die Nullhypothese verworfen, also der Einfluß auf dem jeweiligen Signifikanzniveau bestätigt.

Femp = SSA/(I-1) / (SSerr/(I*J*(K-1)))

67

Page 68: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

6.3 Empfehlungen zur Anwendung der Varianzanalyse 1. Das Problem, das es zu untersuchen gilt, muss genau definiert werden:

Welche Größe soll erklärt werden? Der zu erklärende Sachverhalt bedarf einer metrischen Skalierung.

2. Die Werte der abhängigen Variablen sollten normalverteilt sein.

3. Die Faktoren müssen sich eindeutig voneinander unterscheiden, d.h. sie müssen wirklich verschiedene Einflussgrößen der abhängigen Variable darstellen.

4. Zunächst sollte die Signifikanz des Gesamtmodells getestet werden. Ist kein signifikantes Ergebnis erzielbar, sollte der Ansatz verworfen werde. Bei Sig-nifikanz ist sodann die Addivität (Fehlen von Wechselwirkungen) zu testen. Trifft dies zu, so sind zuletzt die Signifikanzen der einzelnen Faktoren (Haupt-effekte) zu testen.

5. Insgesamt gilt die Faustregel, dass die Varianzanalyse verhältnismäßig robust gegenüber Verletzungen der Prämissen ihres linearen Grundansatzes ist.

68

Page 69: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

6.4 Kovarianzanalyse Die Kovarianzanalyse ist ein Verfahren, das die Wirkung mehrerer unabhängiger Variablen auf eine abhängige Variable untersucht. Während die abhängige Variable metrisches Skalenniveau aufweisen muß, findet man unter den erklärenden Varia-blen sowohl metrische als auch ordinal oder nominal skalierte Variablen. Beispiel: Welchen Einfluß haben Zustand und Erreichbarkeit auf Immobilienpreise. Die Kovarianzanalyse stellt somit eine Kombination von Regressions- und Varianz-analyse dar und die Varianzzerlegung erfolgt analog. Die metrischen erklärenden Variablen werden auch als Kovariaten bezeichnet.

6.5 SPSS-Prozeduren für einfache Varianzanalysen 1. Aufruf Der Aufruf einer einfachen Varianzanalyse erfolgt über die Befehlsfolge Analyse - Compare Means - One-Way ANOVA. Daraufhin erscheint das Fenster

In diesem Fenster kann der Benutzer sein Analysemodell definieren. Die abhängige Variable ist in das Fenster Dependent zu stellen; die unabhängigen Variablen in das Fenster Factor(s).

69

Page 70: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

2. Subfenster "Options"

Hier können beschreibende Statistiken sowie eine grafische Darstellung der Gruppenmittelwerte angefordert werden.

6.6 SPSS-Output für einfache Varianzanalysen Im folgenden Beispiel werden die m2-Preise von Eigentumswohnungen in Abhängigkeit vom Zustand der Wohnung (ZUST: 1 = sehr gut, 2 = gut, 3 = durch-schnittlich, 4 = schlecht) analysiert.

Descriptives

m2preis

2288 1926.0191 714.05238 14.92801 1896.7453 1955.2930 137.09 6061.801287 1621.6675 591.20614 16.47971 1589.3374 1653.9975 163.67 5195.83345 1418.9432 425.90728 22.93008 1373.8424 1464.0440 218.22 3482.31133 1149.5969 378.00079 32.77683 1084.7611 1214.4327 360.43 2751.12

4053 1760.7327 680.10038 10.68279 1739.7885 1781.6768 137.09 6061.80

sehr gutgutdurchschnittlichMäßig/schlechtTotal

N Mean Std. Deviation Std. Error Lower Bound Upper Bound

95% Confidence Interval forMean

Minimum Maximum

70

Page 71: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

In der folgenden Tabelle ist die Zerlegung der Varianzen dargestellt. Leider enthält der Output keinen expliziten Hinweis auf das Bestimmtheitsmaß. Dieses ist aus dem Verhältnis "Between Group Sum of Squares" zu "Total Sum of Squares" zu errechnen: (hier:1.77E+08/1.87E+09 = 0.09465 = 9.5%)

ANOVA

m2preis

1.77E+08 3 59124471.85 141.084 .0001.70E+09 4049 419072.5161.87E+09 4052

Between GroupsWithin GroupsTotal

Sum ofSquares df Mean Square F Sig.

Die grafische Darstellung der Gruppenmittelwerte ist aus folgender Abbildung ersichtlich:

sehr gut gut durchschnittlich Mäßig/schlecht

Zustand

1200,00

1400,00

1600,00

1800,00

2000,00

Mea

n of

m2p

reis

6.7 SPSS-Prozeduren für multivariate Varianzanalysen

71

Page 72: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Der Aufruf einer multivariaten Varianzanalyse erfolgt über die Befehlsfolge Analyse - General Linear Model - Univariate. Daraufhin erscheint das Fenster

Die abhängige Variable ist wiederum in das Fenster Dependent zu stellen; die unab-hängigen Variablen in das Fenster Factor(s).

72

Page 73: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Im Subfenster Model kann die Art (Design) der Analyse spezifiziert werden:

Will man ein saturiertes Modell analysieren, so ist "Full Factorial" zu aktivieren. Bei einem additiven Modell ist hingegen Customs zu aktivieren und es sind die Haupteffekte (Factors & Covariates) in das Model - Fenster zu geben und außerdem ist bei Build Term(s) die Option "Main Effects" einzustellen. Will man zusätzlich zur Varianzzerlegung auch Simulationen durchführen so sind im Fenster Options "Descriptive Statistics" und "Parameter Estimates" zu aktivieren:

73

Page 74: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

6.8 SPSS-Output für multivariate Varianzanalysen Zusätzlich zum Erklärungsfaktor ZUST (Zustand) wird hier auch noch der Faktor (GAR: 0=keine Garage vorhanden, 1=Garage vorhanden) verwendet. In der folgenden Kreuztabelle werden die Mittelwerte und Standardabweichungen aller Zellen aufgelistet:

74

Page 75: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Descriptive Statistics

Dependent Variable: m2preis

1847.7827 662.02516 17682192.0229 814.15998 5201926.0191 714.05238 22881551.1208 563.73225 11002036.6479 579.93120 1871621.6675 591.20614 12871404.4947 412.09183 3331819.8896 604.66569 121418.9432 425.90728 3451141.9078 376.38658 1301482.7912 350.00078 31149.5969 378.00079 1331677.9518 631.81209 33312142.6484 760.29234 7221760.7327 680.10038 4053

Garage vorhanden01Total01Total01Total01Total01Total

Zustandsehr gut

gut

durchschnittlich

Mäßig/schlecht

Total

Mean Std. Deviation N

Die Varianzzerlegung (des saturierten Modells) ist in der nächsten Tabelle ersichtlich:

Tests of Between-Subjects Effects

Dependent Variable: m2preis

265006306a 7 37858043.74 95.163 .000416457781 1 416457781.5 1046.843 .000

33442735.0 3 11147578.33 28.021 .0005768168.589 1 5768168.589 14.499 .0002299142.032 3 766380.677 1.926 .1231609191727 4045 397822.429

1.444E+10 40531874198033 4052

SourceCorrected ModelInterceptzustgaragenzust * garagenErrorTotalCorrected Total

Type III Sumof Squares df Mean Square F Sig.

R Squared = .141 (Adjusted R Squared = .140)a.

Die Gesamtvarianz findet man in der Zeile Corrected Total, die erklärte Varianz bei Corrected Model, die Irrtumsvarianz bei Error. Man beachte, daß die Varianzanteile der einzelnen Faktoren (ZUST, GAR) sowie der Wechelwirkung (ZUST*GAR) nicht die erklärte Varianz ergeben. Dies deshalb, weil hier kein regelmäßiges Modell (Design) vorliegt. Um Simulationen durchführen zu können ist folgende Tabelle notwendig:

75

Page 76: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Parameter Estimates

Dependent Variable: m2preis

1482.791 364.153 4.072 .000 768.851 2196.732709.232 365.202 1.942 .052 -6.765 1425.229553.857 367.062 1.509 .131 -165.788 1273.501337.098 407.136 .828 .408 -461.111 1135.308

0a . . . . .-340.883 368.331 -.925 .355 -1063.015 381.248

0a . . . . .-3.357 369.672 -.009 .993 -728.118 721.405

0a . . . . .-144.644 371.694 -.389 .697 -873.369 584.082

0a . . . . .-74.512 412.328 -.181 .857 -882.901 733.878

0a . . . . .0a . . . . .0a . . . . .

ParameterIntercept[zust=1][zust=2][zust=3][zust=4][garagen=0][garagen=1][zust=1] * [garagen=0][zust=1] * [garagen=1][zust=2] * [garagen=0][zust=2] * [garagen=1][zust=3] * [garagen=0][zust=3] * [garagen=1][zust=4] * [garagen=0][zust=4] * [garagen=1]

B Std. Error t Sig. Lower Bound Upper Bound95% Confidence Interval

This parameter is set to zero because it is redundant.a.

An Hand des folgenden Beispiels (Simulation einer Wohnung in sehr gutem Zustand und ohne Garage) wird aber gezeigt, daß im Falle eines saturierten Modells nur wieder die Zellenmittelwerte reproduziert werden: sim. m2-Preis = 1482,8 (Intercept) + 709,2 (ZUST=1) – 340,9 (Gar=0) – 3,4 (Zust=1*Gar=0) = 1847,7 was genau dem Wert in der Kreuztabelle entspricht. Da die Wechselwirkungen im saturierten Model nicht signifikant waren, wird im Folgenden ein additives Modell gerechnet. Die Varianzzerlegung ergibt nun folgendes Bild:

Tests of Between-Subjects Effects

Dependent Variable: m2preis

262707164a 4 65676791.03 164.977 .0002838757554 1 2838757554 7130.844 .000134570281 3 44856760.18 112.678 .000

85333748.6 1 85333748.59 214.355 .0001611490869 4048 398095.570

1.444E+10 40531874198033 4052

SourceCorrected ModelInterceptzustgaragenErrorTotalCorrected Total

Type III Sumof Squares df Mean Square F Sig.

R Squared = .140 (Adjusted R Squared = .139)a.

76

Page 77: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

und für die Simulation steht folgende Tabelle zur Verfügung:

Parameter Estimates

Dependent Variable: m2preis

1525.763 60.443 25.243 .000 1407.262 1644.264697.638 56.534 12.340 .000 586.799 808.476424.833 57.558 7.381 .000 311.988 537.679264.641 64.399 4.109 .000 138.384 390.898

0a . . . . .-384.847 26.286 -14.641 .000 -436.382 -333.312

0a . . . . .

ParameterIntercept[zust=1][zust=2][zust=3][zust=4][garagen=0][garagen=1]

B Std. Error t Sig. Lower Bound Upper Bound95% Confidence Interval

This parameter is set to zero because it is redundant.a.

Die Simulation (sehr guter Zustand, keine Garage) liefert hier folgendes Ergebnis: sim. m2-Preis =1525,8 + 697,6 – 384,8 = 1838,6

77

Page 78: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

6.9 SPSS-Prozeduren für multivariate Kovarianzanalysen Multivariate Kovarianzanalysen können entweder über das Hauptfenster General Factorial bzw als "Dummy Regression" durchgeführt werden. Im ersten Fall sind die Kovariaten (metrische unabhängige Variablen) in das Fenster Covariate(s) zu stellen. Im Übrigen gelten dieselben Anmerkungen wie bei der Varianzanalyse. Das heißt, es wird ein additives Modell zugrunde gelegt. Im Folgenden sollen die Outputs der beiden Alternativen gegenübergestellt werden, wobei als Erklärungsfaktoren für den m2-Preis der Zustand (ZUST) und die Sozialstruktur (SOZISO; Anmerkung: Akademikeranteil in der Umgebung) als Kovariate herangezogen werden.

Tests of Between-Subjects Effects

Dependent Variable: m2preis

661494402a 5 132298880.4 441.504 .000290702094 1 290702093.8 970.123 .000120900827 3 40300275.66 134.489 .000

32054811.3 1 32054811.34 106.972 .000398787238 1 398787237.7 1330.821 .000

1212703631 4047 299654.9621.444E+10 4053

1874198033 4052

SourceCorrected ModelInterceptzustgaragensozisoErrorTotalCorrected Total

Type III Sumof Squares df Mean Square F Sig.

R Squared = .353 (Adjusted R Squared = .352)a.

Parameter Estimates

Dependent Variable: m2preis

634.241 57.855 10.963 .000 520.814 747.668696.770 49.049 14.206 .000 600.607 792.933460.490 49.947 9.220 .000 362.567 558.413279.151 55.873 4.996 .000 169.609 388.694

0a . . . . .-239.446 23.151 -10.343 .000 -284.835 -194.057

0a . . . . .31.442 .862 36.480 .000 29.752 33.132

ParameterIntercept[zust=1][zust=2][zust=3][zust=4][garagen=0][garagen=1]soziso

B Std. Error t Sig. Lower Bound Upper Bound95% Confidence Interval

This parameter is set to zero because it is redundant.a.

Zum Abschluss soll noch ein Simulationsbeispiel gezeigt werden:

78

Page 79: Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

A. Prof. Dr. Wolfgang Feilmayr Mathematik und Statistik für Raumplaner II

Wie hoch ist der m2-Preis einer Wohnung in gutem Zustand, ohne Garage und einem Akademikeranteil von 30 % in der Nachbarschaft ? sim. m2-Preis = 634,2 + 31,44 * 30 + 460,5 = 2037,9

79