Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, )...

Preview:

Citation preview

Institut für Angewandte Trainingswissenschaft Leipzigein Institut des Trägervereins IAT / FES des DOSB e.V.

Dr Dirk Meuselmeusel@iat.uni-leipzig.de

Die Analyse großer Datensätzemittels freier Datenbanksysteme

Autor: Titel Vortragstitel, Gliederungspunkt, Helvetica 12 1.12.2005

mySQL:

Die Analyse empirischer Daten ist ein wesentliches Schlüsselelement im Methodenschatz der Sozialwissenschaften. Datenbanksysteme sind ein wichtiges Mittel zur redundanzfreien Darstellung und Verwaltung empirischer Daten.

Ferner sind Datenbanksysteme eine Alternative zur statistischen Datenauswertung, vor allem bei deskriptiven Analysen großer Datenmengen (z.B. in der Epidemiologie oder Demografie). In der Lehrveranstaltung werden die folgenden Datenbankkonzepte vorgestellt: relationale Datenmodellierung, Datenverknüpfung mittels strukturierter Abfragen (SQL), Datenauswertungen, Datenimport/-export (bspw. in Statistikprogramme).

Diese Konzepte werden am Beispiel frei verfügbarer Datenbanksysteme illustriert (MySQL, MS SQL Server Express 2005).

Populationsbezogene Messung körperlicher Aktivität – das ALPHA Projekt 12. Juni 2007

Gliederung

• Datenbanken/Datenbanksysteme allgemein

• SQL

• MySQL vs. Microsoft SQL Express– Installation– mögliche FrontEnds

• Beispiele an Daten

• Datenexport

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Warum Datenbanken?

• Was ist eine Datenbank?

Patienten Scheine

Rezepte

Diagnosen ICDkatalog

Rezept-posten

ATCkatalog

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Warum Datenbanken?

• Redundanzfreie Darstellung der Daten• Relationale Bezüge von Daten untereinander• Unterschiedliche Sichten • Große Datenmengen

• Datensicherungsstrategien• Datenintegrität (Transaktion und Rollback)

• Viele Nutzer– Daten lesen– Daten schreiben/ändern[- Daten löschen]

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Warum Datenbanken in den Sozialwissenschaften?

• Analyse empirischer Daten = wesentliches Schlüsselelement im Methodenschatz der Sozialwissenschaften

• redundanzfreien Darstellung und Verwaltung empirischer Daten (zwischen Eingabe und statistischer Auswertung)

• Alternative zur statistischen Datenauswertung, vor allem bei deskriptiven Analysen großer Datenmengen (z.B. Vollerhebungen in der Epidemiologie oder Demografie)

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Datenbank

Warum Datenbanken in den Sozialwissenschaften?

Frontend

(OpenOffice, MS Access)

Dateneingabe, Datenmanagement, Benutzerverwaltung

Datennutzer

(Statistikprogramm R, SPSS, MS Access, MS Excel, )

Datenanalyse

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

SQL – Structured Querying Language

• Strukturierte Abfragesprache– Alle Aspekte der Datenbankverwaltung

• Hauptkomponenten: – Data Definition Language

– Data Manipulation Language– Administration

• Verschiedene Dialekte– T-SQL, Jet-SQL (VisualBasic orientiert)– MySQL– …

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Vergleich MySQL Server und MS SQL Server

MySQL Server

+ auf den meisten Plattformen verfügbar (per ODBC)

+ voll ausgereiftes Datenbanksystem ohne Limitationen (kann große Datenmengen bedienen)

+ wird von vielen OpenSource Systemen verwendet (PHP Websitesysteme, Open Office

+ große Entwicklergemeinde

-/+ eigene Benutzerverwaltung

- langwierigere Installation- weniger gut ausgereifte

Entwicklerwerkzeuge = langsamere Entwicklung

MS SQL Server

+ nutzt WINDOWS Authentifizierung+ schnell installiert (auf WINDOWS

Rechnern)+ einfach und schnell bedienbar

+ umfangreiches und mächtiges Verwaltungswerkzeug

+ kostenfreie Entwicklerwerkzeuge (VisualBasic.NET, Webdeveloper.NET…)

+ frei weitervertreibbar

+ mit MS ACCESS steuerbar

- begrenzt auf WINDOWS Welt

- nicht Quelltextoffen, nur kostenlos- limitiert auf 1 CPU mit max. 1GB RAM,

mit 4 GB maximaler Datenbankgröße

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MS SQL Server Express 2005 • http://www.microsoft.com/germany/msdn/vstudio/products/express/sql/default.mspx• http://www.microsoft.com/germany/msdn/vstudio/products/express/download.mspx

• Installation:– SQL Server 2005 Express– Benutzer mit lokalen Administrationsrechten

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MS SQL Server Oberflächenkonfiguration

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

• http://www.microsoft.com/downloads/details.aspx?FamilyID=c243a5ae-4bd1-4e3d-94b8-5a0f62bf7796&DisplayLang=de

• Installation:– Microsoft SQL Server Management Studio Express

Microsoft SQL Server Management Studio Express

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Microsoft SQL Server Management Studio Express

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Microsoft SQL Server Management Studio Express

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MS Access als FrontEnd

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MS Access als FrontEnd

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Server

• http://dev.mysql.com/downloads/• Installation:

– MySQL Community Server– Konfiguration des Servers (Wizard)

• Standardeinstellungen

• TCP/IP 3306• root – Passwort (superuser)

– Kommandozeilenunterstützung

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Server GUI Tools

• http://dev.mysql.com/downloads/gui-tools/5.0.html

• Installation (Wizard)• MySQL Administrator• MySQL Query Browser

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Administrator

• Verbindung einrichten

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Administrator

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Administrator – Benutzer anlegen

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Administrator – Datenbank erstellen

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Administrator – Tabelle erstellen

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Connectors

• http://dev.mysql.com/downloads/connector/

• ODBC Treiber– Open DataBase Connectivity– Installation (Wizard)

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Connection with OpenOffice Base

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Setup einer ODBC Datenquelle

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Setup einer ODBC Datenquelle

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Auswahl der ODBC Datenquelle

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Auswahl der ODBC Datenquelle

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Auswahl der ODBC Datenquelle

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL OpenOffice Base Tabellendesigner

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Dokumentation

• http://downloads.mysql.com/docs/refman-4.1-en.a4.pdf

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Beispiele an Daten

• Datendefinition

• Dateneingabe

• Datensichten

• Datenexport

• Datenzusammenfassungen

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Beispiele Datenexport

• Datenabfrage von R nach MySQL• Systemsteuerung>Verwaltung>ODBC Datenquellen• Neue DSN erstellen• In R package RODBC verwenden

RMySQLODBC

SPSS

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Beispiele Datenexport

Script in R ausführen:

library(RODBC)

con = odbcConnect("PharmEpi auf MySQL“)daten = sqlFetch(con,"Patienten")ls()datenSummary(daten)

ScheinePatienten = sqlQuery(con,"Select * From patienten INNER JOIN scheine ON …(patienten.VersichertenNummer = scheine.Versichertennummer)")

ls()ScheinePatientensummary(ScheinePatienten)

RMySQLODBC

SPSS

Institut für Angewandte Trainingswissenschaft Leipzigein Institut des Trägervereins IAT / FES des DOSB e.V.

Dr Dirk Meusel

Institut für Angewandte TrainingswissenschaftFachbereich Forschungstechnologie

Telefon: +49 341 4945 143E-Mail: meusel@iat.uni-leipzig.deInternet: http://www.iat.uni-leipzig.de/

Vielen Dank für Ihre Aufmerksamkeit!

Recommended