Datenbanksysteme 3 Sommer 2001Data Mining - 1Worzyk
FH Anhalt
Datenquellen, Datensenken und die Wüste
vorhandene
Daten
benötigte
Daten
gewünschte
Daten
Nachfrage
Datenbanksysteme 3 Sommer 2001Data Mining - 2Worzyk
FH Anhalt
Informationsbedarf abhängig von der
AufgabeGering Hoch
Hoch Hoch strukturierte,stabile Aufgaben;Buchhaltung,Produktion
Hoch strukturierte,stark veränderlicheAufgaben; SoftwareEntwicklung
Gering Schwachstrukturierte, stabileAufgaben;Bildungsbetrieb
Unstrukturierte, starkveränderlicheAufgaben;Forschung,strategische Planung
Veränderlichkeit
Strukturiertheit
Datenbanksysteme 3 Sommer 2001Data Mining - 3Worzyk
FH Anhalt
DefinitionData Mining
Data Mining„ is the nontrivial extraction of
implicit, previous unknown and potentially useful information from data“
William J. Frawley Gregory Piatetsky-Shapiro,
Datenbanksysteme 3 Sommer 2001Data Mining - 4Worzyk
FH Anhalt
Leistungsmerkmale
• Hypothesenfreiheit• Automatisierte Vorhersage von
Trends, Verhalten und Mustern• Automatisierte Aufdeckung
unbekannter Strukturen• Zusatzkomponenten für
Preprocessing und Ergebnisaufbereitung
Datenbanksysteme 3 Sommer 2001Data Mining - 5Worzyk
FH Anhalt
Anwendungsbeispiele
Datenbanksysteme 3 Sommer 2001Data Mining - 6Worzyk
FH Anhalt
Anwendungsbeispiele• Astronomie • Erdwissenschaften• Marketing• Investment• Betrugserkennung• Individualisierte Werbeanzeigen• Electronic Commerce• Datenschutz
Datenbanksysteme 3 Sommer 2001Data Mining - 7Worzyk
FH Anhalt
Ansatz
Tradi-tionell
DataMining
Hypothesenfestlegen
Methodeentwickeln
Datenbasisanalysieren
Ergebnisseverdichten
Ergebnisseinterpretieren
Anwender ComputerExperte
ComputerSystem
Statistiker Anwender
Datenbasisanalysieren
InteressanteMusterfinden
Ergebnisseinterpretieren
Anwender
Data Mining System
Datenbanksysteme 3 Sommer 2001Data Mining - 8Worzyk
FH Anhalt
Data Mining Methoden
Datenbanksysteme 3 Sommer 2001Data Mining - 9Worzyk
FH Anhalt
DefinitionData Mining
Data Mining„in databases is the non-trivial
process of identifying valid, novel, potential useful, and ultimately understandable patterns in data“
William J. Frawley Gregory Piatetsky-Shapiro,
Datenbanksysteme 3 Sommer 2001Data Mining - 10Worzyk
FH Anhalt
InformationDaten (Semantik) sind aus Zeichen (Syntaktik)
bestehende Abbilder der Wirklichkeit.Eine Nachricht (Semantik) ist eine Menge von
Daten, die für ein Individuum eine inhaltliche Bedeutung hat.
Information (Pragmatik) ist die Veränderung der verhaltenswirksamen Erkenntnis eines Individuums mittels einer Nachricht.
Wissen ist der Gesamtbestand an verhaltenswirksamen Erkenntnissen eines Individuums.
Datenbanksysteme 3 Sommer 2001Data Mining - 11Worzyk
FH Anhalt
Data Mining Prozeßmodell
Preprocessing ValidierungInterpretationAnalyse
DataWarehouse
OLTPExt
Daten
Datenbanksysteme 3 Sommer 2001Data Mining - 12Worzyk
FH Anhalt
Beteiligte am Data Mining Prozeß
• Management– Vorgabe von Zielen– Wunsch nach hoch verdichteten und aussagekräftigen
Ergebnissen
• Fachabteilung– Aufträge für den Analysten– Fachliche Beratung– Validierung der Ergebnisse– Umsetzung der Ergebnisse
• Analyst– Erstellen der Ergebnisse– Beurteilen der Analyseverfahren– Anforderungen an das Datenmodell
Datenbanksysteme 3 Sommer 2001Data Mining - 13Worzyk
FH Anhalt
Datenschutz
EU-Datenschutzrichtlinie besagt, dass die Verarbeitung von Daten,aus denen rassische oder ethnische Herkunft,
politische Meinungen, religiöse und philosophische Überzeugungen oder die Gewerkschaftszugehörigkeit hervorgehen, sowie auch die Verarbeitungvon Daten über Gesundheit oder Sexualleben
untersagt ist.
Datenbanksysteme 3 Sommer 2001Data Mining - 14Worzyk
FH Anhalt
Prozeßmodell
Data Warehouse
Datenbanksysteme 3 Sommer 2001Data Mining - 15Worzyk
FH Anhalt
Data Warehouse
Warum nicht die operationale Datenbank (OnLine Transaction Processing) ?– Zusätzliche Datenquellen
• Hierarchische, objektorientierte Datenbanken• Files
– Zusätzliche Indizes– Vergröberung und Verfeinerung– Anwenderfreundliche Abfragesprache
Datenbanksysteme 3 Sommer 2001Data Mining - 16Worzyk
FH Anhalt
Antwortzeiten
Zeit
An
twort
zeit
sec.
Datenbanksysteme 3 Sommer 2001Data Mining - 17Worzyk
FH Anhalt
OLTP - OLAPTrennung von
OnLine Transaction Processingtägliche Routinebearbeitung der DatenBuchungen, Bestellungen, Erfassung von
Meßergebnissen
OnLine Analytical Processingsporadische oder regelmäßige Analyse der
Daten
Bearbeitung auf unterschiedlichen Rechnern
Datenbanksysteme 3 Sommer 2001Data Mining - 18Worzyk
FH Anhalt
Datenübernahme• Regelmäßig durch Backup und Restore
– OLAP-System kann als Backup genutzt werden– regelmäßiger neuer Aufbau der zusätzlichen
Indizes– mittlere Aktualität
• einmalige Übernahme der OLTP-Daten– einmaliger Aufbau der zusätzlichen Indizes– veraltete Daten
• einmalige Übernahme aller relevanten Daten, dann Übernahme der Änderungen– automatischer Aufbau der zusätzlichen Indizes– beliebige Aktualität
Datenbanksysteme 3 Sommer 2001Data Mining - 19Worzyk
FH Anhalt
Datenübernahme
Wenn es irgendwie möglich ist, Datenbankfunktionalitäten für die Datenübernahme einsetzen und keine eigenen Programme erstellen.
(kostet nur Zeit und Geld und ist fehleranfällig)
Datenbanksysteme 3 Sommer 2001Data Mining - 20Worzyk
FH Anhalt
Datenübernahme
Konsistenz:– Die Daten müssen in sich konsistent
sein– im Verhältnis zu anderen Daten aus
der gleichen Quelle– im Verhältnis zu Daten aus anderen
Quellen– im Verhältnis zu den im Data
Warehouse vorhandenen Daten
Datenbanksysteme 3 Sommer 2001Data Mining - 21Worzyk
FH Anhalt
Datenübernahme
Störungsfrei– Überwachung der regelmäßigen
Datenübertragung– Überwachung des vorhandenen
Speicherplatzes– performanter Aufbau der Indizes und
der neuen Strukturen
Datenbanksysteme 3 Sommer 2001Data Mining - 22Worzyk
FH Anhalt
Data Warehouse
Extrem große Datenmengen -> neue Verfahren für Backup und
Recovery-> riesige Tabellen (über mehrere
Platten)-> Probleme beim Sortieren,
Indizieren, Verbinden (Join)
Datenbanksysteme 3 Sommer 2001Data Mining - 23Worzyk
FH Anhalt
Datenstruktur
• Star - Schema
• Snowflake - Schema
• Starflake - Schema
Datenbanksysteme 3 Sommer 2001Data Mining - 24Worzyk
FH Anhalt
Star Schema
Verkaufs-transaktionen
Zeit
Produkte
LieferantenKunde
Ort
FaktenDimensionsdaten
Datenbanksysteme 3 Sommer 2001Data Mining - 25Worzyk
FH Anhalt
Snowflake Schema
Verkaufs-transaktionen
Zeit
ProdukteOrt
FaktenSnowflake Dimensionsdaten
Woche
MonatSSV Oster-
verkauf
Region
Art
Farbe
Datenbanksysteme 3 Sommer 2001Data Mining - 26Worzyk
FH Anhalt
Starflake Schema
Verkaufs-transaktionen
Zeit
ProdukteOrt
Fakten Snowflake Dimensionsdaten
Woche
MonatSSV Oster-
verkauf
Region
Art
Farbe
Dimensionsdaten
Kunde
OrtZeit
Produkte
Lieferanten
Datenbanksysteme 3 Sommer 2001Data Mining - 27Worzyk
FH Anhalt
Mathetest• Wie sehen die zeitlichen Verläufe aus• Wie lange braucht der einzelnen
Probant pro Frage• Welche Einträge sind plausibel• Welche Daten der Eltern sind
plausibel? • Wie korrelieren die Antworten auf die
Testfragen?
Datenbanksysteme 3 Sommer 2001Data Mining - 28Worzyk
FH Anhalt
Tabellenta_probant
probant
aufgaben_nr
ergebnis_1
ergebnis_2
ergebnis_3
ergebnis_4
richtig
datum
ip_adresse
ta_aufgabenaufgaben_nraugfaben_textloesung_1loesung_2loesung_3loesung_4kommentar_1kommentar_2kommentar_3kommentar_4richtige_loesung
ta_mathetest_historiedatumtext
ta_seite1datumip_adresse
Datenbanksysteme 3 Sommer 2001Data Mining - 29Worzyk
FH Anhalt
Rohdaten30.6.196017.4.19571 5 Apr 15 2000 1:28PM
deeeeeeeee5 17 Apr 15 2000 1:29PM
24.03.195126.01.19481 7 Apr 15 2000 1:29PM
00.00.0000.00.0040 10 Apr 17 2000 4:07PM
15.11.195023.01.194814 1 Apr 18 2000 2:41PM
1409530805481 1 Jul 13 2000 4:34PM
29.7´5429.9´523 54 Sep 27 2000 8:20AM
01.01.0001.01.009 54 Sep 27 2000 2:05PM
20.05.195623.03.19531. 54 Oct 26 2000 9:54PM
1.1.19601.1.19601 2 Oct 30 2000 12:29PM
ab0 3 Jan 10 2001 1:46PM
ab0 54 Jan 11 2001 6:57PM
Datenbanksysteme 3 Sommer 2001Data Mining - 30Worzyk
FH Anhalt
Aufgaben• Datenübernahme• Analyse der Zeiten zwischen zwei
Einträgen der gleichen Probanten• Kippen der Tabelle (eine Zeile pro
Probant)• Validierung der Einträge (wer ist
ein ernsthafter Teilnehmer)• Bearbeiten der Geburtsdaten
Datenbanksysteme 3 Sommer 2001Data Mining - 31Worzyk
FH Anhalt
Datenübertragung• In der Sybase-Datenbank anmelden• select auf die Tabellen• Ausgabe so formatieren, dass sie
insert für die Zieldatenbank ergibt• Ausgabe in eine Datei speichern• In der Oracle-Datenbank anmelden• insert, dabei fortlaufende Nummer
vergeben