43
OLAP UND DATA MİNİNG Mahmut Tozduman Sena Kaba Murat Süzük

Data Mining und OLAP

Embed Size (px)

Citation preview

Page 1: Data Mining und OLAP

OLAP UND DATA MİNİNGMahmut TozdumanSena KabaMurat Süzük

Page 2: Data Mining und OLAP

Inhalt 1. Zeichen, Data, Datenbank , Data Warehouse, KDD, Data Mining2. OLAP

• - Begriff• - Die Geschichte von OLAP• - Die Regeln von OLAP• - Das Ziel der Verwendung von OLAP

3. Business Intelligenz und OLAP4. OLAP und OLTP5. Begriffe aus der OLAP6. Architecture7. MOLAP, ROLAP und HOLAP8. Schritte von OLAP9. OLAP Operationen10. Die Ähnlichkeiten und die Unterschiede zwischen Data Mining und OLAP11. Vergleichung mit kürzliche Erklärungen12. Data Mining vs OLAP13. Können Data Mining und OLAP zusammenarbeiten?

2/43

Page 3: Data Mining und OLAP

A) Was sind Zeichen, Data, Information und Wissen?

• Zeichen -> kleinstes Element eines Zeichensystems (011,001, 2 usw.)• Data -> syntaktisch organisierte Abfolge von Zeichen, zum Zweck einer Verarbeitung codierte

Informationen (39,5)• Information -> Mit einem Kontext und Bedeutung (Semantik) versehene Daten. ( 39,5 39,5 Grad

Fieber, also im Bett bleiben)• Wissen -> vernetzte Informationen, die Zusammenhänge repräsentieren. (Ursachen des Fiebers,

Behandlung der Krankheit)

Quelle: Günsur, Murat, Marmara Universitaet, Einführung in die Datenbanken (2013/ 2014) 3/43

Page 4: Data Mining und OLAP

Daten…

• haben in Informationssystemen die längste Lebensdauer,

• sind strategische Erfolgsfaktoren,• nehmen ständig an Volumen zu,• stammen aus unterschiedlichen

Quellen,• können unterschiedliche Formate

haben.

Quelle: Günsur, Murat, Marmara Universitaet, Einführung in die Datenbanken (2013/ 2014) 4/43

Page 5: Data Mining und OLAP

B) Was ist Datenbank?• Datenbank oder Datenbanksystem (DBS) ist

eine Daten- Gruppe, die erreicht, verwaltet, aktualisiert, geträgt werden können. In den Datenbanken gibt es die Daten, die miteinader relationale Beziehungen haben.

• Datenbank = Verwaltungssysteme + Speicherungskomponente für persistente Daten, die einem bestimmten Zweck dienen.

Quelle: Doğan, Buket, Marmara Universitaet, Veri Tabanı ; Günsur, Murat, Marmara Universitaet, Einführung in die Datenbanken (2013/ 2014) 5/43

Page 6: Data Mining und OLAP

C) Was ist Data Warehouse?

• ‘ Ein Data Warehouse ist eine fachlich orientierte, integrierte, zeitvariante und nichtflüchtige Datenerhebung zur Unterstützung des Entscheidungsprozesses des Managements.’ (W. H. Inmon)

• „Mit dem Begriff „Data Warehouse“ i.e.S. wird generell eine von den operativen DV-Systemen isolierte Datenbank umschrieben, die als unternehmensweite Datenbasis für alle Ausprägungen managementunterstützender Systeme dient und durch eine strikte Trennung von operationalen und entscheidungsunterstützenden Daten und Systemen gekennzeichnet ist.“ (Mucksch & Behme )

6/43

Page 7: Data Mining und OLAP

Die vier Eigenschaften von Data Warehouse

(Nach W.H Inmon)

Eigenschaften des Data Warehouse ;1.Fachorientierte Strukturierung der Daten• Operative Daten sind bzgl. der Geschäftsprozesse

strukturiert• DWH Daten aus verschiedenen Blickwinkeln: z.B.

Unternehmensstruktur, Produktstruktur, Kundenstruktur, betriebswirtschaftliche Kenngrößen, etc.

2. Integration• -Daten aus unterschiedlichen Quellen zusammenführen• -Datenformate vereinheitlichen• -Inkonsistenten eliminieren3.Nicht-Volatilität• -keine Veränderung der Daten im DWH; stabil nach

einmaliger Konstruktion• -nur lesender Zugriff (zur Datenanalyse)4. Historienhaltung• -explizite Konstruktion des Zeitbezugs der Daten

(Timestamps)* Diese Punkten sind sowohl die Eigenschaften von Data Warehouse als auch die Unterscheidungen zwischen Datenbank und Datawarehouse!

Quelle: Bergmann Ralph, Universität Trier, Data und Webmining (2015/ 2016) ; Han , Jiawei and Kamber, Micheline , Data Mining: Concepts and Techniques (2006) 7/43

Page 8: Data Mining und OLAP

D) KDD (Knowledge Discover in DB) und

Data Mining

• Knowledge Discovery in Databases (KDD) : Ist der nicht-triviale Prozess der Identifizierung gültiger, neuartiger, potentiell nützlicher und letztlich verständlicher Muster in Daten.

• Data Mining: Ein Schritt im KDD-Prozess, der aus bestimmten Data-Mining-Algorithmen besteht, die unter bestimmten annehmbaren rechnerischen Effizienzgrenzen eine bestimmte Aufzählung von Mustern erzeugen.

• DM eine Teilaufgabe aus KDD• DM ist die eigentliche Datenanalyse

(überwiegend Verfahren aus dem Maschinellen Lernen)

• Achtung: Begriffe KDD und DM werden häufig auch synonym und ohne klare Unterscheidung gebraucht.

Quelle: Bergmann, Ralph, Universität Trier, Data und Webmining (2015/2016) 8/43

Page 9: Data Mining und OLAP

KDD Schritte (1)

1. Verstehen der Anwendungsdomäne:Identifikation der verfügbaren DatenFestlegung des KDD Ziels2. Zieldatenfestlegung (Selektion)Festlegung der Datenbanken, Datensätze, Attribute die untersucht werden sollen.3. Vorverarbeitung und DatenbereinigungErkennung und Eliminierung von Datenfehlern (Ausreißern) und von fehlenden Einträgen4. Datenreduktion und Projektion (Transformation)Identifikation der nützlichen Attribute für die KDD AufgabeReduktion der Dimension (Attribute)Berechnung abgeleiteter AttributeReduktion der zu bearbeitenden Daten (Sampling)

Quelle: Bergmann, Ralph, Universitaet Trier, Data und Webmining (2015/ 2016) 9/43

Page 10: Data Mining und OLAP

KDD Schritte (2)5. Auswahl der Data Mining Aufgabenklasseum welche Art von Data Mining Aufgabe handelt es sich, z.B. Klassifikation, Regression, Assoziation, Clustering, ...6. Wahl des Data Mining Algorithmusfür den gewählt Aufgabenklasse: bestimme einen geeigneten Algorithmusje nach Algorithmus: Bestimmung von Modellparametern7. Data Mining durchführenAnwendung des Algorithmus auf den vorverarbeiteten Daten8. Interpretationgefundene Muster werden interpretiertggf. weitere Iteration und Wiederholung der Schritte 1-79. Konsolidierung des KDD Ergebnisses:Präsentation der Ergebnisse und Dokumentation

Quelle: Bergmann, Ralph, Universitaet Trier, Data und Webmining (2015/ 2016) 10/43

Page 11: Data Mining und OLAP

2. OLAP (Online Analytical Process)

Was ist OLAP?

• OLAP ist eine Software-Technologie, die es ermöglicht Analysten, Manager und Führungskräfte, um Einblick in Daten zu gewinnen durch schnellen, konsistenten, interaktiven Zugang zu einer Vielzahl der möglichen Umgestaltung von Informationen aus Rohdaten um die Dimensionalität des Unternehmens widerzuspiegeln. Wie vom Benutzer verstanden wird.

• Warum OLAP-Abfragen über Data Warehouse?• Warehouse sammelt und kombiniert Daten aus

mehreren Quellen• Das Lager kann die Daten in bestimmten Formaten

organisieren, um OLAP zu unterstützen Abfragen• OLAP-Abfragen sind komplex und berühren große

Datenmengen• Sie können die Datenbank für längere Zeit sperren• Wirkt sich negativ auf alle anderen OLTP-

Transaktionen aus

Quelle : Mohamed El-Tabakh, Worcester Polytechnic Institute, (2012) 11/43

Page 12: Data Mining und OLAP

Quelle : Mohamed El-Tabakh, Worcester Polytechnic Institute, (2012)

12/43

Page 13: Data Mining und OLAP

B) Die Geschichte von OLAP und Das Zweck der Verwendung von OLAP • Die Unternehmen sammeln und speichern mit der Hilfe von entwickelten Teknologien ihre Daten

in Computern. Im Allgemeinen werden die Daten in den Datenbanken verarbeitet und versteckt. OLTP (Online Transaction Processing) wird um diese tägliche Daten zu suchen, einzufügen und löschen generiert. Mit der Zeit sind die Menge von Daten mehr schneller gewachst. Deswegen die Suchen, die Aktualisierungen, die Einfügen und die Löschen von Daten in den Datenbanken geworden mehr schwieriger. Außerdem könnten diese Daten für die Entscheidungen als Basis nicht benutzt werden. Deshalb hat datawarehouse angefangt zu verwenden. In Jahre 1993 entwickelt Edgar F. Codd OLAP (Online Analysis Processing) um diesen Problemen zu lösen. Und in Datawarehouse wird OLAP Teknologie benutzt. Mit dieser Teknologie die Daten, die in Datenbanken sich befinden, aus den Datenbanken nimmt und zu den «Data-Cube» transformiert. Deswegen können die Unternehmen schnell Antwortungen nehmen.

Quelle: İşli, Devrim, Pamukkale University, VERi AMBARI VE OLAP TEKNOLOJİLERİNDEN YARARLANILARAK RAPORLAMA ARACI GERÇEKLEŞTİRİMİ, (2009) 13/43

Page 14: Data Mining und OLAP

B) Das Zweck der Verwendung von OLAP

• Die Data Warehouse, die zu der Unternehmen gehören, beinhalten viele Daten. Und wir wissen, dass diese Daten sehr groß und sie haben bestimmte Ordnung . Wenn diese Daten allein sind, haben sie sehr einfachen Bedeutungen.

• Die Mitarbeitern, die man als ‘ Knowledge Worker ’ nennt, benötigen immer auf großen, ausführlichen Analysen um die Entscheidungen über der Zukunft von Unternehmen zu treffen. Aber die Mitarbeitern können in den Datenbanken diese Analyse nicht direkt sehen. Weil erstmal sollte man diese Analyse generieren mit der Hilfe von Daten.

• Man sollte für diese Generierung alle relatioanale Daten zusammen sehen und dann kann man eine Analysierung machen. Wenn man diese Daten zusammen sehen möchte, sollte man diese Daten ‘multidimensional’ sehen. OLAP leistet diese Dienstleistung. Mit der OLAP Data Cube können wir alle Daten multidimensional sehen.

14/43

Page 15: Data Mining und OLAP

C) Die Regeln von OLAP 12 Regeln nach Codd• Wegen ihres Pionierstatus werden die Regeln gern zitiert:• Multidimensionale konzeptionelle Sicht auf die Daten (wichtigstes Kriterium für OLAP)• Transparenz (klare Trennung zwischen Benutzerschnittstelle und der zu Grunde liegenden Architektur)• Zugriffsmöglichkeiten (Bezug der Basisdaten aus externen oder operationalen Datenbeständen)• Konsistente Leistungsfähigkeit der Berichterstattung (möglichst schnelle Reportingfunktionalität)• Client-Server-Architektur (auf den Verwendungszweck optimierte Lastverteilung)• Generische Dimensionalität (alle Dimensionen in ihrer Struktur und Funktionalität einheitlich)• Dynamische Handhabung dünn besetzter Matrizen (dynamische Speicherstrukturanpassung)• Mehrbenutzerunterstützung• Unbeschränkte dimensionsübergreifende Operationen• Intuitive Datenanalyse (direkte Navigation innerhalb der Datenwürfel)• Flexibles Berichtswesen (Ergebnisse im Report frei anordenbar)• Unbegrenzte Anzahl von Dimensionen und Konsolidierungsebenen (15 bis 20 Dimensionen mit beliebig vielen Aggregationsstufen)

Quelle: E.F. Codd, S.B. Codd and C.T. Salley, Providing OLAP to User-Analysts: An IT Mandate, ( 1993 ) 15/43

Page 16: Data Mining und OLAP

C) Die Regeln von OLAP• FASMI-Regeln nach Pendse und Creeth (Vikipedi)• Pendse und Creeth stellten 1995 unter dem Akronym FASMI fünf herstellerunabhängige Evaluierungsregeln auf,

um damit das OLAP-Konzept zu beschreiben. FASMI steht für „Fast Analysis of Shared Multidimensional Information“ und besagt im Einzelnen:

• Fast: Abfragen sollen durchschnittlich fünf Sekunden dauern dürfen. Dabei sollen einfache Abfragen nicht länger als eine Sekunde und nur wenige, komplexere Abfragen bis zu 20 Sekunden Verarbeitungszeit beanspruchen.

• Analysis: Ein OLAP-System soll jegliche benötigte Logik bewältigen können. Dabei soll die Definition einer komplexeren Analyseabfrage durch den Anwender mit wenig Programmieraufwand zu realisieren sein.

• Shared: Ein OLAP-System soll für den Mehrbenutzerbetrieb ausgelegt sein. Dies bedingt eine Verfügbarkeit geeigneter Zugriffsschutzmechanismen.

• Multidimensional: Als Hauptkriterium fordern Pendse und Creeth eine mehrdimensionale Strukturierung der Daten mit voller Unterstützung der Dimensionshierarchien.

• Information: Bei der Analyse sollen einem Anwender alle benötigten Daten transparent zur Verfügung stehen. Eine Analyse darf nicht durch Beschränkungen des OLAP-Systems beeinflusst werden.

• Zusammenfassend lässt sich feststellen, dass die FASMI-Regeln stärker auf Benutzeranforderungen als auf technische Anforderungen eingehen. Insgesamt sind sie allerdings weniger spezifisch als die Regeln nach Codd, deswegen können nach dieser Definition wesentlich mehr Systeme dem OLAP zugeordnet werden.

Quelle: Pendse, Nigel , What is OLAP?, (2005) 16/43

Page 17: Data Mining und OLAP

Nigel Pendse (2006). "OLAP Market". OLAP Report. Retrieved 2008-03-17.

Microsoft Corpo-ration

Hyperion Solutions CorporationCognos

Business Objects

MicroStrategy

SAP AG

Cartesis (SAP)

Applix

InforOracle Corporation Others

Revenue

17/43

Page 18: Data Mining und OLAP

3) Business Intelligenz und OLAP

• A)Was ist Business Intelligenz?Business Intelligenz ist die Gesamtheit der Prozesse, die Unternehmensdaten zusammenführen und analysieren.• B) Die Beziehung zwischen Business

Intelligenz und OLAPOLAP ist die Schlüsseltechnologie der Business Intelligenz, die durch eine multidimensionale Aufbereitung der Daten eine natürliche Sichtweise auf die enthaltenen Informationen ermöglicht.

Quelle: Wegner,Lutz, Universitaet Kassel 18/43

Page 19: Data Mining und OLAP

Erste, OLAP und OLTP? Was sind

Sie? Wofür?

• OLAP(Online Analytical Processing) und OLTP(Online-Transaction-Processing ) sind zwei Arten von Datenbankaktivitäten,

• kein Programm oder System oder Datenbanktyp .

• Aber OLAP wird auch für die Definition der Klasse der Software verwendet.

19/43

Page 20: Data Mining und OLAP

OLAP vs OLTP

Han - Data Mining Concepts and Techniques 3rd Edition - 2012 Seite 130

20/43

Page 21: Data Mining und OLAP

Begriffe

1. Star Schema 2. Snowflake Schema3. Fast Constellation4. Dimension5. Data Cube6. Fact Table 7. Dimension Table 8. Fact Attribute 9. Dimension Attribute

21/43

aus der im Zusammenhang mit OLAP

Page 22: Data Mining und OLAP

Dimension, Measure und Hierarchy• Dimension kann alles sein, die

konsequent Daten kategorisieren und bieten eine bessere Sicht.

• Measures sind numerische Werte, die addiert werden können, um Bedeutung zu Ihren Dimensionen zu geben.

• Hierarchy Hierarchie ist das Niveau Beziehung zwischen den Dimensionen.

Bsp: Tag -> Monat -> Jahr oder Stadt -> Land -> KontinentDer Benutzer kann in Daten navigieren. Mehr Details oder weniger Details

Wir werden besser verstehen, mit Beispielen, die auf den nächsten Seiten.

Han - Data Mining Concepts and Techniques 3rd Edition - 201222/43

Page 23: Data Mining und OLAP

Star Schema

Das häufigste Modellierungsparadigma ist das Star Schema, in dem das Datenlager eine große zentrale Tabelle (Fakt Table) enthält, die den Großteil der Daten ohne Redundanz enthält, und einen Satz kleinerer begleitender Tabellen (Dimension Table), eine für jede Dimension. Das Schema gleicht einem Star Burst, wobei die Dimension Table in einem radialen Muster um die zentrale Fakt Table herum angezeigt werden.

Han - Data Mining Concepts and Techniques 3rd Edition - 2012 Seite 13923/43

Page 24: Data Mining und OLAP

Snowflake SchemaWenn Dimension Table mit anderen Tabellen in einem "Star-Schema" zusammenhängen, wird es als Snowflake-Schema genannt.

Es ist wie komplexe Version von Star Schema

24/43

Page 25: Data Mining und OLAP

Fact constellationWenn mehrere Fact Tables Dimension Tables teilen, wird es Fact Constellation genannt.

wie viele verbunden "Star Schema"

25/43

Page 26: Data Mining und OLAP

Fact und Dimension Table Fact Table enthält die Namen der Facts oder Maßnahmen sowie keys zu den jeweiligen Dimension Table.

Dimension Table enthält Dimension Daten.

Ziel!Von "Viele zu vielen",

Zu "Eins zu vielen"

26/43

Page 27: Data Mining und OLAP

Fact und Dimension AttributeWenn ein Attribut eine Dimension hat und Daten von dort kommen, wird es ein Dimension Attribute genannt.

Aber wenn ein Attribut nicht mit irgendeiner der Table verknüpft ist, wird es Fact Attribute genannt.

27/43

Page 28: Data Mining und OLAP

Data Cube

Data Cube ermöglicht es, Daten in mehreren Dimensionen zu modellieren und zu betrachten. Sie wird durch Dimensionen und Fakten definiert. [1]

Ein OLAP-Cube ist ein Begriff, der sich typischerweise auf ein mehrdimensionales Array von Daten bezieht [2]

Es muss nicht 3D sein, es kann 4, 5 etc. Aber der menschliche Geist ist nicht wirksam nach 3.

[1]Han - Data Mining Concepts and Techniques 3rd Edition - 2012 Seite 136 ; [2]Gray, Jim; Bosworth, Adam; Layman, Andrew; Pirahesh, Hamid (1996). "Data Cube: A Relational Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Totals". Proceedings of the International Conference on Data Engineering (ICDE)28/43

4

3

Page 29: Data Mining und OLAP

Data Cube Virtualisation Virtualisierung ist wichtig für das Verständnis der Analyse besser. OLAP-Server verfügt über Tools für die Virtualisierung.

29/43

Page 30: Data Mining und OLAP

A Multitiered Architecture

1. Bottom Tier ist ein Warehouse Datenbank Server, der fast immer ein relationales Datenbanksystem ist. Back-End-Tools und Dienstprogramme werden verwendet, um Daten in die untere Ebene aus operativen Datenbanken oder anderen externen Quellen zu füttern

2. R-OLAP / M-OLAP / H-OLAP (Auf der nächsten Seite)

3. Top Tier ist eine Front-End Client Tier, die Abfrage- und Berichtswerkzeuge, Analysetools und / oder Data Mining-Tools enthält

Han - Data Mining Concepts and Techniques 3rd Edition - 2012 Seite 13130/43

Page 31: Data Mining und OLAP

ROLAP, MOLAP und HOLAP• MOLAP ist der am meisten genutzte Speichertyp. Seine entworfen, um

maximale Abfrageleistung den Benutzern anzubieten. Daten und Aggregationen werden im Cube optimiert gespeichert. Die Daten im Cube werden nur aktualisiert, wenn der Cube verarbeitet wird, also ist die Latenz hoch.

• ROLAP hat nicht den hohen Latenznachteil von MOLAP. Mit ROLAP werden die Daten und Aggregationen im relationalen Format gespeichert. Dies bedeutet, dass es keine Latenz zwischen der relationalen Quellendatenbank und dem Cube geben wird. Nachteil dieser Modus ist die Leistung, diese Art gibt die schlechteste Abfrage Leistung, weil keine Objekte profitieren von mehrdimensionalen Speicher.

• HOLAP ist ein Speichertyp zwischen MOLAP und ROLAP. Die Daten werden im relationalen Format (ROLAP) gespeichert, so dass es auch keine Latenzzeit mit diesem Speichertyp gibt. Aggregationen hingegen werden im Multi-dimensionalen Format (MOLAP) im Cube gespeichert, um eine bessere Abfrageleistung zu erzielen. SSAS wird auf Benachrichtigungen von der Quell-relationalen Datenbank zu hören, wenn Änderungen vorgenommen werden, erhalten SSAS eine Benachrichtigung und wird die Aggregationen wieder verarbeiten. Mit diesem Modus ist es möglich, den Nutzern eine Latenz von Null anzubieten, jedoch mit einer mittleren Abfrageleistung im Vergleich zu MOLAP und ROLAP.

Datenspeicherung Aggregationslagerung Abfrageleistung Latenz

MOLAP Kubus Kubus Hoch Hoch

HOLAP Relationale Datenbank Kubus Mittel Keiner

ROLAPRelationale Datenbank Relationale

Datenbank Niedrig Keiner

Bespiel für OLAP Server;IBM Cognos TM1, Essbase, icCube, Jedox OLAP Server, Infor BI OLAP Server, Microsoft Analysis Services, MicroStrategy Intelligence Server, Mondrian OLAP server, Oracle Database OLAP Option , SAS OLAP Server

31/43

Page 32: Data Mining und OLAP

Schritte von OLAPA typical query 1. Join; Beitritt der Beziehungen so wachsende Informationen.2. Filter; Filtern von verbundenen Daten.

Bsp: Zwischen 2015-20163. Group; Auch nach dem Filtern gibt es Millionen Zeile.

Bsp: Nicht alle Verkaufsdatenzeilen (Millionen Zeile) Gruppiert nach Zweigstellen. (nur ein paar)

4. Aggregate; Während der Gruppierung einige mathematische Funktionen benötigt werden. Daten gruppiert nach Branchen, aber Umsatzmenge? Wir brauchen Funktion wie Average () Count () Sum ()

32/43

Page 33: Data Mining und OLAP

OLAP Operationen• Durch Drill Down / Up kann der Benutzer zwischen

verschiedenen Datenebenen navigieren, die von den meisten zusammengefassten (bis zu den detailliertesten (unten) [1]

• Dice Operation erzeugt einen Subcube, indem der Analytiker bestimmte Werte von mehreren Dimensionen auswählen kann. [2]

• Slice ist der Akt der Auswahl eines rechteckigen Teilmenge eines Würfels, indem er einen einzelnen Wert für eine seiner Dimensionen, die Schaffung eines neuen Würfels mit einer weniger Dimension [1]

• Pivot erlaubt einem Analytiker, den Würfel im Raum zu drehen, um seine verschiedenen Gesichter zu sehen [1]

[1]OLAP and OLAP Server Definitions". The OLAP Council 1995 ; [2]Glossary of Data Mining Terms". University of Alberta 1999 Han - Data Mining Concepts and Techniques 3rd Edition 2012 33/43

Page 34: Data Mining und OLAP

Die Ähnlichkeiten und die Unterschiede

zwischen Data Mining und OLAP

• Data Mining und OLAP, beide sind zwei der gemeinsamen Business Intelligence (BI) Technologien.

• Business Intelligence bezieht sich auf computerbasierte Methoden zur Identifizierung und nützliche Informationen aus Geschäftsdaten zu extrahieren.

Quelle: Haider Sajjad, Knowledge Discovery and Data Mining, 2010 34/43

Page 35: Data Mining und OLAP

Vergleichung mit kürzliche

Erklärungen

• OLAP ist ein Design-Paradigma, ein Weg, um Informationen aus dem physischen Datenspeicher zu suchen.

• Es aggregiert Informationen aus mehreren Systemen und speichert sie in einem mehrdimensionalen Format.

• Data Mining gräbt Informationen innerhalb und außerhalb der Organisation, um bei der Beantwortung von Geschäftsfragen zu helfen

• Sie umfassen Verhältnisse und Algorithmen wie Entscheidungsbäume, nächste Nachbar-Klassifizierung und Wandgemeinschaften, zusammen mit Clustering von Daten.

Quelle: Babu Ramesh, OLAP and data mining: What’s the difference?, 2010, http://www.computerweekly.com/news/2240024045/OLAP-and-data-mining-Whats-the-difference (last accessed on 18/12/2016) 35/43

Page 36: Data Mining und OLAP

Data Mining vs OLAP

• Obwohl es offensichtlich ist, dass Data Mining und OLAP ähnlich sind, weil sie auf Daten arbeiten, um Intelligenz zu gewinnen, kommt der Hauptunterschied davon, wie sie auf Daten arbeiten.

Quellen: Difference Between Data Mining and OLAP, http://www.differencebetween.com/difference-between-data-mining-and-vs-olap/ (last accessed on 18/12/2016) 36/43

Page 37: Data Mining und OLAP

Data Mining vs OLAP

• OLAP und Data Mining werden verwendet, um verschiedene Arten von analytischen Problemen zu lösen. Zum Beispiel, OLAP fasst Daten zusammen und macht Prognosen und es beantwortet operative Fragen wie "Was sind die durchschnittlichen Verkäufe von Autos, nach Region und Jahr?".

Quellen: Babu Ramesh, OLAP and data mining: What’s the difference?, 2010, http://www.computerweekly.com/news/2240024045/OLAP-and-data-mining-Whats-the-difference (last accessed on 18/12/2016) 37/43

Page 38: Data Mining und OLAP

Data Mining vs OLAP

• Data Mining erkennt verborgene Muster in Daten und arbeitet auf einer detaillierten Ebene statt einer Zusammenfassung Ebene.

• Zum Beispiel in einer Telekom-Industrie, Data Mining würde Fragen wie "Wer ist wahrscheinlich, Dienstleister verschieben und was sind die Gründe dafür? Beantworten.

Quellen: Babu Ramesh, OLAP and data mining: What’s the difference?, 2010, http://www.computerweekly.com/news/2240024045/OLAP-and-data-mining-Whats-the-difference (last accessed on 18/12/2016) ; Eltabakh Mohamed, OLAP & DATA MINING, 2012 38/43

Page 39: Data Mining und OLAP

Vergleichung zum Benutzer

• Die Kunden für OLAP und Data Mining sind unterschiedlich. In einer typischen Organisation wird OLAP von den regulären Front- und Backoffice-Mitarbeitern genutzt.

• Data mining is used by business strategists. The strategists base their business moves on the information thrown up by the data mine.

Quellen: Babu Ramesh, OLAP and data mining: What’s the difference?, 2010, http://www.computerweekly.com/news/2240024045/OLAP-and-data-mining-Whats-the-difference (last accessed on 18/12/2016) 39/43

Page 40: Data Mining und OLAP

Quellen: http://www.elml.uzh.ch/preview/fois/DSSII/de/html/le3_learningObject4.html (last accessed on 18/12/2016)

Tabellarische DarstellungOLAP Data Mining

Top-down, abfragegesteuert (query-driven) Bottom-up, entdeckungsgesteuert (discovery-driven)

Wiederholtes Testen von Theorien, die vom Benutzer aufgestellt wurden

Benötigt keine Annahmen

Erfordert viel Interaktion zwischen Benutzer und Datenbank

Keine intensive Interaktion zwischen Benutzer und Datenbank erforderlich

Benutzer muss eine klare Vorstellung von den Informationen, nach denen er sucht, haben

Läuft praktisch automatisch ab

Benutzer ist in ständiger Interaktion mit dem System

Benutzerinteraktion beschränkt sich auf die Auswahl des Data-Mining-Algorithmus und der geeigneten Parameter

Beantwortet Fragen wie "Ist das richtig?" Beantwortet Fragen wie " Wieso passiert das? Und was könnte passieren, wenn…?"

40/43

Page 41: Data Mining und OLAP

Können Data Mining und OLAP

zusammenarbeiten?

• Data Mining ist geeignet für eine Organisation, die eine zukünftige Perspektive auf Dinge will. Aber für eine Organisation, die lediglich ihre betriebliche Effizienz verbessern will, kann OLAP verwendet werden.

Quelle: Haider Sajjad, Knowledge Discovery and Data Mining, 2010 41/43

Page 42: Data Mining und OLAP

Können Data Mining und OLAP

zusammenarbeiten?

• OLAP und Data Mining können sich gegenseitig ergänzen. Zum Beispiel, während OLAP Probleme mit dem Verkauf eines Produkts in einer bestimmten Region punktiert, könnte Data Mining verwendet werden, um Einblick in das Verhalten der einzelnen Kunden zu gewinnen. Ähnlich, nach Data Mining prognostiziert etwas wie eine 5%’ige Umsatzsteigerung, könnte OLAP verwendet werden, um das Nettoeinkommen zu verfolgen.

Quellen: Database Data Warehousing Guide, https://docs.oracle.com/cd/B19306_01/server.102/b14223/bi.htm (last accessed on 18/12/2016) 42/43

Page 43: Data Mining und OLAP

VIELEN DANK FÜR IHRE AUFMERKSAMKEIT!

43/43

Mahmut Tozduman – Sena Kaba – Murat Süzük