Datenanalyse in der Praxis

Preview:

Citation preview

Datenanalyse in der Praxis

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Agenda Datenanalyse am Beispiel Datenanalyse im Enterprise Bereich

Datenanalyse am Beispiel Aufgabe:

Wo begegnet uns Datenanalyse ?

Sammelt Beispiele aus eurem Wissen!

Kursziel Einblick in Datenanalyse

Architekturen kennen Methoden und Konzepte Kennenlernen Gelerntes praktisch ausprobieren Ausprägungen kennen lernen

Agenda des Kurses Grundlagen von Datenanalyse und Beispiele Datenanalyse in Unternehmen Freie Daten und Datenquellen Datenanalyse am Beispiel mit Power * Andere Formen der Datenanalyse

Ausprägungen von Datenanalyse

Data Warehouse Systeme

Motivation

Bild durch Klicken auf Symbol hinzufügenDatenanalyse im

Enterprise Bereich

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Folienherkunft Teile der Folien im folgenden Abschnitt stammen aus der Vorlesung

Datenmanagement im Gesundheitssystem aus dem Jahr 2011ff an der Universität Oldenburg, die von mir mitentwickelt und gehalten worden ist

Beispielhaftes Szenario

Dipl.-Inform. Yvette Teiken 02.05.2023

Entwicklung DB Schema

Dipl.-Inform. Yvette Teiken 02.05.2023

DB Nutzung Anfragen:

Wie viele Flaschen Cola wurden letzten Monat verkauft? Wie hat sich der Verkauf von Rotwein im letzten Jahr entwickelt? Wer sind unsere Top-Kunden? Von welchem Lieferanten beziehen wir die meisten Kisten?

Probleme Nutzung externer Quellen (Kundendatenbank, Konsumdaten,... )

Daten mit zeitlichem Bezug

Dipl.-Inform. Yvette Teiken 02.05.2023

Erweitertes Szenario

Dipl.-Inform. Yvette Teiken 02.05.2023

DB Nutzung II Anfragen

Verkaufen wir in Hannover mehr Bier als in Oldenburg? Wie viel Cola wurde im Sommer in ganz Niedersachsen verkauft? Mehr als Wasser?

Probleme Anfragen über mehrere Datenbanken Anfragen mit Geographiebezug

Dipl.-Inform. Yvette Teiken 02.05.2023

Mögliche Lösungen Variante 1: „Verteilte DB“

Globale Anfrage über mehrere DBs Views mit Union Nachteil: aufwändige verteilte Anfrageausführung

Variante 2: „Zentrale DB“ Änderungen über einer zentralen DB Nachteil: lange Antwortzeiten im operativen Betrieb

Dipl.-Inform. Yvette Teiken 02.05.2023

Lösung: Data Warehouse (DWH)

Dipl.-Inform. Yvette Teiken 02.05.2023

Beispiele aus der Praxis Wal-Mart (www.wal-mart.com) Marktführer im amerikanischen Einzelhandel Unternehmensweites Data Warehouse

Größe: ca. 300 TB (2003) [Jim Gray, Computer Zeitung 17/2003] Täglich bis zu 20.000 DW-Anfragen Hoher Detaillierungsgrad (tägliche Auswertung von Artikelumsätzen, Lagerbestand, Kundenverhalten)

Basis für Warenkorbanalyse, Kundenklassifizierung, . . . Ebay

Data Warehouse 6+ Petabyte mit 17 * 10^12 Datensätzen täglich 150 * 10^9 Aktualisierungen 2 Petabyte Data Warehouse zu Analysezwecken [North 2010], [DBMS2 2009]

Dipl.-Inform. Yvette Teiken 02.05.2023

Beispiele aus der Praxis Bundesagentur für Arbeit Öffentliche Verwaltung Unternehmensweites Data Warehouse

Größe: ca. 17 TB (2010), [Bauer Günzel, 2009]

15.000 Anwender Integriert 80 Datenquellen und führt monatliche Aktualisierungen um Umfang

von 250GB durch

Basis für Arbeitsmarktberichterstattung und Controlling Keine Basisdatenbank fürs DWH DWH wird direkt aus den Externen und internen Quellen geladen

Dipl.-Inform. Yvette Teiken 02.05.2023

Beispielhafte Fragestellungen Überprüfung des Warensortiments zur Erkennung von Ladenhütern oder Verkaufsschlagern Standortanalyse zur Einschätzung der Rentabilität von Niederlassungen Untersuchung der Wirksamkeit von Marketing-Aktionen Auswertung von Kundenbefragungen, Reklamationen bzgl. bestimmter Produkte etc. Analyse des Lagerbestands Warenkorbanalyse mit Hilfe der Kassenbons Erstellung von Statistiken, Publikationen und Analysen sowie Controlling

Wie viele Personen waren in einem Gebiet arbeitslos? Wie ist die prozentuale Verteilung bezogen auf alle Arbeitssuchenden? Wurden die vordefinierten Ziele zur Vermittlungsquote Bundesweit, Landesweit oder Gebietsweit

erfüllt?

Dipl.-Inform. Yvette Teiken 02.05.2023

Beispiel Gesundheitswesen Beispiel Epidemiologisches Krebsregister Niedersachsen (EKN)

EKN ist ein DWH (Auswertungsplattform MUSTANG) Quelldaten:

Keine direkten Quellsysteme Explizite Datenerfassung, Meldungen über Neuerkrankungen

Beispiele für Analysefragestellungen: Erfasste Neuerkrankungen Erkrankungsalter Nach Diagnosen

Dipl.-Inform. Yvette Teiken 02.05.2023

Beispiel EKN Analyse

Dipl.-Inform. Yvette Teiken 02.05.2023

Technische Einführung

Dr. Yvette Teiken

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Agenda Klassische Architekturen / Referenzarchitektur Ausprägungen in der Praxis

Anforderungen an ein DWH Unabhängigkeit zwischen Datenquellen und Analysesystemen, Daten im

DWH sind redundant Dauerhafte Bereitstellung integrierter Daten Einheitliche Sicht auf bereitgestellte Daten Mehrfachverwendung der bereitgestellten Daten Durchführung beliebiger Anfragen Erweiterbarkeit (insb. neue Datenquellen) Automatisierung

Dipl.-Inform. Yvette Teiken 02.05.2023

Definition Data Warehouse (1) Data Warehouse (DWH) =

“A subject oriented, integrated, nonvolatile, time variant collection of data organized to support management needs” [Inmon 1993]

Merkmale: Themenorientierung Integration und Vereinheitlichung Dauerhaftigkeit, Stabilität Zeitorientierung der Informationen Analyse und Entscheidungsunterstützung für das Management

Dipl.-Inform. Yvette Teiken 02.05.2023

Charakteristika von DWH Themenorientierung (subject-oriented):

Zweck des Systems ist nicht Erfüllung einer Aufgabe (z.B. Personaldatenverwaltung), sondern Modellierung eines spezifischen Anwendungsziels (Produkte, Kunden)

Integrierte Datenbasis (integrated): Verarbeitung von Daten aus mehreren verschiedenen Datenquellen (intern und

extern)

Nicht-flüchtige Datenbasis (non-volatile): stabile, persistente Datenbasis Daten im DWH werden nicht mehr entfernt oder geändert

Zeitbezogene Daten (time-variant): Speicherung über längeren Zeitraum Vergleich der Daten über Zeit möglich (Zeitreihenanalyse)

Dipl.-Inform. Yvette Teiken 02.05.2023

Definition Data Warehouse (2) Data Warehouse (DWH) =

“Physische Datenbank, die eine integrierte Sicht auf (beliebige) Daten darstellt. Im Unterschied zur Basisdatenbank, steht der Auswertungsaspekt (analyseorientiertes Schema) im Mittelpunkt, der sich oft in einem multidimensionalen Schema widerspiegelt. Häufig, aber nicht notwendigerweise findet eine Historisierung der Daten statt, indem in periodischen Abständen Daten hinzugeladen, aber nicht modifiziert werden.” [Bauer Günzel 2009]

Wichtige Unterscheidung zu Inmon: Es fehlt „to support management needs“ Z.B. Datenanalyse von Patientendaten fördert Behandlungswissen, nicht

Management

Dipl.-Inform. Yvette Teiken 02.05.2023

Weitere Begriffe Data Warehousing

„Data Warehousing ist kein Produkt, sondern der Prozess der Zusammenführung und des Managements von Daten aus verschiedenen Quellen mit dem Zweck, eine einheitliche, detaillierte Sicht auf den einzelnen Geschäftsbereich oder das gesamte Unternehmen zu erhalten.“[Jung, Winter 2000]

„alle Schritte des Datenbeschaffungsprozesses, das Speichern und Analysieren der Daten“ [Bauer Günzel 2009]

Data Mart externe (Teil-)Sicht auf das Data Warehouse durch Kopieren anwendungsbereichsspezifisch

OLAP (Online Analytical Processing) (Paradigma) explorative, interaktive Analyse auf Basis des konzeptuellen

Datenmodells

Business Intelligence ….

Dipl.-Inform. Yvette Teiken 02.05.2023

Referenzarchtiektur nach [Bauer Günzel 2001]

02.05.2023Dipl.-Inform. Yvette Teiken

Daten-quelle(n)

Arbeits-bereich

Basis-datenbank

DataWarehouse

Extraktion Laden Laden Analyse

Transformation

Monitor

Data-Warehouse-Manager

Metadaten-Manager

RepositoryDatenflussKontrollfluss Data-Warehouse-System

Bereich der Datenbeschaffung

Bild durch Klicken auf Symbol hinzufügenBedeutung für die Praxis Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Referenzarchitektur Jede Datenanalyse basiert auf dieser Architektur

Selten vollständig Techniken und Konzepte sind identisch, egal

EDW, PDW, Analytisches Data Warehouse Big Data Desktop Analyse

Beispiel aus der Praxis I Krankenkasse

Besonderheit: Gesundheitsrelevante Daten Fachbereich

Beispiel aus der Praxis II Handelskonzern

Besonderheit: Lagerlogistik und Bestellwesen

Beispiel aus der Praxis III Krankenkasse

Besonderheit: Spezialauswertung für Leihprozesse

Beispiel aus der Praxis IV Amazon Redshift http://aws.amazon.com/de/redshift/ Frage:

Was wird angeboten? Wobei hilft es? Welche Probleme löst es nicht

BI-Reifegradmodelle

Dipl.-Inform. Yvette Teiken 02.05.2023

Bild durch Klicken auf Symbol hinzufügenDatenanalyse am Beispiel Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Self Service BI Idee: Nutzer ohne große BI Infrastruktur Daten Analysieren zu lassen

ExtrahierenSäubernTransformierenAuswertenTeilen

Power BI Neue Strategie für Datenanalyse bei Microsoft Grundlage: Microsoft Excel Bestandteile

Power Query (Extract und Transform) Power Pivot (Transformieren) Powerview (Auswerten) Power Map (Geografische Analyse)

Vorteil In vielen Firmen verfügbar Nutzer sind vertraut mit Verwendung Lässt sich in Infrastruktur integrieren

Power Query I Laden von verschiedenen Datenquellen Interaktive und wiederholbare Anfragen erstellen

Power Query II

Datenquelle Web: wikipedia

http://de.wikipedia.org/wiki/Krankenhaus

Krankenhaus Daten laden I

Krankenhaus Daten laden II

Krankenhaus Daten auswerten

Demohttp://de.wikipedia.org/wiki/Krankenhaus

Laden aus Api: XML

http://daten.berlin.de/datensaetze/liste-der-badestellen-badegew%C3%A4sserqualit%C3%A4t

XML Struktur Analysieren

http://www.berlin.de/badegewaesser/baden-details/index.php/index/all.xml?q=

Drill Down zur Tabelle

Demohttp://www.berlin.de/badegewaesser/baden-details/index.php/index/all.xml?q=

Weitere Anbindungsmöglichkeiten

Bild durch Klicken auf Symbol hinzufügenTransformation Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Transformations

Große Übung Datenanalyse

Große Übung Ziel: Analyse der Straßenunfälle in UK Ausfälligkeiten

Tage Alter Straßen Tageszeiten

Beispiel stammt von Chris Webb (http://blog.crossjoin.co.uk/) Einreichung zum PowerBi Wettbewerb. Demo von ihm: https://www.youtube.com/watch?v=War1pSs2LAM

Vorgehen

Extrahieren: Daten laden und dem Modell hinzufügen

Säubern: Nicht notwendig Transformieren

Zeit Hierarchie Dimensionstabellen verknüpfen

Auswerten Interaktive Diagramme erstellen

ExtrahierenSäubernTransformierenAuswertenTeilen

Datenintegration Lade Daten mittels Ordner Ins Datenmodell laden Verknüpfen Ein Jahr sollte zunächst reichen

Ergebnisse prüfen

Power View aufrufen

Ergebnis Datenintegration

Aggregation Verdichten oder detaillieren Daten Beliebtes Beispiel Zeit

Jahr Monat Tag

Dimensionstabelle Zeit

Dimensionstabelle Zeit Zeit zum Datenmodell hinzufügen Verknüpfung mit Datensätzen auf niedrigster Ebene Erstellung von Hierarchien

Datenmodell mit Zeitdimension

Transformieren Aufgaben

Daten in das Ziel Format übertragen Daten vereinheitlichen (Geschlecht) Daten auflösen

Dimensionstabellen I

Dimensionstabellen II Müssen zum Datenmodell hinzugefügt werden Müssen verknüpft werden IDs ausblenden Dimensionen nach Analysezweck auswählen

Vollständiges Modell mit Dimensionen

Meine Ergebnisse

Unfälle nach Jahr als Tabelle

Vergleich über Jahre

KPI definieren

Analyse nach Alter

Farbscala

Gefährliche Tage

Fußgängerunfälle

Auswertung nach Wochentagen

Bild durch Klicken auf Symbol hinzufügenDaten und freie Daten Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Woher kommen Daten Offene Datenquellen (Open data) Non Open Data

Open (Government) Data

„Offene Daten sind Daten, die von jedem/r frei benutzt, weiterverwendet und geteilt werden können – die einzige Einschränkung betrifft die Verpflichtung auf die Nennung des Urhebers“

10 Prinzipien

Vollständigkeit Primärquelle Zeitliche Nähe Leichter Zugang Maschinenlesbarkeit

Diskriminierungsfreiheit Verwendung offener Standards Offene Lizenzierung Dauerhaftigkeit Kostenfreiheit

http://sunlightfoundation.com/policy/documents/ten-open-data-principles/

Warum ?

Neelie Kroes EU Kommissarin für digitale

Agenda

„Geben Sie ihre Daten frei, um Arbeitsplätze und Wachstum zu schaffen“

Nutzen Wirtschaftlicher Nutzen Bürger-Nutzen Transparenz Verwaltung

Arten von Daten 1. Umweltdaten (Feinstaub, CO2, Pollen)

2. Märkte (Wochen-, Floh-, Weihnachtsmärkte)3. Events (Straßenfeste, Konzerte, Lange Nacht der …, Sportereignisse)4. Entsorgung (Termin in meiner Straße, Recyclinghöfe, Containerstandorte, Sondermüll)5. Infrastruktur (Radwege, Toiletten, Briefkästen, Geldautomaten, Telefone)6. Verkehr (Baustellen, Staus, Sperrungen)7. Nahverkehr (Fahrpläne, Verspätungen, Zugausfälle, Sonderfahrten)8. Öffnungszeiten (Bibliotheken, Museen, Ausstellungen)9. Verwaltung (Formulare, Zuständigkeiten, Ämter, Öffnungszeiten)10. Verbraucherberatung, Schuldnerberatung11. Familie (Horte, Kindergärten)12. Bildung (Schulen, Volkshochschulen, Hochschulen und Unis)13. Wohnen (Wohngeld, Mietspiegel, Immobilien, Grundstückspreise)14. Gesundheit (Krankenhäuser, Apotheken, Notdienst, Spezialisten, Beratungsstellen, Blutspende)15. Haustiere (Tierärzte, Tierheim, Tierpflege)16. Kontrolle (Badegewässer, Lebensmittel, Gaststätten, Preise)17. Recht (Gesetze, Vorschriften, Beratung, Schlichter, Gutachter)18. Polizeiticker (aktuelle Vorfälle, Fahndung, Kriminalitätsatlas)19. Stadtplanung (Flächennutzungsplan, Bauvorhaben, Verkehr, Flughäfen)20. Bevölkerung (Zahl, regionale Verteilung, Demografie, Kaufkraft, Beschäftigung/Arbeitslosigkeit, Kinder)21. Finanzdaten (Budgets, Aufträge, Verträge)

Crowd Sourcing http://codefor.de/

Beispiel Berlin

http://daten.berlin.de/datensaetze

Open Data Berlin 885 Datensätze in 22 Kategorien Beispiele

Finanzamt Atlas Berlin Straßen und Volksfester Liste der Badestellen Denkmalliste Arbeitslosenquote

Weltbank Idee: Globale Zusammenhänge verstehen

Datenportal für Deutschland

https://www.govdata.de/

Datenportal der EU

http://publicdata.eu/

Datenportal UK

http://data.gov.uk/

(Inoffizieller) Metakatalog für Open Data in Deutschland

https://offenedaten.de/

Open Data Klassifikation

http://5stardata.info/

1 Stern Daten sind verfügbar, egal in welchem Format, aber nutzt offene Lizenz

1 Stern - Vorteile

Als Datenkonsument Daten können angesehen werden Drucken Lokal speicherbar Ändern wie man will Man kann es jedem teilen

Als Daten Bereitsteller Einfach zu veröffentlichen Man muss die Verwendung nicht

erläutern

2 Sterne Daten sind als strukturierte Daten verfügbar

Z. B. Excel statt einem pdf

2 Sterne Vorteile

Als Datenkonsument Mann kann alles wie unter 1 Stern

und Daten können direkt mit Software

verarbeitet werden (Berechnungen, Visualisierungen)

Es kann zu anderen Formaten exportiert werden

Als Daten Bereitsteller Publizieren ist immer noch einfach

3 Sterne Es werden urheberrechtliche nicht geschützte Formate verwendet

CSV statt Excel

3 Sterne Vorteile

Als Datenkonsument Alles was mit 2 Sterne geht Daten können auf beliebige Weise

manipuliert werden Kann mit beliebiger Software

manipuliert werden

Als Daten Bereitsteller Es werden ggf. Plug-Ins zum

Publizieren benötigt Immer noch relativ einfache

Bereitstellung

4 Sterne Verwende Uris um Daten zugreifbar zu machen, damit Leute das verweisen

können

4 Sterne Vorteile

Als Datenkonsument Daten können verlinked werden Man kann es Bookmarken Teile der Daten wieder verwenden Kann Daten mit anderen Daten

kombinieren

Als Daten Bereitsteller Granularere Kontrolle über Daten Andere Bereitsteller können die

Daten verlinken

5 Sterne Verlinkte Daten zu anderen und liefere Kontext

5 Sterne Vorteile

Als Datenkonsument Mehr verknüpfte Daten finden wenn

man Daten verwendet Man muss mit kaputten Links

umgehen Sicherheitsrisiko wenn Daten von

fremden Quellen importiert werden

Als Daten Bereitsteller Daten sind entdeckbar Wert der Daten erhöht sich Man profitiert genauso wie der

Konsument

Übung zu Open Data Ziel: Überblick über offene Datenquellen zu bekommen Fragen

Welche Art von Daten werden bereitgestellt? Welche Daten findet ihr besonders interessant und warum? Wie granular sind die Daten? Wie sind die zugänglich? Bewertung der Datenquelle Präsentation im Plenum

Gruppen Global: Weltbank.org UK: Data.gov Deutschland: govdata.de EU: http://opendata.eu/

Bild durch Klicken auf Symbol hinzufügenNon Open Data Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Andere Datenquellen Unternehmensdaten

Internet Dienste Haben meistens eine API Registrieren Zugriff über Web Schnittstellen

Facebook Graph API

Demo Facebook API me erminasde/posts ewebaskets/posts

Beispiel: Social Media AnalyseAuswertung von sozialen Netzwerken

• Untersuchung des Medien-Konsumverhaltens • Quantitativ-statistische Auswertung von Kommunikationsinhalten• Erkennung von Trends, Influencern und Konkurrenzaktivitäten• Nutzung von Facebook, Twitter und anderen Sozialen Netzwerken als Datenquelle• Hohes Datenwachstum• Semi-strukturierte Datenformate• Häufige Änderungen der Datenstrukturen

Quelle: Facebook Datenströme

Verabeitung der Daten mit Hadoop

Analyse der Ergebnisse mit Excel

Andere Visualisierung

Twitter

Twitter Visualisierung

http://tweetping.net/

Twitter: Mehr lernen

http://blogs.ischool.berkeley.edu/i290-abdt-s12/

fitbit

Trakt.tv

Weitere Quellen http://www.programmableweb.com/

Bild durch Klicken auf Symbol hinzufügenDatenanalyse mit Tableau Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Big Data

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Agenda Überblick Was ist Hadoop Hive Map Reduce Pig

Die 3 Vs

Quelle: http://www.datasciencecentral.com/forum/topics/the-3vs-that-define-big-data

Was ist Big Data ?

Was ist Big Data?

Warum Big Data –Neue Zahlen 2008: Google processes 20 PB a day 2009: Facebook has 2.5 PB user data + 15 TB/day 2009: eBay has 6.5 PB user data + 50 TB/day 2011: Yahoo! has 180-200 PB of data 2012: Facebook ingests 500 TB/day

Datenspeicherung Data storage is not trivial Data volumes are massive Reliably storing PBs of data is challenging Disk/hardware/network failures Probability of failure event increases with number ofmachines For example:

1000 hosts, each with 10 disks a disk lasts 3 year how many failures per day?

Ursprünge Hadoop is an open-source implementation based on GFS and MapReduce from

Google Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. (2003) The Google File System Jeffrey Dean and Sanjay Ghemawat. (2004) MapReduce: Simplified Data Processing on Large Clusters OSDI 2004

Architektur

Eigeschaften A distributed file system Redundant storage Designed to reliably store data using commodity hardware Designed to expect hardware failures Intended for large files Designed for batch inserts The Hadoop Distributed File System

HDFS - files and blocks Files are stored as a collection of blocks Blocks are 64 MB chunks of a file (configurable) Blocks are replicated on 3 nodes (configurable) The NameNode (NN) manages metadata about files and blocks The SecondaryNameNode (SNN) holds a backup of the NN data DataNodes (DN) store and serve blocks

Replication Multiple copies of a block are stored Replication strategy:

Copy #1 on another node on same rack Copy #2 on another node on different rack

Schreiben in HDFS

Lesen in HDFS

Ausfall Datenknoten DNs check in with the NN to report health Upon failure NN orders DNs to replicate under-replicated blocks

Arbeiten mit HDFS

Name Node Tool for browng HDFS

Job Tracker

Hive

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Distributed Storage(HDFS)

Query(Hive)

Distributed Processing

(MapReduce)

Scripting(Pig)

NoSQL Database(HBase)

Metadata(HCatalog)

Data Integration( ODBC / SQOOP/ REST)

Relational

(SQL Server)

Machine Learning(Mahout)

Graph(Pegasus)

Stats processin

g(RHadoo

p)

Event Pipeline(Flum

e)

Active Directory (Security)

Monitoring & Deployment

(System Center)

C#, F#, .NET

JavaScript

Pipeline / workflow(Oozie)

Azure Storage Vault (ASV)

PDW Polybase

Business Intelligence (Excel, Power View, SSAS)

World's Data (Azure Data Marketplace)

Event Driven

Processing

LegendRed = Core HadoopBlue = Data processingPurple = Microsoft integration points and value addsOrange = Data MovementGreen = Packages

HDInsight / Hadoop Eco-System

Beispiel: Social Media AnalyseAuswertung von sozialen Netzwerken

• Untersuchung des Medien-Konsumverhaltens • Quantitativ-statistische Auswertung von Kommunikationsinhalten• Erkennung von Trends, Influencern und Konkurrenzaktivitäten• Nutzung von Facebook, Twitter und anderen Sozialen Netzwerken als Datenquelle• Hohes Datenwachstum• Semi-strukturierte Datenformate• Häufige Änderungen der Datenstrukturen

Quelle: Facebook Graph API

Verabeitung der Daten mit Hadoop

Analyse der Ergebnisse mit Excel

Eigene Map Reduce Tasks

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Beispiel: Analyse von FreitextTextanalye von Sitzungs- protokollen

• Entdeckung von Bedeutungsstrukturen aus un- oder schwachstrukturierten Textdaten• Schnelle Erkennung von Kerninformationen der verarbeiteten Texte• Erkennung nicht bekannter Zusammenhänge• Hypothesen generieren, überprüfen und schrittweise verfeinern• Extraktion von Haltungen gegenüber einem Thema durch semantische Algorithmen• Hohes Datenwachstum

Quelle: Plenarprotokolle Bundestag

Verarbeitung der Daten mit Hadoop

Analyse der Ergebnisse mit Excel

Zusammenfassung Coole Vorlesung zum Weiter machen http://blogs.ischool.berkeley.edu/i290-abdt-s12

/

Niemand in Deutschland hat Big Data!

Recommended