26
API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg Grundseminar, Betreuung durch Prof. Dr. Olaf Zukunft 05.12.2014

API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

  • Upload
    others

  • View
    25

  • Download
    0

Embed Size (px)

Citation preview

Page 1: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

API Monitoring mit Predictive Analytics

von Bjoumlrn Baltbardis

Bjoumlrn Baltbardis M-INF HAW-HamburgGrundseminar Betreuung durch Prof Dr Olaf Zukunft 05122014

Bjoumlrn Baltbardis Folie 2Grundseminar M-INF HAW Hamburg

Inhalt des Vortrags

bull  Einfuumlhrungndash Motivationndash XING API

bull  Erkennungsmetrikenbull  Loumlsungsstrategienndash  Asynchrone Auswertungndash  Information Flow Processing

bull  Ziele und Ausblick

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 3Grundseminar M-INF HAW Hamburg

Motivation

bull  XINGndash  soziales Netzwerkndash  14 Mio Mitglieder [XNG1] ndash  ca14 Mio Requests Tagndash  ca 60-80 des Traffic entfallen auf die API

bull  Groszliges Datenaufkommenndash  schwer angemessen zu uumlberwachen

bull  Problemendash  Fehlerndash  Missbrauch

[Abb13 1]13

[XNG1]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

XING API

Bjoumlrn Baltbardis Folie 5Grundseminar M-INF HAW Hamburg

XING API

bull  Oumlffentliche REST APIbull  89 Resources in 15 Kategorien

[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 6Grundseminar M-INF HAW Hamburg

Resource Beispiel - XING API

GET13 v1usersme13 Shows13 a13 par8cular13 users13 profile13

Parameters13 fields13 (OPTIONAL)13

13 13 13 users13 [13 13 13 13 13 13 13 13 13 13 13 13 id13 17425810_c9de1713 13 13 13 13 13 13 ac8ve_email13 bjoernbaltbardisde13 13 13 13 13 13 13 badges13 [13 13 13 13 13 13 13 13 13 PREMIUM13 13 13 13 13 13 13 ]13 13 13 13 13 13 13 birth_date13 13 13 13 13 13 13 13 13 13 year13 199213 13 13 13 13 13 13 13 13 month13 113 13 13 13 13 13 13 13 13 day13 2313 13 13 13 13 13 13 13 13 13 13 [helliphellip]13 13

ltxml13 version=1013 encoding=UTF-shy‐8gt13 ltusersgt13 13 13 ltusergt13 13 13 13 13 ltidgt17425810_c9de17ltidgt13 13 13 13 13 ltac8ve_emailgtbjoernbaltbardisdeltac8ve_emailgt13 13 13 13 13 ltbadgesgt13 13 13 13 13 13 13 ltbadgegtPREMIUMltbadgegt13 13 13 13 13 ltbadgesgt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 13 ltyeargt1992ltyeargt13 13 13 13 13 13 13 ltmonthgt1ltmonthgt13 13 13 13 13 13 13 ltdaygt23ltdaygt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 [helliphellip]13 13 ltusergt13 ltusersgt13

Response13 (JSON)13 Response13 (XML)13

[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

ERKENNUNGSMETRIKEN

bull  Missbrauchserkennung13 bull  Fehlerpraumlven8on13 bull  Technische13 Gegebenheiten13

Bjoumlrn Baltbardis Folie 8Grundseminar M-INF HAW Hamburg

OAuth ndash Missbrauchsrisiko

bull  Mehrstufiger AuthentifizierungsmechanismusAPI-shy‐Consumer13 MusterApp13

|13

API13 Server13

User13

Zugriffsanfrage13 consumer_key13

Gewaumlhrt13 access_token13

[XNG3]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 9Grundseminar M-INF HAW Hamburg

OAuth - Missbrauchsrisiko

bull  consumer key kann gestohlen missbraucht werdenndash Verschleierung von API Nutzungndash Datenabruf im falschen Namenndash Rechtemissbrauchndash Umgehen von Thresholds beim Throttling

bull  od fuumlr andere Apps erhoumlhen

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 10Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

GET v1usersme ldquofields ldquodisplay_name photo_urlsldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

Bjoumlrn13 Baltbardis13

Kontakt13 113

Kontakt13 313

Kontakt13 213

MusterApp13 13

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

GET v1usersuser_idcontact_requests consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

Beispielhalter13 Ablauf13

113 Profil13 abrufen13

213 Kontakte13 abrufen13

313 Kontaktanfragen13 abrufen13

egrave13 Verhalten13 des13 consumer13 keys13 13 bdquo123XXXXXXXXXXXXXXXXXldquo13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

BadApp13 13

GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Andere13 Parameter13

Moumlgliche13 Verdachtsfaumllle13

PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Bisher13 ungenutzte13 Resources13

Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113

GET v1usersme 213

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

ERKENNUNGSMETRIKEN

bull  Missbrauchserkennung13 bull  FehlerpraumlvenHon13 bull  Technische13 Gegebenheiten13

Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg

Fehler Praumlvention

bull  Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck

bull  Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos

bull  Vorteilendash Server-Fehler fruumlhzeitig erkennen

bull  haumlufig Sicherheitsrelevantbull  fruumlhzeitige Berichtigung experimenteller Features

ndash Detaillierte Fehleranalyse Tools fuumlr consumer

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg

Technische Gegebenheiten

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

xws-shy‐1413

xws-shy‐1513

xws-shy‐1613

MusterApp13

duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX

API13 Server13

Analyse13 Server13 (Master)13

RabbitMQ13 Message13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  Informa8on13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg

Asynchrone Auswertung

bull  Im Cluster aus Performancegruumlndenbull  Hadoop - de facto Standard

ndash Eigenes verteiltes Dateisystemndash MapReduce

bull  Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul

[Abb13 2]13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[HAD113 CUG1]13 13

Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg

Clustering

bull  Grundlage fuumlr Anomalieerkennung

bull  Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[Abb13 3113 3213 33]13

[CLE1]13 13

Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg

Anomalie-Erkennung mit Hadoop

bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo

bull  Skalierbare Anomalie-Erkennungbull  Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  InformaHon13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg

Information Flow Processing

bull  Keine Speicherungbull  Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen

bull  Complex Event Processing (CEP)ndash  Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[CUG113 ZHA1]13 13

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 2: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

Bjoumlrn Baltbardis Folie 2Grundseminar M-INF HAW Hamburg

Inhalt des Vortrags

bull  Einfuumlhrungndash Motivationndash XING API

bull  Erkennungsmetrikenbull  Loumlsungsstrategienndash  Asynchrone Auswertungndash  Information Flow Processing

bull  Ziele und Ausblick

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 3Grundseminar M-INF HAW Hamburg

Motivation

bull  XINGndash  soziales Netzwerkndash  14 Mio Mitglieder [XNG1] ndash  ca14 Mio Requests Tagndash  ca 60-80 des Traffic entfallen auf die API

bull  Groszliges Datenaufkommenndash  schwer angemessen zu uumlberwachen

bull  Problemendash  Fehlerndash  Missbrauch

[Abb13 1]13

[XNG1]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

XING API

Bjoumlrn Baltbardis Folie 5Grundseminar M-INF HAW Hamburg

XING API

bull  Oumlffentliche REST APIbull  89 Resources in 15 Kategorien

[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 6Grundseminar M-INF HAW Hamburg

Resource Beispiel - XING API

GET13 v1usersme13 Shows13 a13 par8cular13 users13 profile13

Parameters13 fields13 (OPTIONAL)13

13 13 13 users13 [13 13 13 13 13 13 13 13 13 13 13 13 id13 17425810_c9de1713 13 13 13 13 13 13 ac8ve_email13 bjoernbaltbardisde13 13 13 13 13 13 13 badges13 [13 13 13 13 13 13 13 13 13 PREMIUM13 13 13 13 13 13 13 ]13 13 13 13 13 13 13 birth_date13 13 13 13 13 13 13 13 13 13 year13 199213 13 13 13 13 13 13 13 13 month13 113 13 13 13 13 13 13 13 13 day13 2313 13 13 13 13 13 13 13 13 13 13 [helliphellip]13 13

ltxml13 version=1013 encoding=UTF-shy‐8gt13 ltusersgt13 13 13 ltusergt13 13 13 13 13 ltidgt17425810_c9de17ltidgt13 13 13 13 13 ltac8ve_emailgtbjoernbaltbardisdeltac8ve_emailgt13 13 13 13 13 ltbadgesgt13 13 13 13 13 13 13 ltbadgegtPREMIUMltbadgegt13 13 13 13 13 ltbadgesgt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 13 ltyeargt1992ltyeargt13 13 13 13 13 13 13 ltmonthgt1ltmonthgt13 13 13 13 13 13 13 ltdaygt23ltdaygt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 [helliphellip]13 13 ltusergt13 ltusersgt13

Response13 (JSON)13 Response13 (XML)13

[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

ERKENNUNGSMETRIKEN

bull  Missbrauchserkennung13 bull  Fehlerpraumlven8on13 bull  Technische13 Gegebenheiten13

Bjoumlrn Baltbardis Folie 8Grundseminar M-INF HAW Hamburg

OAuth ndash Missbrauchsrisiko

bull  Mehrstufiger AuthentifizierungsmechanismusAPI-shy‐Consumer13 MusterApp13

|13

API13 Server13

User13

Zugriffsanfrage13 consumer_key13

Gewaumlhrt13 access_token13

[XNG3]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 9Grundseminar M-INF HAW Hamburg

OAuth - Missbrauchsrisiko

bull  consumer key kann gestohlen missbraucht werdenndash Verschleierung von API Nutzungndash Datenabruf im falschen Namenndash Rechtemissbrauchndash Umgehen von Thresholds beim Throttling

bull  od fuumlr andere Apps erhoumlhen

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 10Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

GET v1usersme ldquofields ldquodisplay_name photo_urlsldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

Bjoumlrn13 Baltbardis13

Kontakt13 113

Kontakt13 313

Kontakt13 213

MusterApp13 13

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

GET v1usersuser_idcontact_requests consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

Beispielhalter13 Ablauf13

113 Profil13 abrufen13

213 Kontakte13 abrufen13

313 Kontaktanfragen13 abrufen13

egrave13 Verhalten13 des13 consumer13 keys13 13 bdquo123XXXXXXXXXXXXXXXXXldquo13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

BadApp13 13

GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Andere13 Parameter13

Moumlgliche13 Verdachtsfaumllle13

PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Bisher13 ungenutzte13 Resources13

Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113

GET v1usersme 213

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

ERKENNUNGSMETRIKEN

bull  Missbrauchserkennung13 bull  FehlerpraumlvenHon13 bull  Technische13 Gegebenheiten13

Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg

Fehler Praumlvention

bull  Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck

bull  Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos

bull  Vorteilendash Server-Fehler fruumlhzeitig erkennen

bull  haumlufig Sicherheitsrelevantbull  fruumlhzeitige Berichtigung experimenteller Features

ndash Detaillierte Fehleranalyse Tools fuumlr consumer

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg

Technische Gegebenheiten

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

xws-shy‐1413

xws-shy‐1513

xws-shy‐1613

MusterApp13

duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX

API13 Server13

Analyse13 Server13 (Master)13

RabbitMQ13 Message13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  Informa8on13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg

Asynchrone Auswertung

bull  Im Cluster aus Performancegruumlndenbull  Hadoop - de facto Standard

ndash Eigenes verteiltes Dateisystemndash MapReduce

bull  Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul

[Abb13 2]13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[HAD113 CUG1]13 13

Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg

Clustering

bull  Grundlage fuumlr Anomalieerkennung

bull  Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[Abb13 3113 3213 33]13

[CLE1]13 13

Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg

Anomalie-Erkennung mit Hadoop

bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo

bull  Skalierbare Anomalie-Erkennungbull  Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  InformaHon13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg

Information Flow Processing

bull  Keine Speicherungbull  Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen

bull  Complex Event Processing (CEP)ndash  Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[CUG113 ZHA1]13 13

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 3: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

Bjoumlrn Baltbardis Folie 3Grundseminar M-INF HAW Hamburg

Motivation

bull  XINGndash  soziales Netzwerkndash  14 Mio Mitglieder [XNG1] ndash  ca14 Mio Requests Tagndash  ca 60-80 des Traffic entfallen auf die API

bull  Groszliges Datenaufkommenndash  schwer angemessen zu uumlberwachen

bull  Problemendash  Fehlerndash  Missbrauch

[Abb13 1]13

[XNG1]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

XING API

Bjoumlrn Baltbardis Folie 5Grundseminar M-INF HAW Hamburg

XING API

bull  Oumlffentliche REST APIbull  89 Resources in 15 Kategorien

[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 6Grundseminar M-INF HAW Hamburg

Resource Beispiel - XING API

GET13 v1usersme13 Shows13 a13 par8cular13 users13 profile13

Parameters13 fields13 (OPTIONAL)13

13 13 13 users13 [13 13 13 13 13 13 13 13 13 13 13 13 id13 17425810_c9de1713 13 13 13 13 13 13 ac8ve_email13 bjoernbaltbardisde13 13 13 13 13 13 13 badges13 [13 13 13 13 13 13 13 13 13 PREMIUM13 13 13 13 13 13 13 ]13 13 13 13 13 13 13 birth_date13 13 13 13 13 13 13 13 13 13 year13 199213 13 13 13 13 13 13 13 13 month13 113 13 13 13 13 13 13 13 13 day13 2313 13 13 13 13 13 13 13 13 13 13 [helliphellip]13 13

ltxml13 version=1013 encoding=UTF-shy‐8gt13 ltusersgt13 13 13 ltusergt13 13 13 13 13 ltidgt17425810_c9de17ltidgt13 13 13 13 13 ltac8ve_emailgtbjoernbaltbardisdeltac8ve_emailgt13 13 13 13 13 ltbadgesgt13 13 13 13 13 13 13 ltbadgegtPREMIUMltbadgegt13 13 13 13 13 ltbadgesgt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 13 ltyeargt1992ltyeargt13 13 13 13 13 13 13 ltmonthgt1ltmonthgt13 13 13 13 13 13 13 ltdaygt23ltdaygt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 [helliphellip]13 13 ltusergt13 ltusersgt13

Response13 (JSON)13 Response13 (XML)13

[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

ERKENNUNGSMETRIKEN

bull  Missbrauchserkennung13 bull  Fehlerpraumlven8on13 bull  Technische13 Gegebenheiten13

Bjoumlrn Baltbardis Folie 8Grundseminar M-INF HAW Hamburg

OAuth ndash Missbrauchsrisiko

bull  Mehrstufiger AuthentifizierungsmechanismusAPI-shy‐Consumer13 MusterApp13

|13

API13 Server13

User13

Zugriffsanfrage13 consumer_key13

Gewaumlhrt13 access_token13

[XNG3]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 9Grundseminar M-INF HAW Hamburg

OAuth - Missbrauchsrisiko

bull  consumer key kann gestohlen missbraucht werdenndash Verschleierung von API Nutzungndash Datenabruf im falschen Namenndash Rechtemissbrauchndash Umgehen von Thresholds beim Throttling

bull  od fuumlr andere Apps erhoumlhen

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 10Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

GET v1usersme ldquofields ldquodisplay_name photo_urlsldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

Bjoumlrn13 Baltbardis13

Kontakt13 113

Kontakt13 313

Kontakt13 213

MusterApp13 13

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

GET v1usersuser_idcontact_requests consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

Beispielhalter13 Ablauf13

113 Profil13 abrufen13

213 Kontakte13 abrufen13

313 Kontaktanfragen13 abrufen13

egrave13 Verhalten13 des13 consumer13 keys13 13 bdquo123XXXXXXXXXXXXXXXXXldquo13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

BadApp13 13

GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Andere13 Parameter13

Moumlgliche13 Verdachtsfaumllle13

PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Bisher13 ungenutzte13 Resources13

Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113

GET v1usersme 213

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

ERKENNUNGSMETRIKEN

bull  Missbrauchserkennung13 bull  FehlerpraumlvenHon13 bull  Technische13 Gegebenheiten13

Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg

Fehler Praumlvention

bull  Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck

bull  Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos

bull  Vorteilendash Server-Fehler fruumlhzeitig erkennen

bull  haumlufig Sicherheitsrelevantbull  fruumlhzeitige Berichtigung experimenteller Features

ndash Detaillierte Fehleranalyse Tools fuumlr consumer

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg

Technische Gegebenheiten

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

xws-shy‐1413

xws-shy‐1513

xws-shy‐1613

MusterApp13

duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX

API13 Server13

Analyse13 Server13 (Master)13

RabbitMQ13 Message13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  Informa8on13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg

Asynchrone Auswertung

bull  Im Cluster aus Performancegruumlndenbull  Hadoop - de facto Standard

ndash Eigenes verteiltes Dateisystemndash MapReduce

bull  Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul

[Abb13 2]13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[HAD113 CUG1]13 13

Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg

Clustering

bull  Grundlage fuumlr Anomalieerkennung

bull  Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[Abb13 3113 3213 33]13

[CLE1]13 13

Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg

Anomalie-Erkennung mit Hadoop

bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo

bull  Skalierbare Anomalie-Erkennungbull  Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  InformaHon13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg

Information Flow Processing

bull  Keine Speicherungbull  Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen

bull  Complex Event Processing (CEP)ndash  Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[CUG113 ZHA1]13 13

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 4: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

XING API

Bjoumlrn Baltbardis Folie 5Grundseminar M-INF HAW Hamburg

XING API

bull  Oumlffentliche REST APIbull  89 Resources in 15 Kategorien

[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 6Grundseminar M-INF HAW Hamburg

Resource Beispiel - XING API

GET13 v1usersme13 Shows13 a13 par8cular13 users13 profile13

Parameters13 fields13 (OPTIONAL)13

13 13 13 users13 [13 13 13 13 13 13 13 13 13 13 13 13 id13 17425810_c9de1713 13 13 13 13 13 13 ac8ve_email13 bjoernbaltbardisde13 13 13 13 13 13 13 badges13 [13 13 13 13 13 13 13 13 13 PREMIUM13 13 13 13 13 13 13 ]13 13 13 13 13 13 13 birth_date13 13 13 13 13 13 13 13 13 13 year13 199213 13 13 13 13 13 13 13 13 month13 113 13 13 13 13 13 13 13 13 day13 2313 13 13 13 13 13 13 13 13 13 13 [helliphellip]13 13

ltxml13 version=1013 encoding=UTF-shy‐8gt13 ltusersgt13 13 13 ltusergt13 13 13 13 13 ltidgt17425810_c9de17ltidgt13 13 13 13 13 ltac8ve_emailgtbjoernbaltbardisdeltac8ve_emailgt13 13 13 13 13 ltbadgesgt13 13 13 13 13 13 13 ltbadgegtPREMIUMltbadgegt13 13 13 13 13 ltbadgesgt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 13 ltyeargt1992ltyeargt13 13 13 13 13 13 13 ltmonthgt1ltmonthgt13 13 13 13 13 13 13 ltdaygt23ltdaygt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 [helliphellip]13 13 ltusergt13 ltusersgt13

Response13 (JSON)13 Response13 (XML)13

[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

ERKENNUNGSMETRIKEN

bull  Missbrauchserkennung13 bull  Fehlerpraumlven8on13 bull  Technische13 Gegebenheiten13

Bjoumlrn Baltbardis Folie 8Grundseminar M-INF HAW Hamburg

OAuth ndash Missbrauchsrisiko

bull  Mehrstufiger AuthentifizierungsmechanismusAPI-shy‐Consumer13 MusterApp13

|13

API13 Server13

User13

Zugriffsanfrage13 consumer_key13

Gewaumlhrt13 access_token13

[XNG3]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 9Grundseminar M-INF HAW Hamburg

OAuth - Missbrauchsrisiko

bull  consumer key kann gestohlen missbraucht werdenndash Verschleierung von API Nutzungndash Datenabruf im falschen Namenndash Rechtemissbrauchndash Umgehen von Thresholds beim Throttling

bull  od fuumlr andere Apps erhoumlhen

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 10Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

GET v1usersme ldquofields ldquodisplay_name photo_urlsldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

Bjoumlrn13 Baltbardis13

Kontakt13 113

Kontakt13 313

Kontakt13 213

MusterApp13 13

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

GET v1usersuser_idcontact_requests consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

Beispielhalter13 Ablauf13

113 Profil13 abrufen13

213 Kontakte13 abrufen13

313 Kontaktanfragen13 abrufen13

egrave13 Verhalten13 des13 consumer13 keys13 13 bdquo123XXXXXXXXXXXXXXXXXldquo13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

BadApp13 13

GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Andere13 Parameter13

Moumlgliche13 Verdachtsfaumllle13

PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Bisher13 ungenutzte13 Resources13

Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113

GET v1usersme 213

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

ERKENNUNGSMETRIKEN

bull  Missbrauchserkennung13 bull  FehlerpraumlvenHon13 bull  Technische13 Gegebenheiten13

Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg

Fehler Praumlvention

bull  Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck

bull  Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos

bull  Vorteilendash Server-Fehler fruumlhzeitig erkennen

bull  haumlufig Sicherheitsrelevantbull  fruumlhzeitige Berichtigung experimenteller Features

ndash Detaillierte Fehleranalyse Tools fuumlr consumer

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg

Technische Gegebenheiten

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

xws-shy‐1413

xws-shy‐1513

xws-shy‐1613

MusterApp13

duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX

API13 Server13

Analyse13 Server13 (Master)13

RabbitMQ13 Message13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  Informa8on13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg

Asynchrone Auswertung

bull  Im Cluster aus Performancegruumlndenbull  Hadoop - de facto Standard

ndash Eigenes verteiltes Dateisystemndash MapReduce

bull  Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul

[Abb13 2]13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[HAD113 CUG1]13 13

Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg

Clustering

bull  Grundlage fuumlr Anomalieerkennung

bull  Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[Abb13 3113 3213 33]13

[CLE1]13 13

Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg

Anomalie-Erkennung mit Hadoop

bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo

bull  Skalierbare Anomalie-Erkennungbull  Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  InformaHon13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg

Information Flow Processing

bull  Keine Speicherungbull  Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen

bull  Complex Event Processing (CEP)ndash  Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[CUG113 ZHA1]13 13

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 5: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

Bjoumlrn Baltbardis Folie 5Grundseminar M-INF HAW Hamburg

XING API

bull  Oumlffentliche REST APIbull  89 Resources in 15 Kategorien

[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 6Grundseminar M-INF HAW Hamburg

Resource Beispiel - XING API

GET13 v1usersme13 Shows13 a13 par8cular13 users13 profile13

Parameters13 fields13 (OPTIONAL)13

13 13 13 users13 [13 13 13 13 13 13 13 13 13 13 13 13 id13 17425810_c9de1713 13 13 13 13 13 13 ac8ve_email13 bjoernbaltbardisde13 13 13 13 13 13 13 badges13 [13 13 13 13 13 13 13 13 13 PREMIUM13 13 13 13 13 13 13 ]13 13 13 13 13 13 13 birth_date13 13 13 13 13 13 13 13 13 13 year13 199213 13 13 13 13 13 13 13 13 month13 113 13 13 13 13 13 13 13 13 day13 2313 13 13 13 13 13 13 13 13 13 13 [helliphellip]13 13

ltxml13 version=1013 encoding=UTF-shy‐8gt13 ltusersgt13 13 13 ltusergt13 13 13 13 13 ltidgt17425810_c9de17ltidgt13 13 13 13 13 ltac8ve_emailgtbjoernbaltbardisdeltac8ve_emailgt13 13 13 13 13 ltbadgesgt13 13 13 13 13 13 13 ltbadgegtPREMIUMltbadgegt13 13 13 13 13 ltbadgesgt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 13 ltyeargt1992ltyeargt13 13 13 13 13 13 13 ltmonthgt1ltmonthgt13 13 13 13 13 13 13 ltdaygt23ltdaygt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 [helliphellip]13 13 ltusergt13 ltusersgt13

Response13 (JSON)13 Response13 (XML)13

[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

ERKENNUNGSMETRIKEN

bull  Missbrauchserkennung13 bull  Fehlerpraumlven8on13 bull  Technische13 Gegebenheiten13

Bjoumlrn Baltbardis Folie 8Grundseminar M-INF HAW Hamburg

OAuth ndash Missbrauchsrisiko

bull  Mehrstufiger AuthentifizierungsmechanismusAPI-shy‐Consumer13 MusterApp13

|13

API13 Server13

User13

Zugriffsanfrage13 consumer_key13

Gewaumlhrt13 access_token13

[XNG3]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 9Grundseminar M-INF HAW Hamburg

OAuth - Missbrauchsrisiko

bull  consumer key kann gestohlen missbraucht werdenndash Verschleierung von API Nutzungndash Datenabruf im falschen Namenndash Rechtemissbrauchndash Umgehen von Thresholds beim Throttling

bull  od fuumlr andere Apps erhoumlhen

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 10Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

GET v1usersme ldquofields ldquodisplay_name photo_urlsldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

Bjoumlrn13 Baltbardis13

Kontakt13 113

Kontakt13 313

Kontakt13 213

MusterApp13 13

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

GET v1usersuser_idcontact_requests consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

Beispielhalter13 Ablauf13

113 Profil13 abrufen13

213 Kontakte13 abrufen13

313 Kontaktanfragen13 abrufen13

egrave13 Verhalten13 des13 consumer13 keys13 13 bdquo123XXXXXXXXXXXXXXXXXldquo13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

BadApp13 13

GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Andere13 Parameter13

Moumlgliche13 Verdachtsfaumllle13

PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Bisher13 ungenutzte13 Resources13

Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113

GET v1usersme 213

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

ERKENNUNGSMETRIKEN

bull  Missbrauchserkennung13 bull  FehlerpraumlvenHon13 bull  Technische13 Gegebenheiten13

Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg

Fehler Praumlvention

bull  Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck

bull  Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos

bull  Vorteilendash Server-Fehler fruumlhzeitig erkennen

bull  haumlufig Sicherheitsrelevantbull  fruumlhzeitige Berichtigung experimenteller Features

ndash Detaillierte Fehleranalyse Tools fuumlr consumer

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg

Technische Gegebenheiten

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

xws-shy‐1413

xws-shy‐1513

xws-shy‐1613

MusterApp13

duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX

API13 Server13

Analyse13 Server13 (Master)13

RabbitMQ13 Message13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  Informa8on13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg

Asynchrone Auswertung

bull  Im Cluster aus Performancegruumlndenbull  Hadoop - de facto Standard

ndash Eigenes verteiltes Dateisystemndash MapReduce

bull  Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul

[Abb13 2]13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[HAD113 CUG1]13 13

Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg

Clustering

bull  Grundlage fuumlr Anomalieerkennung

bull  Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[Abb13 3113 3213 33]13

[CLE1]13 13

Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg

Anomalie-Erkennung mit Hadoop

bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo

bull  Skalierbare Anomalie-Erkennungbull  Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  InformaHon13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg

Information Flow Processing

bull  Keine Speicherungbull  Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen

bull  Complex Event Processing (CEP)ndash  Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[CUG113 ZHA1]13 13

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 6: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

Bjoumlrn Baltbardis Folie 6Grundseminar M-INF HAW Hamburg

Resource Beispiel - XING API

GET13 v1usersme13 Shows13 a13 par8cular13 users13 profile13

Parameters13 fields13 (OPTIONAL)13

13 13 13 users13 [13 13 13 13 13 13 13 13 13 13 13 13 id13 17425810_c9de1713 13 13 13 13 13 13 ac8ve_email13 bjoernbaltbardisde13 13 13 13 13 13 13 badges13 [13 13 13 13 13 13 13 13 13 PREMIUM13 13 13 13 13 13 13 ]13 13 13 13 13 13 13 birth_date13 13 13 13 13 13 13 13 13 13 year13 199213 13 13 13 13 13 13 13 13 month13 113 13 13 13 13 13 13 13 13 day13 2313 13 13 13 13 13 13 13 13 13 13 [helliphellip]13 13

ltxml13 version=1013 encoding=UTF-shy‐8gt13 ltusersgt13 13 13 ltusergt13 13 13 13 13 ltidgt17425810_c9de17ltidgt13 13 13 13 13 ltac8ve_emailgtbjoernbaltbardisdeltac8ve_emailgt13 13 13 13 13 ltbadgesgt13 13 13 13 13 13 13 ltbadgegtPREMIUMltbadgegt13 13 13 13 13 ltbadgesgt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 13 ltyeargt1992ltyeargt13 13 13 13 13 13 13 ltmonthgt1ltmonthgt13 13 13 13 13 13 13 ltdaygt23ltdaygt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 [helliphellip]13 13 ltusergt13 ltusersgt13

Response13 (JSON)13 Response13 (XML)13

[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

ERKENNUNGSMETRIKEN

bull  Missbrauchserkennung13 bull  Fehlerpraumlven8on13 bull  Technische13 Gegebenheiten13

Bjoumlrn Baltbardis Folie 8Grundseminar M-INF HAW Hamburg

OAuth ndash Missbrauchsrisiko

bull  Mehrstufiger AuthentifizierungsmechanismusAPI-shy‐Consumer13 MusterApp13

|13

API13 Server13

User13

Zugriffsanfrage13 consumer_key13

Gewaumlhrt13 access_token13

[XNG3]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 9Grundseminar M-INF HAW Hamburg

OAuth - Missbrauchsrisiko

bull  consumer key kann gestohlen missbraucht werdenndash Verschleierung von API Nutzungndash Datenabruf im falschen Namenndash Rechtemissbrauchndash Umgehen von Thresholds beim Throttling

bull  od fuumlr andere Apps erhoumlhen

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 10Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

GET v1usersme ldquofields ldquodisplay_name photo_urlsldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

Bjoumlrn13 Baltbardis13

Kontakt13 113

Kontakt13 313

Kontakt13 213

MusterApp13 13

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

GET v1usersuser_idcontact_requests consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

Beispielhalter13 Ablauf13

113 Profil13 abrufen13

213 Kontakte13 abrufen13

313 Kontaktanfragen13 abrufen13

egrave13 Verhalten13 des13 consumer13 keys13 13 bdquo123XXXXXXXXXXXXXXXXXldquo13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

BadApp13 13

GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Andere13 Parameter13

Moumlgliche13 Verdachtsfaumllle13

PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Bisher13 ungenutzte13 Resources13

Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113

GET v1usersme 213

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

ERKENNUNGSMETRIKEN

bull  Missbrauchserkennung13 bull  FehlerpraumlvenHon13 bull  Technische13 Gegebenheiten13

Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg

Fehler Praumlvention

bull  Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck

bull  Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos

bull  Vorteilendash Server-Fehler fruumlhzeitig erkennen

bull  haumlufig Sicherheitsrelevantbull  fruumlhzeitige Berichtigung experimenteller Features

ndash Detaillierte Fehleranalyse Tools fuumlr consumer

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg

Technische Gegebenheiten

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

xws-shy‐1413

xws-shy‐1513

xws-shy‐1613

MusterApp13

duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX

API13 Server13

Analyse13 Server13 (Master)13

RabbitMQ13 Message13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  Informa8on13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg

Asynchrone Auswertung

bull  Im Cluster aus Performancegruumlndenbull  Hadoop - de facto Standard

ndash Eigenes verteiltes Dateisystemndash MapReduce

bull  Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul

[Abb13 2]13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[HAD113 CUG1]13 13

Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg

Clustering

bull  Grundlage fuumlr Anomalieerkennung

bull  Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[Abb13 3113 3213 33]13

[CLE1]13 13

Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg

Anomalie-Erkennung mit Hadoop

bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo

bull  Skalierbare Anomalie-Erkennungbull  Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  InformaHon13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg

Information Flow Processing

bull  Keine Speicherungbull  Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen

bull  Complex Event Processing (CEP)ndash  Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[CUG113 ZHA1]13 13

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 7: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

ERKENNUNGSMETRIKEN

bull  Missbrauchserkennung13 bull  Fehlerpraumlven8on13 bull  Technische13 Gegebenheiten13

Bjoumlrn Baltbardis Folie 8Grundseminar M-INF HAW Hamburg

OAuth ndash Missbrauchsrisiko

bull  Mehrstufiger AuthentifizierungsmechanismusAPI-shy‐Consumer13 MusterApp13

|13

API13 Server13

User13

Zugriffsanfrage13 consumer_key13

Gewaumlhrt13 access_token13

[XNG3]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 9Grundseminar M-INF HAW Hamburg

OAuth - Missbrauchsrisiko

bull  consumer key kann gestohlen missbraucht werdenndash Verschleierung von API Nutzungndash Datenabruf im falschen Namenndash Rechtemissbrauchndash Umgehen von Thresholds beim Throttling

bull  od fuumlr andere Apps erhoumlhen

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 10Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

GET v1usersme ldquofields ldquodisplay_name photo_urlsldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

Bjoumlrn13 Baltbardis13

Kontakt13 113

Kontakt13 313

Kontakt13 213

MusterApp13 13

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

GET v1usersuser_idcontact_requests consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

Beispielhalter13 Ablauf13

113 Profil13 abrufen13

213 Kontakte13 abrufen13

313 Kontaktanfragen13 abrufen13

egrave13 Verhalten13 des13 consumer13 keys13 13 bdquo123XXXXXXXXXXXXXXXXXldquo13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

BadApp13 13

GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Andere13 Parameter13

Moumlgliche13 Verdachtsfaumllle13

PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Bisher13 ungenutzte13 Resources13

Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113

GET v1usersme 213

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

ERKENNUNGSMETRIKEN

bull  Missbrauchserkennung13 bull  FehlerpraumlvenHon13 bull  Technische13 Gegebenheiten13

Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg

Fehler Praumlvention

bull  Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck

bull  Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos

bull  Vorteilendash Server-Fehler fruumlhzeitig erkennen

bull  haumlufig Sicherheitsrelevantbull  fruumlhzeitige Berichtigung experimenteller Features

ndash Detaillierte Fehleranalyse Tools fuumlr consumer

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg

Technische Gegebenheiten

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

xws-shy‐1413

xws-shy‐1513

xws-shy‐1613

MusterApp13

duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX

API13 Server13

Analyse13 Server13 (Master)13

RabbitMQ13 Message13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  Informa8on13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg

Asynchrone Auswertung

bull  Im Cluster aus Performancegruumlndenbull  Hadoop - de facto Standard

ndash Eigenes verteiltes Dateisystemndash MapReduce

bull  Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul

[Abb13 2]13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[HAD113 CUG1]13 13

Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg

Clustering

bull  Grundlage fuumlr Anomalieerkennung

bull  Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[Abb13 3113 3213 33]13

[CLE1]13 13

Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg

Anomalie-Erkennung mit Hadoop

bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo

bull  Skalierbare Anomalie-Erkennungbull  Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  InformaHon13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg

Information Flow Processing

bull  Keine Speicherungbull  Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen

bull  Complex Event Processing (CEP)ndash  Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[CUG113 ZHA1]13 13

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 8: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

Bjoumlrn Baltbardis Folie 8Grundseminar M-INF HAW Hamburg

OAuth ndash Missbrauchsrisiko

bull  Mehrstufiger AuthentifizierungsmechanismusAPI-shy‐Consumer13 MusterApp13

|13

API13 Server13

User13

Zugriffsanfrage13 consumer_key13

Gewaumlhrt13 access_token13

[XNG3]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 9Grundseminar M-INF HAW Hamburg

OAuth - Missbrauchsrisiko

bull  consumer key kann gestohlen missbraucht werdenndash Verschleierung von API Nutzungndash Datenabruf im falschen Namenndash Rechtemissbrauchndash Umgehen von Thresholds beim Throttling

bull  od fuumlr andere Apps erhoumlhen

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 10Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

GET v1usersme ldquofields ldquodisplay_name photo_urlsldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

Bjoumlrn13 Baltbardis13

Kontakt13 113

Kontakt13 313

Kontakt13 213

MusterApp13 13

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

GET v1usersuser_idcontact_requests consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

Beispielhalter13 Ablauf13

113 Profil13 abrufen13

213 Kontakte13 abrufen13

313 Kontaktanfragen13 abrufen13

egrave13 Verhalten13 des13 consumer13 keys13 13 bdquo123XXXXXXXXXXXXXXXXXldquo13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

BadApp13 13

GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Andere13 Parameter13

Moumlgliche13 Verdachtsfaumllle13

PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Bisher13 ungenutzte13 Resources13

Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113

GET v1usersme 213

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

ERKENNUNGSMETRIKEN

bull  Missbrauchserkennung13 bull  FehlerpraumlvenHon13 bull  Technische13 Gegebenheiten13

Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg

Fehler Praumlvention

bull  Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck

bull  Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos

bull  Vorteilendash Server-Fehler fruumlhzeitig erkennen

bull  haumlufig Sicherheitsrelevantbull  fruumlhzeitige Berichtigung experimenteller Features

ndash Detaillierte Fehleranalyse Tools fuumlr consumer

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg

Technische Gegebenheiten

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

xws-shy‐1413

xws-shy‐1513

xws-shy‐1613

MusterApp13

duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX

API13 Server13

Analyse13 Server13 (Master)13

RabbitMQ13 Message13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  Informa8on13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg

Asynchrone Auswertung

bull  Im Cluster aus Performancegruumlndenbull  Hadoop - de facto Standard

ndash Eigenes verteiltes Dateisystemndash MapReduce

bull  Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul

[Abb13 2]13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[HAD113 CUG1]13 13

Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg

Clustering

bull  Grundlage fuumlr Anomalieerkennung

bull  Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[Abb13 3113 3213 33]13

[CLE1]13 13

Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg

Anomalie-Erkennung mit Hadoop

bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo

bull  Skalierbare Anomalie-Erkennungbull  Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  InformaHon13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg

Information Flow Processing

bull  Keine Speicherungbull  Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen

bull  Complex Event Processing (CEP)ndash  Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[CUG113 ZHA1]13 13

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 9: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

Bjoumlrn Baltbardis Folie 9Grundseminar M-INF HAW Hamburg

OAuth - Missbrauchsrisiko

bull  consumer key kann gestohlen missbraucht werdenndash Verschleierung von API Nutzungndash Datenabruf im falschen Namenndash Rechtemissbrauchndash Umgehen von Thresholds beim Throttling

bull  od fuumlr andere Apps erhoumlhen

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 10Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

GET v1usersme ldquofields ldquodisplay_name photo_urlsldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

Bjoumlrn13 Baltbardis13

Kontakt13 113

Kontakt13 313

Kontakt13 213

MusterApp13 13

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

GET v1usersuser_idcontact_requests consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

Beispielhalter13 Ablauf13

113 Profil13 abrufen13

213 Kontakte13 abrufen13

313 Kontaktanfragen13 abrufen13

egrave13 Verhalten13 des13 consumer13 keys13 13 bdquo123XXXXXXXXXXXXXXXXXldquo13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

BadApp13 13

GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Andere13 Parameter13

Moumlgliche13 Verdachtsfaumllle13

PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Bisher13 ungenutzte13 Resources13

Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113

GET v1usersme 213

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

ERKENNUNGSMETRIKEN

bull  Missbrauchserkennung13 bull  FehlerpraumlvenHon13 bull  Technische13 Gegebenheiten13

Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg

Fehler Praumlvention

bull  Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck

bull  Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos

bull  Vorteilendash Server-Fehler fruumlhzeitig erkennen

bull  haumlufig Sicherheitsrelevantbull  fruumlhzeitige Berichtigung experimenteller Features

ndash Detaillierte Fehleranalyse Tools fuumlr consumer

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg

Technische Gegebenheiten

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

xws-shy‐1413

xws-shy‐1513

xws-shy‐1613

MusterApp13

duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX

API13 Server13

Analyse13 Server13 (Master)13

RabbitMQ13 Message13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  Informa8on13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg

Asynchrone Auswertung

bull  Im Cluster aus Performancegruumlndenbull  Hadoop - de facto Standard

ndash Eigenes verteiltes Dateisystemndash MapReduce

bull  Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul

[Abb13 2]13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[HAD113 CUG1]13 13

Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg

Clustering

bull  Grundlage fuumlr Anomalieerkennung

bull  Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[Abb13 3113 3213 33]13

[CLE1]13 13

Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg

Anomalie-Erkennung mit Hadoop

bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo

bull  Skalierbare Anomalie-Erkennungbull  Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  InformaHon13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg

Information Flow Processing

bull  Keine Speicherungbull  Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen

bull  Complex Event Processing (CEP)ndash  Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[CUG113 ZHA1]13 13

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 10: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

Bjoumlrn Baltbardis Folie 10Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

GET v1usersme ldquofields ldquodisplay_name photo_urlsldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

Bjoumlrn13 Baltbardis13

Kontakt13 113

Kontakt13 313

Kontakt13 213

MusterApp13 13

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

GET v1usersuser_idcontact_requests consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

Beispielhalter13 Ablauf13

113 Profil13 abrufen13

213 Kontakte13 abrufen13

313 Kontaktanfragen13 abrufen13

egrave13 Verhalten13 des13 consumer13 keys13 13 bdquo123XXXXXXXXXXXXXXXXXldquo13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

BadApp13 13

GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Andere13 Parameter13

Moumlgliche13 Verdachtsfaumllle13

PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Bisher13 ungenutzte13 Resources13

Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113

GET v1usersme 213

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

ERKENNUNGSMETRIKEN

bull  Missbrauchserkennung13 bull  FehlerpraumlvenHon13 bull  Technische13 Gegebenheiten13

Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg

Fehler Praumlvention

bull  Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck

bull  Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos

bull  Vorteilendash Server-Fehler fruumlhzeitig erkennen

bull  haumlufig Sicherheitsrelevantbull  fruumlhzeitige Berichtigung experimenteller Features

ndash Detaillierte Fehleranalyse Tools fuumlr consumer

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg

Technische Gegebenheiten

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

xws-shy‐1413

xws-shy‐1513

xws-shy‐1613

MusterApp13

duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX

API13 Server13

Analyse13 Server13 (Master)13

RabbitMQ13 Message13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  Informa8on13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg

Asynchrone Auswertung

bull  Im Cluster aus Performancegruumlndenbull  Hadoop - de facto Standard

ndash Eigenes verteiltes Dateisystemndash MapReduce

bull  Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul

[Abb13 2]13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[HAD113 CUG1]13 13

Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg

Clustering

bull  Grundlage fuumlr Anomalieerkennung

bull  Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[Abb13 3113 3213 33]13

[CLE1]13 13

Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg

Anomalie-Erkennung mit Hadoop

bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo

bull  Skalierbare Anomalie-Erkennungbull  Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  InformaHon13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg

Information Flow Processing

bull  Keine Speicherungbull  Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen

bull  Complex Event Processing (CEP)ndash  Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[CUG113 ZHA1]13 13

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 11: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg

Missbrauchserkennung

BadApp13 13

GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Andere13 Parameter13

Moumlgliche13 Verdachtsfaumllle13

PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo

Bisher13 ungenutzte13 Resources13

Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113

GET v1usersme 213

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

ERKENNUNGSMETRIKEN

bull  Missbrauchserkennung13 bull  FehlerpraumlvenHon13 bull  Technische13 Gegebenheiten13

Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg

Fehler Praumlvention

bull  Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck

bull  Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos

bull  Vorteilendash Server-Fehler fruumlhzeitig erkennen

bull  haumlufig Sicherheitsrelevantbull  fruumlhzeitige Berichtigung experimenteller Features

ndash Detaillierte Fehleranalyse Tools fuumlr consumer

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg

Technische Gegebenheiten

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

xws-shy‐1413

xws-shy‐1513

xws-shy‐1613

MusterApp13

duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX

API13 Server13

Analyse13 Server13 (Master)13

RabbitMQ13 Message13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  Informa8on13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg

Asynchrone Auswertung

bull  Im Cluster aus Performancegruumlndenbull  Hadoop - de facto Standard

ndash Eigenes verteiltes Dateisystemndash MapReduce

bull  Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul

[Abb13 2]13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[HAD113 CUG1]13 13

Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg

Clustering

bull  Grundlage fuumlr Anomalieerkennung

bull  Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[Abb13 3113 3213 33]13

[CLE1]13 13

Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg

Anomalie-Erkennung mit Hadoop

bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo

bull  Skalierbare Anomalie-Erkennungbull  Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  InformaHon13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg

Information Flow Processing

bull  Keine Speicherungbull  Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen

bull  Complex Event Processing (CEP)ndash  Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[CUG113 ZHA1]13 13

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 12: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

ERKENNUNGSMETRIKEN

bull  Missbrauchserkennung13 bull  FehlerpraumlvenHon13 bull  Technische13 Gegebenheiten13

Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg

Fehler Praumlvention

bull  Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck

bull  Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos

bull  Vorteilendash Server-Fehler fruumlhzeitig erkennen

bull  haumlufig Sicherheitsrelevantbull  fruumlhzeitige Berichtigung experimenteller Features

ndash Detaillierte Fehleranalyse Tools fuumlr consumer

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg

Technische Gegebenheiten

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

xws-shy‐1413

xws-shy‐1513

xws-shy‐1613

MusterApp13

duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX

API13 Server13

Analyse13 Server13 (Master)13

RabbitMQ13 Message13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  Informa8on13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg

Asynchrone Auswertung

bull  Im Cluster aus Performancegruumlndenbull  Hadoop - de facto Standard

ndash Eigenes verteiltes Dateisystemndash MapReduce

bull  Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul

[Abb13 2]13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[HAD113 CUG1]13 13

Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg

Clustering

bull  Grundlage fuumlr Anomalieerkennung

bull  Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[Abb13 3113 3213 33]13

[CLE1]13 13

Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg

Anomalie-Erkennung mit Hadoop

bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo

bull  Skalierbare Anomalie-Erkennungbull  Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  InformaHon13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg

Information Flow Processing

bull  Keine Speicherungbull  Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen

bull  Complex Event Processing (CEP)ndash  Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[CUG113 ZHA1]13 13

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 13: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg

Fehler Praumlvention

bull  Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck

bull  Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos

bull  Vorteilendash Server-Fehler fruumlhzeitig erkennen

bull  haumlufig Sicherheitsrelevantbull  fruumlhzeitige Berichtigung experimenteller Features

ndash Detaillierte Fehleranalyse Tools fuumlr consumer

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg

Technische Gegebenheiten

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

xws-shy‐1413

xws-shy‐1513

xws-shy‐1613

MusterApp13

duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX

API13 Server13

Analyse13 Server13 (Master)13

RabbitMQ13 Message13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  Informa8on13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg

Asynchrone Auswertung

bull  Im Cluster aus Performancegruumlndenbull  Hadoop - de facto Standard

ndash Eigenes verteiltes Dateisystemndash MapReduce

bull  Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul

[Abb13 2]13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[HAD113 CUG1]13 13

Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg

Clustering

bull  Grundlage fuumlr Anomalieerkennung

bull  Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[Abb13 3113 3213 33]13

[CLE1]13 13

Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg

Anomalie-Erkennung mit Hadoop

bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo

bull  Skalierbare Anomalie-Erkennungbull  Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  InformaHon13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg

Information Flow Processing

bull  Keine Speicherungbull  Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen

bull  Complex Event Processing (CEP)ndash  Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[CUG113 ZHA1]13 13

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 14: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg

Technische Gegebenheiten

GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo

xws-shy‐1413

xws-shy‐1513

xws-shy‐1613

MusterApp13

duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX

API13 Server13

Analyse13 Server13 (Master)13

RabbitMQ13 Message13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  Informa8on13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg

Asynchrone Auswertung

bull  Im Cluster aus Performancegruumlndenbull  Hadoop - de facto Standard

ndash Eigenes verteiltes Dateisystemndash MapReduce

bull  Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul

[Abb13 2]13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[HAD113 CUG1]13 13

Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg

Clustering

bull  Grundlage fuumlr Anomalieerkennung

bull  Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[Abb13 3113 3213 33]13

[CLE1]13 13

Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg

Anomalie-Erkennung mit Hadoop

bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo

bull  Skalierbare Anomalie-Erkennungbull  Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  InformaHon13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg

Information Flow Processing

bull  Keine Speicherungbull  Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen

bull  Complex Event Processing (CEP)ndash  Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[CUG113 ZHA1]13 13

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 15: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  Informa8on13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg

Asynchrone Auswertung

bull  Im Cluster aus Performancegruumlndenbull  Hadoop - de facto Standard

ndash Eigenes verteiltes Dateisystemndash MapReduce

bull  Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul

[Abb13 2]13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[HAD113 CUG1]13 13

Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg

Clustering

bull  Grundlage fuumlr Anomalieerkennung

bull  Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[Abb13 3113 3213 33]13

[CLE1]13 13

Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg

Anomalie-Erkennung mit Hadoop

bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo

bull  Skalierbare Anomalie-Erkennungbull  Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  InformaHon13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg

Information Flow Processing

bull  Keine Speicherungbull  Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen

bull  Complex Event Processing (CEP)ndash  Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[CUG113 ZHA1]13 13

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 16: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg

Asynchrone Auswertung

bull  Im Cluster aus Performancegruumlndenbull  Hadoop - de facto Standard

ndash Eigenes verteiltes Dateisystemndash MapReduce

bull  Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul

[Abb13 2]13

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[HAD113 CUG1]13 13

Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg

Clustering

bull  Grundlage fuumlr Anomalieerkennung

bull  Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[Abb13 3113 3213 33]13

[CLE1]13 13

Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg

Anomalie-Erkennung mit Hadoop

bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo

bull  Skalierbare Anomalie-Erkennungbull  Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  InformaHon13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg

Information Flow Processing

bull  Keine Speicherungbull  Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen

bull  Complex Event Processing (CEP)ndash  Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[CUG113 ZHA1]13 13

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 17: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg

Clustering

bull  Grundlage fuumlr Anomalieerkennung

bull  Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[Abb13 3113 3213 33]13

[CLE1]13 13

Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg

Anomalie-Erkennung mit Hadoop

bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo

bull  Skalierbare Anomalie-Erkennungbull  Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  InformaHon13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg

Information Flow Processing

bull  Keine Speicherungbull  Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen

bull  Complex Event Processing (CEP)ndash  Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[CUG113 ZHA1]13 13

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 18: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg

Anomalie-Erkennung mit Hadoop

bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo

bull  Skalierbare Anomalie-Erkennungbull  Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  InformaHon13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg

Information Flow Processing

bull  Keine Speicherungbull  Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen

bull  Complex Event Processing (CEP)ndash  Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[CUG113 ZHA1]13 13

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 19: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

LOumlSUNGSSTRATEGIEN

bull  Asynchrone13 Auswertung13 13 bull  InformaHon13 Flow13 Processing13 13

Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg

Information Flow Processing

bull  Keine Speicherungbull  Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen

bull  Complex Event Processing (CEP)ndash  Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[CUG113 ZHA1]13 13

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 20: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg

Information Flow Processing

bull  Keine Speicherungbull  Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen

bull  Complex Event Processing (CEP)ndash  Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[CUG113 ZHA1]13 13

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 21: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg

Vergleich IFP Frameworks

bdquoProcessing flows of information From data stream to complex event processingldquobull  Gegenuumlberstellung DSP CEPbull  35 Sprachen bzw Frameworks untersuchtbull  Betrachtet ndash Verteilung Benachrichtigung Zeitmodell

Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull  Hadoop + CEP =gt Stormbull  Stream Daten angereichert mit persistenten

Daten

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

[BUM113 CUG113 DIA1]13 13

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 22: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

ZIELE UND AUSBLICK

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 23: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg

Ziele und Ausblick

bull  Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit

Testdatenbull  Generator fuumlr Testdaten

ndash Vergleich versch Algorithmenbull  Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie

Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 24: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

Vielen Dank

Vielen Dank Fragen [Abb13 4]13

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 25: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg

Quellen

bull  XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]

bull  XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]

bull  XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]

bull  HAD1 httphadoopapacheorgbull  CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From

data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull  ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization

of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA

bull  DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst

bull  BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA

bull  YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA

bull  CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview

Page 26: API Monitoring mit Predictive Analyticsubicomp/projekte/master14-15... · API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar,

Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg

Abbildungen

bull  Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat

bull  Abbildung 2 Folie 16 Hadoop httphadoopapacheorg

bull  Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html

bull  Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml

bull  Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html

bull  Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview