25
Auswertung von Auswertung von Web-Server- Web-Server- Zugriffen: Zugriffen: Mechanismen und Mechanismen und Vergleich von Lösungen Vergleich von Lösungen Alexander Maier

Auswertung von Web- Server-Zugriffen: Mechanismen und Vergleich von Lösungen Alexander Maier

Embed Size (px)

Citation preview

Auswertung von Web-Auswertung von Web-Server-Zugriffen:Server-Zugriffen:

Mechanismen und Vergleich von Mechanismen und Vergleich von

LösungenLösungen

Alexander Maier

InhaltInhalt

• Web Analyse allgemein und Begriffsabgrenzung

• Web Content Mining• Web Usage Mining• Die sieben Phasen des Web log Mining• Fazit und Ausblick• Beispielprogramm

Web Mining allgemeinWeb Mining allgemein

• besteht aus Ansätzen des Data Minings

• befasst sich mit der Auswertung von Daten die sich im und durch das WWW angesammelt haben

• Lässt sich in Web Usage Mining und Web Content Mining unterteilen

BegriffsabgrenzungBegriffsabgrenzung

Web Content MiningWeb Content Mining

• Analyse von im Netz befindichen Daten (Text- und Mutimedia-Daten)

• Ziel: Einteilung der Daten in thematisch zusammengehörige Bereiche

• Algorithmen zur automatischen Klassifikation (z.B. Clusteranalyse)

• Einsatz besonders bei Crawler/Spider Suchmaschinen

Web Usage MiningWeb Usage Mining

Web Log Mining• Analyse von Protokolldaten eines WWW-Server

Integrated Web Usage Mining• Konsumentenbezogene Daten werden mit Protokolldaten zusammengeführt• Durch TDDSG sind enge Grenzen gesetzt

Web Analyse

Die sieben Phasen der Web AnalyseDie sieben Phasen der Web Analyse

1. Phase - Datengenerierung1. Phase - Datengenerierung

• spezielle Protokolldaten des WWW-Servers

• Daten sind vom verwendeten WWW-Server abhängig

• kein Eingreifen auf die Datenerstellung von Seiten des Anwenders

• Protokolldaten von mehreren Servern sind möglich (MSWLM)

2. Phase – Selektion und Extraktion 2. Phase – Selektion und Extraktion

• Einträge und Attribute der Protokolldatei werden in einen Zieldatenbestand überführt

• irrelevante Einträge sind zu filtern

z.B Bilddateien

z.B fehlende Seiten

z.B Post - Einträge

2. Phase – Extraktion 2. Phase – Extraktion

• Zusammengesetzte Attribute im Logfile müssen extrahiert werden

Beispiel eines Common Log File Format (CLF-Format)

3. Phase - Vorbereitung &Transformation3. Phase - Vorbereitung &Transformation

Bereinigung:

• Anmelde- und Authentifizierungskennung können in Protokolldaten fehlen

• Datenbestände mit fehlenden Werten sollten nicht gelöscht werden Verfälschung des Datenbestandes

• Ersetzungsstrategien für die fehlenden Daten sind nicht sinnvoll

• Datenbestand kann noch zur Mustererkennung verwendet werden

3. Phase - Vorbereitung &Transformation3. Phase - Vorbereitung &Transformation

Transaktionsableitung:

• Http ist ein verbindungsloses Protokoll• Keine Identifikation von Benutzersitzungen• ein virtueller Kundenbesuch muss simuliert werden

Mögliche Alternativen• Cookies kann aber gelöscht oder abgelehnt werden• Anmeldung wird von vielen als zu lästig empfunden

Transaktionsableitung 2:

Transaktionsabgrenzung auf der Basis der Browserdaten und der zeitlichen Abgrenzung durch Δtkrit 30 Min

3. Phase - Vorbereitung &Transformation3. Phase - Vorbereitung &Transformation

Transaktionsableitung 3:

Pfadanalytische Transaktionsabgrenzung: mit Hilfe des Referenten

3. Phase - Vorbereitung &Transformation3. Phase - Vorbereitung &Transformation

4. Phase - Mustererkennung4. Phase - Mustererkennung

• Assoziationsanalyse• Verbundbeziehungen zw. html-Seiten z.B. A.html B.html0,9;0,2

sagt aber nichts über die Reihenfolge der Seitenaufrufe

• Sequenzanalyse / Pfadanalyse• Erfassung von Navigationspfaden: A.htmlB.htmlC.htmlB.htmlE.html

• Clusteranalyse• Zuordnung von ungeordneten Transaktionen zu möglichst

homogenen Gruppen. (Strategisches Marketing Meffert)

• Entscheidungsbauminduktion• Klassifikation von Transaktionen nach einem bestimmten Kriterium

z.B der Verweildauer (abgeleitete Interaktionsdaten)

4. Phase - Mustererkennung4. Phase - Mustererkennung

Assoziationsanalyse

• Welche Seiten wurden in einer Session zusammen besucht?• Assoziationsanalye• Erzeugt Regeln der Form

• Die gefundenen Regeln geben Aufschluß darüber, wie sich die jeweiligen Seiten ergänzen

• Umgestaltung der Website denkbar, so dass von Seite A auf Seite B und umgekehrt verwiesen wird...

4. Phase - Mustererkennung4. Phase - Mustererkennung

Sequenzanalyse• Clickstreams der Besucher

• Die Assoziationsanalye sagt nichts über die Reihenfolge der Seitenabrufe aus, dazu die:

• Sequenzanalyse (hier Pfadanalyse)• Finden von Regeln für nacheinander besuchte Seiten mit

Häufigkeit

• Gewinnen von Erkenntnissen über die Reihenfolge der Informationssuche von Besuchern ( Siteoptimierung!)

A.html D.html F.html B.html0,05

A E

BF

C

DG

4. Phase - Mustererkennung4. Phase - Mustererkennung

Clusteranalyse:

• Reine Logdaten bieten nur Pfade, Verweildauer und technische Details (wie Browsertyp) als Merkmale an

• Sinnvoll daher bei Logdaten von registrierten Benutzern mit Personeninformationen

• Anreicherung durch Personendaten• Mit Hilfe der Clusteranalyse und angereicherten Logdaten lassen sich

also Angaben über die Art der Besucher der Website machen• Denkbar: „Automatische Personalisierung“, um Besuchern des

gleichen Clusters ähnliche Informationen anzubieten!

4. Phase - Mustererkennung4. Phase - Mustererkennung

Entscheidungsbäume

• Online-Shop: Unterscheidung zwischen Käufern und Nichtkäufern?• Entscheidungsbäume• Hier Segmentierung der um Personen-daten

angereicherten Logdaten, um Käufer von Nicht-Käufern zu unterscheiden

• Ableiten von Regeln zur Vorhersage des Kaufverhaltens von Besuchern

5. Phase - Evaluation5. Phase - Evaluation

• Abgleich der entdeckten Muster und der Hypothesenbank mit Hilfe der Objektähnlichkeitssuche

• Mögliche Muster sind:• Assoziations- und Pfadregeln• Entscheidungsbäume• Clusteranalysen

6. Phase - Präsentation 6. Phase - Präsentation

A.html

D.html F.htmlE.html

C.htmlB.html 0,4

0,6

z.B. grafische Darstellung von Pfadmustern

Assoziationsregeln können dargestellt werden als:• Balkendiagramm• Gerichtete Grafen• Pfadmuster

7. Phase - Interpretation7. Phase - Interpretation

• Voraussetzung ist ein hohes Domänenwissen über Inhalt und Struktur der Marktapplikation

• Ohne Wissen ist eine sinnvolle Interpretation von Mustern nicht möglich

FazitFazit

„Web Log Mining“ ist kein Modewort sondern ein aus wirtschaftlichen Erfordernissen entstandenes Verfahren zur Analyse von Verbindungsdaten, das Anwendung findet und immer mehr finden wird.

AusblickAusblick

• Für große Sites ist Web Log Mining unerläßlich, um

• Bannerwerbung optimal zu platzieren

• Personalisierung zu ermöglichen und so vermutlich den Umsatz zu steigern

Das war´s – Noch Fragen ?Das war´s – Noch Fragen ?