View
111
Download
1
Category
Preview:
Citation preview
Web MiningWeb Mining
22
InhaltsverzeichnisInhaltsverzeichnis
1. Was ist Web Mining – Theoretische Einführung
2. Tools
3. Anwendungsbeispiele
33
Was ist Web Mining – Theoretische Was ist Web Mining – Theoretische EinführungEinführung
1. Einleitung2. Web Mining Strategien3. Informationsbedarf im E-Business4. Informationsgewinnung durch Web
Mining5. Richtungen des Web Mining6. Web Mining Methoden7. Web Mining-Prozess
44
EinleitungEinleitung
Web = Datenbank
Structure
Content
Logs
Leider versteht das Internet kein SQL
55
Einleitung (1)Einleitung (1)
• Web Mining ist Anwendung von Data Mining Methoden auf Datenstrukturen des Internet
• Analyse von Online-Kundeninformationen hat wichtige Bedeutung
• Wissen über Kunden und deren Bedürfnisse
• Erkenntnisse über Gestaltung von Internetauftritten
• Personalisierung von Seiteninhalten
• Kaufwahrscheinlichkeiten
• Identifizierung von Bewegungspfaden und Kaufmuster
66
Einleitung (2)Einleitung (2)
77
Web Mining StrategienWeb Mining Strategien
• Verstehen, was die Besucher wollen
• Vorhersagen, wie sie sich verhalten sollen
• In Echtzeit anwenden, was man über die Kunden weiss
88
Informationsbedarf im E-Business (1)Informationsbedarf im E-Business (1)
• Trotz riesigen Investitionen wurden Erwartungen nicht erfüllt
• Viele gescheiterte Online Projekte
• Zahl der Internetteilnehmer steigt noch immer an, aber nur der Traffic bedeutet kein Erfolg massgebend ist eher die Intensität der Kundenbeziehung
• Nur Bruchteil der Kunden sind Wiederholungskäufer
• Grosse Kosten für Neugewinnung von Kunden (150 – 300$)
99
Informationsbedarf im E-Business (2)Informationsbedarf im E-Business (2)
• Unternehmen versuchen Kundenbeziehungen im Internet zu intensivieren CRM (Customer Relationship Management)
• Grundlage für erfolgreiches Management der Kundenbeziehung ist das Wissen über die Kunden und ihre Bedürfnisse
• Grundsätzlich haben Betreiber von Internetangeboten nur wenige Informationen über Online Besucher und die Wirkung ihres Internetauftrittes
• Es stellen sich aus diesen Gründen interessante Fragen:
1010
Informationsbedarf im E-Business (3)Informationsbedarf im E-Business (3)Fragen über FragenFragen über Fragen
• Zusammensetzung der Besucher– Wie viele Besucher erhält meine Seite? Woher kommen sie? Wie
lange bleiben sie?
– Wie sehen die typischen Bewegungspfade aus? Wie lassen sich diese Verbessern?
– An welcher Stelle verlassen die Besucher meine Seite und warum? Welche Profile haben meine wichtigsten Kundensegmente
• Wirkung von Online Werbung– Welche Werbebanner erwecken das meiste Interesse bzw. führen zu
Käufen?
– An welche Stelle sollen die Banner platziert werden? Welche Partner generieren die meisten Besucher?
– Wie lange bleiben die Besucher und wie viele kaufen etwas?
1111
Informationsbedarf im E-Business (4)Informationsbedarf im E-Business (4) Fragen über Fragen Fragen über Fragen
• Bewertung der Seiteninhalte– Für welche Inhalte interessieren sich die einzelne
Kundensegmente?– Welche Inhalte werden weniger beachtet und warum?– Wie lässt sich eine Personalisierung der Inhalte
erreichen/verbessern?
• Online-Kaufverhalten der Besucher– Wie unterscheiden sich Besucher von Käufern? – Was machen die Besucher bevor sie etwas einkaufen?– Welches Verhalten auf der Site lässt auf Wiederholungskäufe
schliessen?
1212
Informationsgewinnung durch Web Informationsgewinnung durch Web Mining (1)Mining (1)
Es gibt verschiedene Möglichkeiten Wissen über die Nutzung und die Nutzer der Webseiten zu generieren
• In erster Linie werden deskriptive Statistiken (Logfile-Analyse) erstellt.
• Diese liefern erste wichtige Anhaltspunkte zur Nutzung der Site – liefern aber keine Informationen zur individuellen Verhaltensweise und Interessen der Online-Nutzer.
• Insbesondere sind diese nicht in der Lage Muster in den Nutzungsdaten aufzufinden
• Aber gerade die Muster sind von hoher Bedeutung für die Informationsgewinnung!
1313
Informationsgewinnung durch Web Informationsgewinnung durch Web Mining (2)Mining (2)
• Es müssen automatische Mustererkennungsverfahren (Data Mining) angewendet werden um aus den Daten Informationen über die Besucher einer Web Site zu gewinnen
• Zur Unterstützung derartiger Analysen gibt es verschiedenartige Softwarelösungen. Anfänglich waren diese nur für die deskriptive Analyse von Logdateien geeignet
• Heute existieren Datamining Toos die spezielle Funktionalitäten für Web-Mining besitzten.
1414
Richtungen des Web Mining (1)Richtungen des Web Mining (1)
• Web Mining bezeichnet die allgemeine Anwendung von Verfahren des Data Mining auf Datenstrukturen des Internet
WebWeb MiningMining
Web Content Web Content MiningMining
Web Structure Web Structure MiningMining
Web UsageWeb Usage MiningMining
Web Log Web Log MiningMining
Integrated WebIntegrated Web Usage MiningUsage Mining
1515
Richtungen des Web Mining (2) Richtungen des Web Mining (2) Web Content MiningWeb Content Mining
• Befasst sich mit der Analyse des Inhaltes von Webseiten und kann diese klassifizieren
• Seiten können damit für die weitere Analyse zu Gruppen zusammengefasst werden
• Zielsetzung: – Erleichterung der Suche nach Informationen im Netz
• Aufgabe: – Klassifizierung und Gruppierung von Online-Dokumenten– Auffindung von Dokumenten nach bestimmten Suchbegriffe
• Kommen insbesondere Verfahren des Text Mining zum Einsatz
1616
Richtungen des Web Mining (3) Richtungen des Web Mining (3) Web Structure MiningWeb Structure Mining
• Untersucht die Anordnung einzelner Elemente innerhalb einer Webseite
• Untersucht die Anordnung verschiedener Seiten zueinander
• Interessant sind Verweise von einer Webseite auf andere, häufig inhaltlich verwandte Webseiten, mit Hilfe von Hyperlinks
• Hilft Überblick über Sitestruktur und die Anordnung der einzelnen Seiten zueinander zu gewinnen, um auf dieser Basis das Bewegungsverhalten der Nutzer im Netz nachvollziehen zu können
1717
Richtungen des Web Mining (4) Richtungen des Web Mining (4) Web Usage MiningWeb Usage Mining
• Beschäftigt sich mit dem Verhalten von Internet-Nutzern
• Es werden Data Mining Methoden auf die Logfiles des Webservers angewendet.
• Ergibt Aufschlüsse über Verhaltensmuster und Interessen von Online Kunden
• Web Log Mining Analyse beschränkt sich auf Analyse des Logfiles
• Integrated Web Usage Mining es werden noch weitere Daten wie Registrierungsdaten, Kaufhistorie etc. verwendet
1818
Richtungen des Web Mining (5) Richtungen des Web Mining (5) Probleme mit Web Server Logs / EreignisseProbleme mit Web Server Logs / Ereignisse
• Aktionen des Servers und nicht des Besuchers• IP Adressen sind (noch) nicht einzigartig• Seite besteht oft aus mehreren Objekten mehrere Zugriffe
Logs müssen bearbeitet werden
Wichtige Ereignisse die für Web Mining wichtig sind:• Erstbesuch• Anschauen von Produktinformationen• Registrierungen müssen clever gemacht sein• Downloads• Suchabfragen• Sachen in Einkaufswagen legen• Seite verlassen
1919
Webminig Techniken (1)Webminig Techniken (1)
• Clustern / Segmentierung– Unterschiedliche Gruppe von Kunden und Besuchern
• Warenkorbanalyse– Assoziationen zwischen Produkten und Dienstleistungen
• Sequenzanalysen– Pfade, Muster über Zeit, Bestellung
• Klassifikation und Vorhersage– Spezielle Verhaltensmuster, Profile
2020
Webminig Techniken (2)Webminig Techniken (2)Clustern / SegmentierungClustern / Segmentierung
Identifikation grundlegender Kundenbedürfnisse
• Clusteranalyse, Neuronale Netze• Identifikaton von Kunden mit ähnlichem Verhalten
– Modellierung der besten Kunden nach Lifetime, Value, Profitabilität und Kaufverhalten
– Wer kündigt bzw. kauft nicht mehr und warum
• Entwicklung von Key-Content• Effektivere Positionierung des Contents
2121
Webminig Techniken (3)Webminig Techniken (3)WarenkorbanalyseWarenkorbanalyse
Effektiveres Cross-Selling
• Analyse spezieller Zusammenhänge zwischen Produkten und Dienstleistungen (zB. Notebook und Garantieverlängerung)
• Aufdecken von Trends und Beziehungen zwischen Webseiten und Produkten
• Empfehlung der Produkte, die am wahrscheinlichsten gekauft werden (zB. Bei Amazon)
2222
Webminig Techniken (4)Webminig Techniken (4)SequenzanalysenSequenzanalysen
Den richtigen Content zur richtigen Zeit anbieten
• Eine der häufigsten Frage im Web Mining: Welche Seiten werden in welcher Reihenfolge besucht?
• Modellieren, in welche Produkte und Dienstleistungen in einer Sequenz erworben werden.
• Welche Sequenzen führen zum Kaufabbruch?• Welche Sequenzen sind typisch für Hacker oder für
betrügerisches Verhalten (Schwachstellen erkennen)
2323
Webminig Techniken (5)Webminig Techniken (5)Klassifikation und VorhersageKlassifikation und Vorhersage
Profitabilität durch Personalisierung
• Entscheidungsbaum, künstliche Neuronale Netze• Erforschen komplexes Kaufverhalten• Wie wahrscheinlich ist es, dass eine Person:
– Antwortet– Kauft– Mehr ausgibt– Nicht mehr kauft
• Voraussagen von Verhalten proaktives Handeln!
2424
Web Mining-Prozess (1)Web Mining-Prozess (1)
Aufgaben-Aufgaben-definitiondefinition
Daten-Daten-AuswahlAuswahl
Muster-Muster-SucheSuche
Interpretation undInterpretation undUmsetzungUmsetzung
Daten-Daten-AufbereitungAufbereitung
Daten-Daten-IntegrationIntegration
2525
Web Mining-Prozess (2)Web Mining-Prozess (2)
• AufgabendefinitionAufgabendefinition– Wichtig ist, dass zuerst genau spezifiziert wirdWichtig ist, dass zuerst genau spezifiziert wird
• DatenauswahlDatenauswahl– Erhebung der InternetnutzungsdatenErhebung der Internetnutzungsdaten– Ev. weitere KundendatenEv. weitere Kundendaten– zB. Logfiles, Cookies, Server-, Networkmonitor/SnifferzB. Logfiles, Cookies, Server-, Networkmonitor/Sniffer– DatenschutzDatenschutz
• DatenaufbereitungDatenaufbereitung– PreprocessingPreprocessing– Identifikation von Seitenaufrufen (Frames)Identifikation von Seitenaufrufen (Frames)– Identifikation von BesuchernIdentifikation von Besuchern– Identifikation von SessionsIdentifikation von Sessions
2626
Web Mining-Prozess (3)Web Mining-Prozess (3)
• DatenintegrationDatenintegration– Einbeziehen von Zusatzinformationen zB. Benutzerdaten, Einbeziehen von Zusatzinformationen zB. Benutzerdaten,
Kundenstammdaten, Transaktionsdaten etc.Kundenstammdaten, Transaktionsdaten etc.– Datenschutz!Datenschutz!
• MustersucheMustersuche– Anwendung der Data Mining MethodenAnwendung der Data Mining Methoden
• Interpretation und UmsetzungInterpretation und Umsetzung– Webcontrolling Webcontrolling Verschiedene Kennzahlen Verschiedene Kennzahlen– Website OptimierungWebsite Optimierung– Personalisierung von WebseitenPersonalisierung von Webseiten
2727
Web Mining Software und Dienstleistungen im Vergleich
• Typische Fragestellungen der Betreiber• Produktekategorien• Analog• SAS
– WebHound– Enterprise Miner– Data Warehousing
• SPSS– Clementine
• Tools im Einsatz• Bewertung
2828
Arten des Web Mining
Dieser Vergleich behandelt das Web Usage Mining. Also das Auswerten von Web Server Log Files, um Bewegungen der Benutzer, auf einer Web Site, zu analysieren.
WebWeb MiningMining
Web Content Web Content MiningMining
Web Structure Web Structure MiningMining
Web UsageWeb Usage MiningMining
Web Log Web Log MiningMining
Integrated WebIntegrated Web Usage MiningUsage Mining
2929
Typische Fragestellungen der Web-Site Betreiber
• Log File Statistik
• Erweiterung um einfache Analyse
• Genaue Analyse der Benutzer
3030
Log File StatistikLog File Statistik
· Welche Seiten sind besonders beliebt/attraktiv? · Woher kommen die User (Länder/Regionen)? · Wann kommen die User? · Welcher Browser, welches Betriebssystem wird
verwendet? · Von welcher Web-Site kommen die User auf die Site
(Suchmaschine, Werbung, Konkurrenz)?· Wie gut ist die Performance meines Web-Servers? · Welche Suchwörter führen, über welche Suchmaschinen,
auf meine Seite?
3131
Erweiterung um einfache AnalyseErweiterung um einfache Analyse
· Welche Seiten haben welche Verweildauer (stickiness)? · Welche Seiten führen zum Verlassen der Site (Exit-
Pages)? · Welche Seiten sind beliebt, welche sollten entfernt
werden? · Wer kommt auf meine Seite? · Wie ist die Wirtschaftlichkeit der Seite? · Welche meiner Banner sind die profitabelsten? · Wie wirken meine Kampagnen? (Z.B. Banner-Werbung
bei einem Web-Portal) · Wie wirken sich Veränderungen der Web-Site aus?
3232
Genaue Analyse der BenutzerGenaue Analyse der Benutzer
· Was für ein Profil haben User die bei mir einkaufen?
· Welchen Pfad durch die Seiten nehmen Besucher, die zum Kauf kommen?
· Haben die Kunden Probleme beim Abschluss des Kaufs?
3333
Produktkategorien
Unter dem Begriff Web Mining Software werden eine Reihe verschiedenartiger Produkte angeboten.
Grob lassen sie sich wie folgt unterteilen:
· Web-Traffic Analyse-Programme
· Programme mit zusätzlicher Data Mining Funktionalität
3434
ProdukteübersichtProdukteübersicht
3535
AnalogAnalog
• Analog gehört zu den ältesten Log File Analysern.
• Das Programm erzeugt keine Besucher und Session Statistiken.
• Bedienung und Installation lassen sich mit guten IT Kenntnissen problemlos meistern.
• Analog ist frei erhältlich.
3636
AnalogAnalog
3737
SASSAS
• Besteht aus mehreren Komponenten:– WebHound– Enterprise Miner– Data Warehousing
3838
SAS WebHoundSAS WebHound
• Der SAS WebHound ist der neueste Bestandteil von SAS eIntelligence.
• WebHound ist für das Einlesen von Web Log Files ins Data Warehouse verantwortlich.
• Er stellt außerdem eine umfangreiche Reporting-Funktion zur Verfügung.
• Für das eigentliche Data Mining wird der SAS Enterprise Miner benötigt.
• Der WebHound ist auch als stand alone Produkt erhältlich (mit SAS Base und anderen nötigen Paketen).
• Angesichts des Preises, ist er allerdings wohl nur in einer SAS Umgebung sinnvoll.
3939
SAS WebHoundSAS WebHound
• Einlese Prozess der Log Dateien kann parallelisiert werden.
• Explizit für grosse Datenmengen ausgelegt.• Auf Wunsch können nur relevante Daten aus
den Log Dateien extrahiert werden.
4040
SAS Enterprise MinerSAS Enterprise Miner
• Enterprise Miner ist das eigentliche Data Mining Tool der SAS
• Beinhaltet:– SEMMA, eigenes verfahren für die Data Mining
Anwendung– Nahtlose Integration von Data Warehousing und
Reporting Funktionalitäten– Daten Visualisierung, Untersuchung und
Bearbeitung.
4141
SAS Data WarehousingSAS Data Warehousing
• Data Warehousing bietet:– Daten Gewinnung
• Transparenter Zugriff mittels ERP Systemen, hierarchischen oder relationalen Datenbanken.
– Daten Zugriff• Zugriff auf alle Funktionen per Programmiersprache
möglich (Java/C++)
– Daten Aufbewahrung• SAS Tabellen• Scalable Performance Data Server (SPDS)• hierarchische oder relationale Datenbanken.
4242
Enterprise MinerEnterprise Miner
4343
Clementine von SPSSClementine von SPSS
• Clementine stammt ursprünglich von der Firma ISL. Diese wurde 1998 von SPSS aufgekauft.
• Clementine ist neben SAS sicherlich eines der großen Standard Tools für Data Mining.
• Beide wurden um Web Mining Funktionen erweitert.
• Die Web Mining Funktionen werden durch das „Application Template Web Mining“ (WebCAT) zur Verfügung gestellt.
4444
Clementine von SPSSClementine von SPSS
• Die Version 6 bedient sich immer noch der bewährten X-Window Umgebung unter Exceed kein Windows Client
• Bedienung geht nach einem Workflow Prinzip, ähnlich wie bei SAS
4545
ClementineClementine
4646
Bewertung Bewertung (Stand Ende 2001)(Stand Ende 2001)
4747
Web Mining Tools Web Mining Tools im Einsatzim Einsatz
4848
Web Mining mit WUMWeb Mining mit WUM
• Was ist WUM?
• Einsatz von WUM
• Demo
4949
Web Utilization Mining - WUMWeb Utilization Mining - WUM
• Analyse der Web-Nutzung:– Aufbereitung des Web-Server-Logs– Einsetzen der Data-Mining-Software– Eine Methodik der Analyse– Erfolgskontrolle für kommerzielle Web-Sites die mit
WUM angewendet wird, um den Erfolg einer Web-Site zu messen und zu erhöhen
5050
Web Utilization MiningWeb Utilization Mining
• Die Muster des Nutzerverhaltens werden anhand einer informationsreichen Graphstruktur dargestellt, die konventionelle Sequenzen generalisiert, aber nicht durch Sequenz-Mining zu ermitteln ist.
• Eine ausdrucksstarke Mining-Anfragesprache unterstützt die Spezifizierung von statistischen und strukturellen Einschränkungen, um den Prozess der Musterentdeckung zu steuern.
5151
Was ist WUM? (1)Was ist WUM? (1)
• WUM : A Web Utilization Miner– „sequence miner“– analysiert das Verhalten von Besuchern einer
Website durch Sequenzanalyse• Analyse des Surfverhaltens anhand der Reihenfolge der
angegangenen Seiten
– auch für Sequence Pattern Discovery in jeglicher Art von Logfiles
5252
Was ist WUM? (2)Was ist WUM? (2)
• Web Mining Tool zur Entdeckung von Navigationsmustern
• Report-Funktionalität
• Mining Sprache MINT V1.2
5353
WUM ArchitekturWUM Architektur
• Datenaufbereitung
• Aggregated Log
• „Sequence Miner“
• Visualiser
5454
Einsatzgebiet von WUMEinsatzgebiet von WUM
WebWeb MiningMining
Web Content Web Content MiningMining
Web Structure Web Structure MiningMining
Web UsageWeb Usage MiningMining
Web Log Web Log MiningMining
Integrated WebIntegrated Web Usage MiningUsage MiningEinsatzgebiet von WUM:Einsatzgebiet von WUM:
Web Usage MiningWeb Usage Mining
5555
Einsatz von WUM (1)Einsatz von WUM (1)
• Datenaufbereitung– Log-Analyse– Session-Analyse
• Analyse:– Verhaltensmuster („behaviour patterns“) bestimmen durch
Analyse von Sequenzdaten– Ad-hoc Analyse: Query Analyzer
• Datenintegration und -Darstellung– Aggregate Log, tree
• Resultatsausgabe– Auswertungen
5656
Einsatz von WUM (2)Einsatz von WUM (2)
• Ausgangslage: Website– z.B. ein e-Shop
Aufgaben-Aufgaben-definitiondefinition
5757
Einsatz von WUM (3)Einsatz von WUM (3)
• Access Log wird eingelesen
Daten-Daten-AuswahlAuswahl
5858
Einsatz von WUM (4)Einsatz von WUM (4)
• Sessions werden definiert, innerhalb welcher das Surfverhalten nachvollziehbar sein soll
Daten-Daten-AufbereitungAufbereitung
5959
Einsatz von WUM (5)Einsatz von WUM (5)
• Das Log wird mit dem „Aggregated Log“ in zusammenhängender Form gebracht.
Daten-Daten-IntegrationIntegration
6060
Einsatz von WUM (6)Einsatz von WUM (6)Daten-Daten-
IntegrationIntegration
6161
Einsatz von WUM (7)Einsatz von WUM (7)Daten-Daten-
IntegrationIntegration
6262
Einsatz von WUM (8)Einsatz von WUM (8)
• Besucherverhaltenidentifizieren und veranschaulichen
Muster-Muster-SucheSuche
H.html = HomepageH.html = HomepageP.html = ProductsP.html = ProductsX.html = Product XX.html = Product XY.html = Product YY.html = Product YG.html = GameG.html = GameD.html = DiscountD.html = DiscountS.html = SearchS.html = SearchC.html = ContactC.html = ContactO.html = OrderO.html = Order
6363
Einsatz von WUM (9)Einsatz von WUM (9)
• WUM benutzt die Mining Sprache MINT (Mining Query Language)– SQL-ähnliche Sprache– es können auch direkte Queries
eingegeben werden:
select t from node as a b, template a * b as t where a.url = "X.html" and b.url = "Y.html"
Muster-Muster-SucheSuche
6464
Einsatz von WUM (10)Einsatz von WUM (10)Muster-Muster-SucheSuche
6565
Einsatz von WUM (11)Einsatz von WUM (11)
• Analyse +Visualisierung der Query-Resultate
Muster-Muster-SucheSuche
6666
Einsatz von WUM (12)Einsatz von WUM (12)
• Reports: Datenauswertung– Comprehensive Report– Web Site Pages Report
Interpretation undInterpretation undUmsetzungUmsetzung
6767
Einsatz von WUM (13)Einsatz von WUM (13)
• DatenauswertungInterpretation undInterpretation und
UmsetzungUmsetzung
6868
DemoDemo
It‘s showtime !!!It‘s showtime !!!
6969
QuellenQuellen
• Handbuch Web Mining von Hajo Hippner, Melanie Merzenich, Klaus D. Wilde
• Scripts Prof. Dr. Nouri, FH Solothurn
• Präsentation Dr. Daniel Schloeth SPSS (Schweiz) AG
• Vorträge Prof. Dr. Quafafou, IAAI
• Unterlagen der Firma SPSS und SAS
• Script der Universität Karlsruhe (TH)
• WUM-Website http://wum.wiwi.hu-berlin.de
2 Version2 VersionWeb MiningWeb Mining
• Theoretisches KonzeptTheoretisches Konzept
• Praktische AnwendungPraktische Anwendung
• DiskussionDiskussion
7171
InterviewInterview
• Interview mit einem Vertreter von Provantis
7272
Theorethisches KonzeptTheorethisches Konzept
• Was ist Web-Mining?
• Wofür braucht es Web-Mining?
• Wie sieht Web-Mining für Surfer aus?
• Wie sieht Web-Mining technisch aus?
• Welche Strategien gibt es?
• Welche Infos sammelt Web-Mining?
7373
Was ist Web-Mining?Was ist Web-Mining?
• Sammeln von Kunden-Infos via WWW
• Erfassen der Gewohnheiten und Bedürfnisse der potenziellen Kunden
• Ermittlen der Bewegungspfade der Kunden
• Erfassen der Interessen / Kaufbedürfnisse des Kunden
7474
Wofür braucht es Web-Mining?Wofür braucht es Web-Mining?
• Personifizierung des Auftritts– Begrüssung mit Namen– Speichern der letzten Einstellung usw.
• Angebot auf Kundenbedürfnisse ausrichten
• Kaufwahrscheinlichkeiten berechnen• Marketing-Anaylsen günstig durchführen
7575
Wie sieht Web-Mining für Surfer Wie sieht Web-Mining für Surfer aus?aus?
• Begrüssung mit persönlicher Anrede
• Letzter Besuch• Anzahl Beträge
im Forum• usw.
7676
Wie sieht Web-Mining technisch Wie sieht Web-Mining technisch aus?aus?
• 1000 ungefragte Küchlein
7777
Wie sieht Web-Mining technisch Wie sieht Web-Mining technisch aus?aus?
• Web-Mining sammelt Informationen über den Surfer
• In ein Cookie kann man schreiben was man will !!
• Niemand weiss was hier gespeichert wird
7878
Web-Mining StrategienWeb-Mining Strategien
• Welche Vorlieben hat der Surfer?
• Den Kunden optimal durch die Webseiten der Firma führen
• Dem Kunden genau das Anbieten was er möchte
7979
Welche Infos sammelt Welche Infos sammelt Web-Mining? (1)Web-Mining? (1)
• Der Besucher– Wie viele Besucher erhält meine Seite?– Woher kommen sie?– Wie lange bleiben sie? – Wie sehen die typischen Bewegungspfade
aus?– Wie lassen sich die Bewegungspfade
verbessern?
8080
Welche Infos sammelt Welche Infos sammelt Web-Mining? (2)Web-Mining? (2)
• Der Besucher– An welcher Stelle verlassen die Besucher
meine Seite?– Warum verlässt der Surfer meine Seite?– Welche Profile haben meine wichtigsten
Kundensegmente
8181
Welche Infos sammelt Welche Infos sammelt Web-Mining? (3)Web-Mining? (3)
• Online Werbung– Welche Werbebanner erwecken das meiste
Interesse?– Welche Werbung führt zu Käufen? – An welche Stelle sollen die Banner platziert
werden?– Wieviele Besucher kaufen etwas?
8282
Welche Infos sammelt Welche Infos sammelt Web-Mining? (4)Web-Mining? (4)
• Der Seiteninhalt– Für welche Inhalte interessiert sich der
Kunde?– Welche Inhalte werden weniger beachtet und
warum?– Wie lässt sich eine Personalisierung der
Inhalte erreichen/verbessern?
8383
Welche Infos sammelt Welche Infos sammelt Web-Mining? (5)Web-Mining? (5)
• Das Kaufverhalten– Wie unterscheiden sich Besucher von
Käufern? – Was machen die Besucher bevor sie etwas
einkaufen?– Welches Verhalten auf der Seite lässt auf
Wiederholungskäufe schliessen?
Web MiningWeb Mining• Web-Content-MiningWeb-Content-Mining
• Web-Structure-MiningWeb-Structure-Mining
• Web-Usage-MiningWeb-Usage-Mining
8585
Übersicht der MethodenÜbersicht der Methoden
Web-Mining
Web-Content-Mining
Web-Structure-Mining
Web-Usage-Mining
Untersucht Inhalte /Klassifiziert Seiten
Untersucht Strukturdes Aufbaus der
Webseiten
Untersucht wie dieWebseiten gebraucht
werden
8686
Web-Content-MiningWeb-Content-Mining
• Analysiert den Inhalt von Webseiten• Klassifiert diese Inhalte• Extrahiert die Dokumente und fügt diese in
neue Knowledge-Kataloge ein• Ermöglicht automatischen Tranfer /
Transformation von bestehender Information
8787
Web-Content-MiningWeb-Content-Mining
• Beispiel:– Redaktionell gepflegte Datenbanken können
mit Web-Content-Mining automatisch erweitert werden
– Datenbanken können automatisch auf dem neuesten Stand gehalten werden
8888
Web-Content-MiningWeb-Content-Mining
Seiten werdenin die Datenbank eingetragen
8989
Web-Structure-MiningWeb-Structure-Mining
• Es werden die Zusammenhänge innerhalb der Seiten eines Web-Auftritts untersucht
• Es werden die Zusammenhänge innerhalb der Elemente einer Seite untersucht
9090
Web-Structure-MiningWeb-Structure-Mining
• Beispiele für Web-Structure-Mining:– websom.hut.fi– www.kartoo.com– smartmoney.com– www.webbrain.com
• Technische Details von Web-Structure-Mining
9191
Web-Structure-MiningWeb-Structure-Miningwebsom.hut.fiwebsom.hut.fi
• Die Worte charakterisieren bestimmte Bereiche
• Die Fraben bezeichnen die Clusters
• Die Blauen Punkte geben die gefundenen Dokumente an
9292
Web-Structure-MiningWeb-Structure-Miningwebsom.hut.fiwebsom.hut.fi
• Graphische Übersicht über die gefundene Web-Seiten
• Zeigt Grün die Zusammen-hänge an
9393
Web-Structure-MiningWeb-Structure-Miningsmartmoney.comsmartmoney.com
• Börsen-Daten von über 500 Firmen
• Die Grösse zeigt den Markanteil
• Die Farbe den Gewinn/ Verlust des Titels
9494
Web-Structure-MiningWeb-Structure-Miningwww.webbrain.comwww.webbrain.com
• Zeigt eine nach Kategorien geordnete Übersicht des Suchresultats an
9595
Technische Details Technische Details von Web-Structure-Mining (1)von Web-Structure-Mining (1)
• Untersuchungsgegenstand ist– Struktur des Webs – Hierarchien und Verknüpfungen– Struktur bzw.Schema eines Dokuments
• das links enthält und auf das links verweisen• das aus mehreren links besteht
– Ähnlichkeiten und Relationen helfen bei der
9696
Technische Details Technische Details von Web-Structure-Mining (2)von Web-Structure-Mining (2)
• Das Web ist ein gerichteter Graph– Seiten und links entsprechen Knoten– In-Degree =Anzahl der links auf ein Dokument– Out-Degree =Anzahl der links aus einem
Dokument– Diameter =maximaler Wert des minimalen
Wegs von einem Dokument A zu einem Dokument B
9797
Web-Usage-MiningWeb-Usage-Mining
• Untersucht das Verhalten von Surfern
• Anwenden von Data-Mining-Methoden auf das Server-Logfile
• Daten können einem User zugeordnet sein oder nicht
9898
Web-Usage-MiningWeb-Usage-Mining
Web Usage Mining
• Nutzeraktivitäten• Inhalt einer Site• Andere Daten
Personalisiert
• Personenbezogene Daten
• Nutzerprofile
Anonym
9999
Web-Usage-MiningWeb-Usage-Mining
• Grundlegende Vorgehensweise
Sammlungder Daten
Daten-aufbereitung Modellierung Auswertung
100100
Web-Usage-MiningWeb-Usage-Mining
• Verfügbare Daten– Host– Datum / Uhrzeit– URL– Anzahl
gelesener Bytes– Browser– Referer-URL– Name und
Passwort des Nutzers
Web MiningWeb Mining(allgemein)(allgemein)
• DatenaufbereitungDatenaufbereitung
• Logfile-AnalyseLogfile-Analyse
• Infomation TrackingInfomation Tracking
• Fallbeispiel für WebMiningFallbeispiel für WebMining
102102
DatenaufbereitungDatenaufbereitung
User RegistrationData
LogfileFormatted
Data
FormattedData
FormattedData
AssociationRules
SequentialPatterns
Cluster &Classification
Rules
CleanedLogfile
IntegratedData
103103
DatenaufbereitungDatenaufbereitung
• Das Logfile wird bereinigt• Die Daten werden mit den Benutzerdaten
zusammengeführt• Die Daten werden formatiert• Die Daten werden nach Data-Mining-
Methoden ausgewertet
104104
Auswertung der LogfilesAuswertung der Logfiles
105105
Logfile-AnalyseLogfile-Analyse
• Probleme– Alle Benutzer welche von einer Firma aus
Surfen haben die gleiche IP-Adresse
– Aufwendiges Preprozessing – Nicht alle Informationen sind relevant
– Beim Caching werden Seiten zwischengespeichert und erscheinen danach nicht mehr im Logfile
106106
Infomation TrackingInfomation Tracking
107107
Fallbeispiel für WebMiningFallbeispiel für WebMining
Web MiningWeb MiningMethodenMethoden
• Clustering / SegmentierungClustering / Segmentierung• WarenkorbanalyseWarenkorbanalyse• SequenzanalysenSequenzanalysen• KlassifikationKlassifikation• VorhersageVorhersage
109109
Clustering / SegmentierungClustering / Segmentierung
• Angewandte Techniken – Clusteranalyse
– Neuronale Netze
– Indentifikation von Kunden mit ähnlichem Verhalten
110110
WarenkorbanalyseWarenkorbanalyse
• Ziel der Warenkorb-Analyse – Analyse der Zusammenhänge zwischen
Produkt und Dienstleistung
– Erkennen von Trends
– Empfehlungen abgeben – z.B. Most popular product etc.
111111
Sequenzanalysen (1)Sequenzanalysen (1)
• Ziel der Sequenzanalyse – Reihenfolge der besuchten Seiten
bestimmen
– Produkte bestimme welche in EINER Sequenz erworben wurden
– Welche Sequenzen führen zum Kauf
112112
Sequenzanalysen (2)Sequenzanalysen (2)
• Ziel der Sequenzanalyse – Welche Sequenzen führen zum Kauf-
Abbruch
– Welche Sequenzen beinhalten Schwachstellen
113113
KlassifikationKlassifikation
• Klassifizierung durch– Entscheidungsbäume
– Neuronale Netze
• Erforschen von komplexem Kaufverhalten
114114
VorhersageVorhersage
• Verhalten des Kunden voraussagen = proaktives Handeln
• Wie wahrscheinlich ist es, dass eine Person:– Antwortet– Kauft– Mehr ausgibt– Nicht mehr kauft
115115
QuellenQuellen
• Skript Dr. Nouri• Präsentation Web-Mining (Vorgänger-Jahrgang)• Internet
– http://www.cometrics.de/know-web-mining.html– http://www.aifb.uni-karlsruhe.de/WBS/gst/diplomarbeiten/Seman
ticWeb_Structure_Mining.pdf– http://www.information-networking.net/Personalisierung_im_Inter
net_31-05-2001.pdf– http://www.uni-hildesheim.de/~rschneid/WebMiningSession2.pdf– notesweb.uni-wh.de/.../Web_Usage_Mining.ppt
Vielen Dank für Eure AufmerksamkeitVielen Dank für Eure Aufmerksamkeit
Fragen?Fragen?
Recommended