52
Logfileanalyse Prof. Dr. Eduard Heindl

Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Embed Size (px)

Citation preview

Page 1: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Logfileanalyse

Prof. Dr. Eduard Heindl

Page 2: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Elemente einer Logfilezeile

IP-Adresse des ClientsIdentität des Clientrechners (normalerweise nicht verfügbar) Identität des Benutzers (nur bei Authentifikation verfügbar) Sekundengenauer Zeitpunkt des Abrufs (Serverzeit) Erste Zeile der http Clientanfrage Status der ServerantwortDateigröße in Bytes

Page 3: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Combined Log Format

Referer, letztes Dokument im Browser des Besucher Domain von der die Seite abgerufen wurdeBrowser des BesuchersBetriebssystem des Besuchers

217.81.42.213 - - [01/Apr/2002:15:04:16 +0200] GET / HTTP/1.1 200 25432 www.heindl.de http://www.google.de/search?q=heindl+Internet+AG&hl=de&btnG=Google-Suche&meta=lr%3Dlang_de Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)

Page 4: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Warum Kennziffern

Websites müssen sich lohnenNur gute Websites lohnen sichKundengerechte Websites sind gute WebsitesControlling der Kundenzufriedenheit durch Kennziffern

Page 5: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Klassische Webstatistik

Messgröße Problem

Umsatz Nur bei reinen E-Shops sinnvoll

PageViews (PV) Abhängig von der Auffindbarkeit

Sitzungsdauer Abhängig von Internetanbindung

Hits Abhängig vom Webdesign

Page 6: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Anforderung an Kennziffern

AussagekräftigUnabhängig von ZusatzbefragungEinfach zu ermitteln

Keine aufwendige TechnikÜberschaubare Fehlerquellen

Statistisch signifikantAuch auf Einzeldokumente anwendbar

Page 7: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Pageimpression

AdImpression"AdImpressions sind der messbare Werbemittelkontakt. Sie bezeichnen die Anzahl der von den Clients der Nutzer abgerufenen (requested) Werbemittel vom Server eines Werbeträgers oder anderen AdServers." (dmmv)

Pageimpression PIEine Internetseite im Browser ~ AdImpression

Pageview PV Abruf einer HTML Seite vom Server (nicht Aussagekräftig)

Page 8: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Frame

Frameseiten haben weniger PI als PV

Page 9: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Usersession

Usersession = VisitVisitZusammenhängender Nutzungsvorgang, Besuch auf der InternetsiteView TimeNutzungsdauer, keine exakte Definition verfügbar (dmmv)

Page 10: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Erkenntnisse aus Abweichungen

Flut der Anfragen

Page 11: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Marketingerfolg

Beispiel einer Marketingkampagne mit 60.000 Werbebriefen

Page 12: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Seitentypen

Entry-, Brücken- und Exitpage

Page 13: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

In-Out Analyse

Page 14: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Exit-Page

Normale UrsachenLetzte Seite in einem BestellprozessLinkliste, Angebot eines wichtigen externen LinksStruktureller Abschluss etwa Z im LexikonNewsseiteSeite zum AusdruckenGlossarKanalwechsel, z.B. Ansprechpersonen, Kontaktformular

Page 15: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Exit-Page

Problematische UrsachenKeine internen Links vorhandenFrameunterseiten, die isoliert gesehen werden (Externer Einstieg)Lange Ladezeit Seite hat unerwarteten Inhalt Layout problematisch z.B. zu kleine SchriftUnübliches Datenformat, z.B. Postscript

Page 16: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Berechnung der Kennziffern

Page 17: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Nützliche Kennziffern

Kennziffer Bedeutung

In/PVEinstiegseite/Seitenabruf

Suchmaschinen,Externe Links

Out/PVLetzte Seite/Seitenabruf

Seitenqualität,Ladezeitprobleme

Only/PVEinzige Seite/Seitenabruf

Suchmachinentext,Seiteninhalt

Page 18: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Neue Kennziffer: Fav/PV

Annahmen: Gute Seiten werden von Besuchern in die Favoriten aufgenommen (unter Netscape: Bookmark)Je häufiger von verschiedenen Besuchern ein Favorit gesetzt wird, um so besser das Dokument

Page 19: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Favicon im Browser

Favicon von Google

Stan

dard

icon

Page 20: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Das Favicon

Das File „favicon.ico“ wird immer vom Webbrowser (IE5 und höher) vom Webserver angefordert, wenn der Besucher ein Lesezeichen setzt.Favicon/Seitenabruf: Kennziffer, die ermittelt, ob ein Besucher Interesse an der Webseite (Website) hat.

Page 21: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Messverfahren

Im Logfile werden alle Serveranfragen protokolliert, auch der FaviconabrufLogfileauswertung mit Statistikprogramm (z.B. websuxess)Bestimmung der Abrufe des Files „favicon.ico“

ZeitabhängigSeitenbezogen

Page 22: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Technische Probleme

Netscape und Gecko Browser rufen das File favicon.ico bei jedem Seitenabruf auf -> Filtern auf IE-BrowserFavicon wird immer aus dem lokalen Verzeichnis geholt -> File in allen Verzeichnissen abspeichernBezugsseite kann nur durch Pfadanalyse ermittelt werden (rechenaufwendig)

Page 23: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Tageszeitabhängigkeit

Bestimmung des Faviconabrufs, relativ zu den SeitenaufrufenJe später der Abend, um so wahr-scheinlicher wird ein Lesezeichen gesetzt

Page 24: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Websitequalität

Analyse Relaunch www.tuebingen.com

Favicon/BesucherVorher ~1% Fav/PVNachher ~2% Fav/PVRelaunch war erfolgreich

Page 25: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Webseitenqualität

Auswertung Website Solarserver.deZeitraum: 1. Quartal 2003Datenbasis:Ca. 1.000.000 SeitenaufrufeLehre:Branchenverzeichnis ist beliebt

Die Top Seiten

Page 26: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Suchmaschinen

Relevante Suchmaschinen

Relevante Suchworte

Page 27: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Nutzung der Suchmaschinen

Page 29: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Quelle der Besucherströme

SuchmaschinenExterne LinksFavoritenE-MailsManuelle Eingabe

Page 30: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Favoriten

Lesezeichen = Bookmark = FavoritBei Explorer: Abruf des Files favicon.icoAchtung: Netscape 7 ruft das File immer ab

Page 31: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Pfadverfolgung

Wenig gleiche PfadeLange Pfade von InteresseAnalyse nach ZielelementenEinzelauswertung mühsam

Page 32: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Pfadlänge

Längere Besuche sind wünschenswertGrund der längeren Pfade verstehenPogosticking vermeiden

                                                 

                                                                                                    

Page 33: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Zieldokumente

Jede Website hat TargetdokumenteBestellabschlussNewsletterabo

Page 34: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Relevante Hyperlinks

Page 35: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Robotsfile

Immer wenn eine Suchmaschine kommt wird das File robots.txt abgerufen

Page 36: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Ladezeit

Zuerst wird das HTML-File geladenBilder werden in der Reihenfolge im HTML Text nachgeladenAnzahl der abgerufenen Bilder gibt Einblick über Besucherverhalten

Page 37: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Fehleranalyse

DatenquelleStatistikSignifikanz

Grosse EreigniszahlLängere ZeiträumeEinfache BetrachtungAbhängigkeiten erkennen

Page 38: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Schiefe Statistik - Ursachen

Suchrobots nicht herausgefiltertSonderfunktion im Browser nötigViele Nutzer außerhalb der Zielgruppe (z.B. Mitarbeiter, Sprachraum)Sitzungslänge falsch eingeschätztServerfehler falsch einbezogen (404-Fehlerseiten)ProxyserverBildschirmauflösungAutomatische Verknüpfung von Seiten (Frames)Änderung von Dokumentadressen (Seitenumzug)Inhalt – URL Relation falsch interpretiert

Page 39: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Proxyserver

Normalerweise mit Meldung 304 zu erkennenAbhängig von HTTP VersionAbhängig von ProxyeinstellungLokaler Cache wird nicht erkannt

Page 40: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Pseudobesucher

Interne Besucher (Startseite)RobotsDownloadsLinkcheckerStörer (DDOS)HackerFrameeinblendungen

Page 41: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Sitedownload

Page 42: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Dynamische Seiten

Erzeugung durch Content Management SystemErzeugung durch ShopsoftwareBesucherindividuellProfilabhängig

Page 43: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Dynamische Seiten

Page 44: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Besuchszeiten

TagesverlaufWochenverlaufJahresverlaufMonat?Sehr viele Sondereffekte!

Page 45: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Zyklenvergleich

Page 46: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Statuscode

Status aus dem HTTP Header200 – alles ok300 – kleine Umleitung400 – „dumme Frage“500 – Server kaputt

Page 47: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

IVW

Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e.V.Registrierte Websites werden analysiertJeder kann die Resultate abrufenRelativ teuerNützlich für alle Banner-Werbetreibenden

Page 48: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

www.Alexa.com

Service aus den USAArbeitet mit BrowserpluginAnalyse fremder Websites möglichTeilweise schiefe StatistikNur ähnliche Websites vergleichbar

                                                    

                                                                                    

Page 49: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Alexa - IVW

Problematik der Alexaabfrage

                                              

                                                                                                       

Page 50: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Seitenzähler

ASP- WebstatistikBeispiel Hitbox

Page 51: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Trends

Alle Bevölkerungsgruppen nutzen das WebDie durchschnittliche Nutzungsdauer wächstDie Internetzugänge werden schneller (DSL)Wachsende Bereitschaft zu Online TransaktionenLeistungsfähige Endgeräte

Moderne BrowserMultimediale RechnerHöhere Bildschirmauflösung

Erfahrene Internetnutzer „Heavy User“

Page 52: Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü

Vielen Dank für Ihre Aufmerksamkeit

Weitere Informationen:http://webuser.hs-furtwangen.de/~heindl/om-2007ws.html