Logfileanalyse Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile IP-Adresse des Clients Identit...

Preview:

Citation preview

Logfileanalyse

Prof. Dr. Eduard Heindl

Elemente einer Logfilezeile

IP-Adresse des ClientsIdentität des Clientrechners (normalerweise nicht verfügbar) Identität des Benutzers (nur bei Authentifikation verfügbar) Sekundengenauer Zeitpunkt des Abrufs (Serverzeit) Erste Zeile der http Clientanfrage Status der ServerantwortDateigröße in Bytes

Combined Log Format

Referer, letztes Dokument im Browser des Besucher Domain von der die Seite abgerufen wurdeBrowser des BesuchersBetriebssystem des Besuchers

217.81.42.213 - - [01/Apr/2002:15:04:16 +0200] GET / HTTP/1.1 200 25432 www.heindl.de http://www.google.de/search?q=heindl+Internet+AG&hl=de&btnG=Google-Suche&meta=lr%3Dlang_de Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)

Warum Kennziffern

Websites müssen sich lohnenNur gute Websites lohnen sichKundengerechte Websites sind gute WebsitesControlling der Kundenzufriedenheit durch Kennziffern

Klassische Webstatistik

Messgröße Problem

Umsatz Nur bei reinen E-Shops sinnvoll

PageViews (PV) Abhängig von der Auffindbarkeit

Sitzungsdauer Abhängig von Internetanbindung

Hits Abhängig vom Webdesign

Anforderung an Kennziffern

AussagekräftigUnabhängig von ZusatzbefragungEinfach zu ermitteln

Keine aufwendige TechnikÜberschaubare Fehlerquellen

Statistisch signifikantAuch auf Einzeldokumente anwendbar

Pageimpression

AdImpression"AdImpressions sind der messbare Werbemittelkontakt. Sie bezeichnen die Anzahl der von den Clients der Nutzer abgerufenen (requested) Werbemittel vom Server eines Werbeträgers oder anderen AdServers." (dmmv)

Pageimpression PIEine Internetseite im Browser ~ AdImpression

Pageview PV Abruf einer HTML Seite vom Server (nicht Aussagekräftig)

Frame

Frameseiten haben weniger PI als PV

Usersession

Usersession = VisitVisitZusammenhängender Nutzungsvorgang, Besuch auf der InternetsiteView TimeNutzungsdauer, keine exakte Definition verfügbar (dmmv)

Erkenntnisse aus Abweichungen

Flut der Anfragen

Marketingerfolg

Beispiel einer Marketingkampagne mit 60.000 Werbebriefen

Seitentypen

Entry-, Brücken- und Exitpage

In-Out Analyse

Exit-Page

Normale UrsachenLetzte Seite in einem BestellprozessLinkliste, Angebot eines wichtigen externen LinksStruktureller Abschluss etwa Z im LexikonNewsseiteSeite zum AusdruckenGlossarKanalwechsel, z.B. Ansprechpersonen, Kontaktformular

Exit-Page

Problematische UrsachenKeine internen Links vorhandenFrameunterseiten, die isoliert gesehen werden (Externer Einstieg)Lange Ladezeit Seite hat unerwarteten Inhalt Layout problematisch z.B. zu kleine SchriftUnübliches Datenformat, z.B. Postscript

Berechnung der Kennziffern

Nützliche Kennziffern

Kennziffer Bedeutung

In/PVEinstiegseite/Seitenabruf

Suchmaschinen,Externe Links

Out/PVLetzte Seite/Seitenabruf

Seitenqualität,Ladezeitprobleme

Only/PVEinzige Seite/Seitenabruf

Suchmachinentext,Seiteninhalt

Neue Kennziffer: Fav/PV

Annahmen: Gute Seiten werden von Besuchern in die Favoriten aufgenommen (unter Netscape: Bookmark)Je häufiger von verschiedenen Besuchern ein Favorit gesetzt wird, um so besser das Dokument

Favicon im Browser

Favicon von Google

Stan

dard

icon

Das Favicon

Das File „favicon.ico“ wird immer vom Webbrowser (IE5 und höher) vom Webserver angefordert, wenn der Besucher ein Lesezeichen setzt.Favicon/Seitenabruf: Kennziffer, die ermittelt, ob ein Besucher Interesse an der Webseite (Website) hat.

Messverfahren

Im Logfile werden alle Serveranfragen protokolliert, auch der FaviconabrufLogfileauswertung mit Statistikprogramm (z.B. websuxess)Bestimmung der Abrufe des Files „favicon.ico“

ZeitabhängigSeitenbezogen

Technische Probleme

Netscape und Gecko Browser rufen das File favicon.ico bei jedem Seitenabruf auf -> Filtern auf IE-BrowserFavicon wird immer aus dem lokalen Verzeichnis geholt -> File in allen Verzeichnissen abspeichernBezugsseite kann nur durch Pfadanalyse ermittelt werden (rechenaufwendig)

Tageszeitabhängigkeit

Bestimmung des Faviconabrufs, relativ zu den SeitenaufrufenJe später der Abend, um so wahr-scheinlicher wird ein Lesezeichen gesetzt

Websitequalität

Analyse Relaunch www.tuebingen.com

Favicon/BesucherVorher ~1% Fav/PVNachher ~2% Fav/PVRelaunch war erfolgreich

Webseitenqualität

Auswertung Website Solarserver.deZeitraum: 1. Quartal 2003Datenbasis:Ca. 1.000.000 SeitenaufrufeLehre:Branchenverzeichnis ist beliebt

Die Top Seiten

Suchmaschinen

Relevante Suchmaschinen

Relevante Suchworte

Nutzung der Suchmaschinen

Quelle der Besucherströme

SuchmaschinenExterne LinksFavoritenE-MailsManuelle Eingabe

Favoriten

Lesezeichen = Bookmark = FavoritBei Explorer: Abruf des Files favicon.icoAchtung: Netscape 7 ruft das File immer ab

Pfadverfolgung

Wenig gleiche PfadeLange Pfade von InteresseAnalyse nach ZielelementenEinzelauswertung mühsam

Pfadlänge

Längere Besuche sind wünschenswertGrund der längeren Pfade verstehenPogosticking vermeiden

                                                 

                                                                                                    

Zieldokumente

Jede Website hat TargetdokumenteBestellabschlussNewsletterabo

Relevante Hyperlinks

Robotsfile

Immer wenn eine Suchmaschine kommt wird das File robots.txt abgerufen

Ladezeit

Zuerst wird das HTML-File geladenBilder werden in der Reihenfolge im HTML Text nachgeladenAnzahl der abgerufenen Bilder gibt Einblick über Besucherverhalten

Fehleranalyse

DatenquelleStatistikSignifikanz

Grosse EreigniszahlLängere ZeiträumeEinfache BetrachtungAbhängigkeiten erkennen

Schiefe Statistik - Ursachen

Suchrobots nicht herausgefiltertSonderfunktion im Browser nötigViele Nutzer außerhalb der Zielgruppe (z.B. Mitarbeiter, Sprachraum)Sitzungslänge falsch eingeschätztServerfehler falsch einbezogen (404-Fehlerseiten)ProxyserverBildschirmauflösungAutomatische Verknüpfung von Seiten (Frames)Änderung von Dokumentadressen (Seitenumzug)Inhalt – URL Relation falsch interpretiert

Proxyserver

Normalerweise mit Meldung 304 zu erkennenAbhängig von HTTP VersionAbhängig von ProxyeinstellungLokaler Cache wird nicht erkannt

Pseudobesucher

Interne Besucher (Startseite)RobotsDownloadsLinkcheckerStörer (DDOS)HackerFrameeinblendungen

Sitedownload

Dynamische Seiten

Erzeugung durch Content Management SystemErzeugung durch ShopsoftwareBesucherindividuellProfilabhängig

Dynamische Seiten

Besuchszeiten

TagesverlaufWochenverlaufJahresverlaufMonat?Sehr viele Sondereffekte!

Zyklenvergleich

Statuscode

Status aus dem HTTP Header200 – alles ok300 – kleine Umleitung400 – „dumme Frage“500 – Server kaputt

IVW

Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e.V.Registrierte Websites werden analysiertJeder kann die Resultate abrufenRelativ teuerNützlich für alle Banner-Werbetreibenden

www.Alexa.com

Service aus den USAArbeitet mit BrowserpluginAnalyse fremder Websites möglichTeilweise schiefe StatistikNur ähnliche Websites vergleichbar

                                                    

                                                                                    

Alexa - IVW

Problematik der Alexaabfrage

                                              

                                                                                                       

Seitenzähler

ASP- WebstatistikBeispiel Hitbox

Trends

Alle Bevölkerungsgruppen nutzen das WebDie durchschnittliche Nutzungsdauer wächstDie Internetzugänge werden schneller (DSL)Wachsende Bereitschaft zu Online TransaktionenLeistungsfähige Endgeräte

Moderne BrowserMultimediale RechnerHöhere Bildschirmauflösung

Erfahrene Internetnutzer „Heavy User“

Vielen Dank für Ihre Aufmerksamkeit

Weitere Informationen:http://webuser.hs-furtwangen.de/~heindl/om-2007ws.html

Recommended