FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 1 Oktober 2013
Gefällt mir
396
Analyse von Crawlingproblemen mit Logfiles und BI-‐Tools
Daniel We>e
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 2 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
Welche Datenquellen können mir bei der Analyse von Crawling-‐Problemen helfen?
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 3 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
Vorhandene Datenquellen / Datensilos
Sistrix
und
Co.
Link
datenb
anken
Craw
ler
GWT
Server-‐Logs
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 4 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
• URLs von platzierten Seiten • Anzahl Indexierter Seiten
Google-‐Crawling-‐Daten Verfügbare Datenquellen
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 5 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
Google-‐Crawling-‐Daten Verfügbare Datenquellen
• URLs von platzierten Seiten Teilweise hilfreich zum Aufspüren von URLs, welche eigentlich nicht im Index sein sollten, Infos aber auch in den Logs vorhanden • Anzahl Indexierter Seiten Nur bedingt nutzbar ... Besser GWT
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 6 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
Google-‐Crawling-‐Daten Verfügbare Datenquellen
FAZIT: Diese Daten helfen uns nur wenig weiter bzw. bringen bei der Analyse keinen großen Mehrwert
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 7 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
• Ziel-‐URLs von eingehenden Links
Linkdatenbanken Verfügbare Datenquellen
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 8 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
Linkdatenbanken Verfügbare Datenquellen
• Ziel-‐URLs von eingehenden Links Teilweise hilfreich zum Aufspüren von URLs, welche eigentlich nicht im Index sein sollten, Infos aber auch in den Logs vorhanden
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 9 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
Linkdatenbanken Verfügbare Datenquellen
FAZIT: Diese Daten helfen uns nur wenig weiter bzw. bringen bei der Analyse keinen großen Mehrwert
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 10 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
• Status Codes • Ladezeiten • URL-‐Struktur / Klickebenen • HTML-‐Fehler (im HEAD und im BODY) • Interne Pagerank-‐Berechnung
Crawler Verfügbare Datenquellen
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 11 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
Abbild einer „perfekten Welt“ bzw. eines aktuellen Status Der Google-‐Bot nutzt aber eine Vielzahl weiterer Informa`onsquellen um Unterseiten zu finden (Chrome, Toolbar, Verlinkungen, historische Daten etc.)
Crawler Verfügbare Datenquellen
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 12 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
FAZIT: Diese Informa`onen helfen dabei die Struktur einer Seite zu verbessern, sie lassen dabei aber die Historie der Domain außer acht. Weiterhin habe ich keine Informa`onen darüber was der Googlebot wirklich auf der Seite macht.
Crawler Verfügbare Datenquellen
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 13 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
• Crawling Fehler – DNS Fehler – Serververbindung – Robots.txt – Serverfehler – 404 – Soc 404 – Zugriff verweigert
• Crawling Sta`s`ken – Gecrawlte Seiten pro Tag – Heruntergeladene Kilobyte pro Tag – Durchschni>liche Seitenladezeit
• Sitemaps – Eingereicht vs. Indexiert
Google Webmaster Tools Verfügbare Datenquellen
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 14 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
• Crawling Fehler Google liefert hier leider in vielen Fällen nur „Auszüge“ von Problemen • Crawling Sta`s`ken Diese Daten sind soweit hochaggregiert, dass sie nur noch grobe Anhaltspunkte liefern und damit auch nur wenig helfen • Sitemaps Auch hier erhalte ich keine Detail-‐Informa`onen
Google Webmaster Tools Verfügbare Datenquellen
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 15 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
Fazit: Die GWT helfen bei der Analyse von Crawling-‐Fehlern, leider sind die Informa`onen oc lückenhac und zu hoch aggregiert und teilweise auch einfach nur FALSCH!
Google Webmaster Tools Verfügbare Datenquellen
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 16 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
• Gesamtbild über die Crawling-‐Ak`vitäten des Google-‐Bots
• Datum/Uhrzeit • Bot • Aufgerufene URL • Referrer • Status Code
Server-‐Logs Verfügbare Datenquellen
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 17 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
• Große Datenmengen • Daten müssen umgeformt und in
Datenbanken eingespielt werden • Daten müssen gefiltert werden
• Fazit: Interessante Daten ... aber was kann ich genau damit machen? Helfen sie mir wirklich?
Server-‐Logs Verfügbare Datenquellen
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 18 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
Zusammenführung von Server-‐Logs mit Crawling-‐Daten
Craw
ler
Server-‐Logs
Coole Da
ten
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 19 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
Zusammenführung von Server-‐Logs mit Crawling-‐Daten
Coole Da
ten
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 20 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
• Welche URLs meiner Seite wurden die letzten 4 Wochen gecrawlt? • Wie verteilt sich das auf die Klick`efe in meinem Projekt? • Wie hoch ist die durchschni>liche Crawlrate von einzelnen Seiten und von Seitentypen/
Kategorien? • ak`ve URLs nach Status Code • Wie viel Prozent der Crawlrate wird für nicht ak`ve Seiten verwendet? • URLs welche nicht ak`v sind (also im eigenen Crawl nicht vorhanden) jedoch einen
Status 200 für den Googlebot zurückliefern • Welche ak`ven URLs wurden nicht gecrawlt? • Mi>lerer Zeitraum zwischen Veröffentlichung und erstem Crawl? • . • .
Analysemöglichkeiten durch die Nutzung von Logfiles mit Crawling-‐Daten
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 21 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
Auswertungen eines echten Kundenprojektes
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 22 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
STRUCR: Keine wesentlichen Fehler gefunden
Auswertungen eines echten Kundenprojektes
Gesamt : 2785 Seiten Status 200 : 2687 Status 301 : 48 Status 302 : 21 Status 404 : 32
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 23 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
STRUCR: Keine wesentlichen Fehler gefunden
Auswertungen eines echten Kundenprojektes
Gesamt : 2785 Seiten Status 200 : 2687 Status 301 : 48 Status 302 : 21 Status 404 : 32
… und nun die Logfiles J
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 24 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
STRUCR: Keine wesentlichen Fehler gefunden
Auswertungen eines echten Kundenprojektes
Gesamt : 2785 Seiten Status 200 : 2687 Status 301 : 48 Status 302 : 21 Status 404 : 32
… und nun die Logfiles
Gesamt : 50.136 Unique URLs! Status 200 : 25.400! Status 301 : 23.197 Status 30X : 822 Status 404 : 1.640
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 25 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
Auswertungen eines echten Kundenprojektes
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 26 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
Auswertungen eines echten Kundenprojektes
Google: 50136 Unique URLs STRUCR: 2.785 Unique URLs vs.
94,45 % der von Google gecrawlten URLs sind nicht teil der aktuellen Seitenstruktur
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 27 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
Auswertungen eines echten Kundenprojektes
75,74 % der von Google gecrawlten URLs wurden
in dem Monat nur 1mal gecrawlt
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 28 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
Auswertungen eines echten Kundenprojektes
600mal wurde die Startseite gecrawled
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 29 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
Auswertungen eines echten Kundenprojektes
0
100
200
300
400
500
600
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Anzahl Crawls pro Monat (Top 20)
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 30 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
Auswertungen eines echten Kundenprojektes
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0 1 2 3 4
Crawlrate vs. Klickebene
Crawled by Google Not crawled by Google
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 31 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
Auswertungen eines echten Kundenprojektes
1
5
25
125
625
0 1 2 3 4
Durchschni>liche Crawls pro Monat je Seite je Klickebene
5
2
10 9
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 32 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
Auswertungen eines echten Kundenprojektes
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0 1 2 3 4
Visits vs. Klickebene
Seiten mit Besuchen Seiten ohne Besuche
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 33 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
Auswertungen eines echten Kundenprojektes
205
16
80
12
0
10
20
30
40
50
60
70
80
90
0
50
100
150
200
250
Kategorieseiten Produktseiten
Anzahl eingehender Links vs. SEO Visits
Durchschni>lich eingehende Links Durchschni>liche Anzahl SEO Visits
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 34 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
• Veraltete URLs ohne eingehende Links, welche aktuell per 301 redirected werden für den Bot gesperrt oder vor einer Sperrung noch einige Zeit per 410 antworten.
• Bes`mmte URL-‐Parameter generell für den Bot sperren (in diesem Fall „recommenda`on-‐Ids“)
• URLs welche per Canonical „umgebogen“ sind und keine eingehenden Links haben für den Bot sperren
• Interne Linkstruktur überarbeiten • Englische Version in eigene Domain „abspalten“ • 404 Seiten ggf. durch 410 ersetzen.
Kommende Maßnahmen bei dem konkreten Projekt
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 35 Oktober 2013
SEODAY 2013 -‐ Analyse von Crawlingproblemen
• Google vergisst nichts … GAR NICHTS! • Google besucht auch über 1,5 Jahre später noch URLs, welche per 301 umgeleitet
werden, oder einen 404 liefern
• Der Googlebot hat im gleichen Zeitraum 250% mehr Unique URLs gecrawlt als der Bingbot
• Google arbeitet sehr ineffizient!
• 41,54% der „Googlebot“ Requests kamen nicht von Google J
Fazit
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 36 Oktober 2013
Gefällt mir
396
Vielen Dank
Bildrechte / Lizenzen Hard disk and database icon © Scanrail -‐ Fotolia.com error © olly -‐ Fotolia.com