Download pdf - SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 1 Oktober 2013

Gefällt mir

396

Analyse von Crawlingproblemen mit Logfiles und BI-‐Tools

Daniel We>e


SEODAY 2013 -‐ Analyse von Crawlingproblemen

Welche Datenquellen können mir bei der Analyse von Crawling-‐Problemen helfen?



Vorhandene Datenquellen / Datensilos

Sistrix

und

Co.

Link

datenb

anken

Craw

ler

GWT

Server-‐Logs



•  URLs von platzierten Seiten •  Anzahl Indexierter Seiten

Google-‐Crawling-‐Daten Verfügbare Datenquellen




•  URLs von platzierten Seiten Teilweise hilfreich zum Aufspüren von URLs, welche eigentlich nicht im Index sein sollten, Infos aber auch in den Logs vorhanden •  Anzahl Indexierter Seiten Nur bedingt nutzbar ... Besser GWT




FAZIT: Diese Daten helfen uns nur wenig weiter bzw. bringen bei der Analyse keinen großen Mehrwert



•  Ziel-‐URLs von eingehenden Links

Linkdatenbanken Verfügbare Datenquellen




•  Ziel-‐URLs von eingehenden Links Teilweise hilfreich zum Aufspüren von URLs, welche eigentlich nicht im Index sein sollten, Infos aber auch in den Logs vorhanden




FAZIT: Diese Daten helfen uns nur wenig weiter bzw. bringen bei der Analyse keinen großen Mehrwert



•  Status Codes •  Ladezeiten •  URL-‐Struktur / Klickebenen •  HTML-‐Fehler (im HEAD und im BODY) •  Interne Pagerank-‐Berechnung

Crawler Verfügbare Datenquellen



Abbild einer „perfekten Welt“ bzw. eines aktuellen Status Der Google-‐Bot nutzt aber eine Vielzahl weiterer Informaònsquellen um Unterseiten zu finden (Chrome, Toolbar, Verlinkungen, historische Daten etc.)




FAZIT: Diese Informaònen helfen dabei die Struktur einer Seite zu verbessern, sie lassen dabei aber die Historie der Domain außer acht. Weiterhin habe ich keine Informaònen darüber was der Googlebot wirklich auf der Seite macht.




•  Crawling Fehler –  DNS Fehler –  Serververbindung –  Robots.txt –  Serverfehler –  404 –  Soc 404 –  Zugriff verweigert

•  Crawling Sta`s`ken –  Gecrawlte Seiten pro Tag –  Heruntergeladene Kilobyte pro Tag –  Durchschni>liche Seitenladezeit

•  Sitemaps –  Eingereicht vs. Indexiert

Google Webmaster Tools Verfügbare Datenquellen



•  Crawling Fehler Google liefert hier leider in vielen Fällen nur „Auszüge“ von Problemen •  Crawling Sta`s`ken Diese Daten sind soweit hochaggregiert, dass sie nur noch grobe Anhaltspunkte liefern und damit auch nur wenig helfen •  Sitemaps Auch hier erhalte ich keine Detail-‐Informaònen




Fazit: Die GWT helfen bei der Analyse von Crawling-‐Fehlern, leider sind die Informaònen oc lückenhac und zu hoch aggregiert und teilweise auch einfach nur FALSCH!




•  Gesamtbild über die Crawling-‐Ak`vitäten des Google-‐Bots

•  Datum/Uhrzeit •  Bot •  Aufgerufene URL •  Referrer •  Status Code

Server-‐Logs Verfügbare Datenquellen



•  Große Datenmengen •  Daten müssen umgeformt und in

Datenbanken eingespielt werden •  Daten müssen gefiltert werden

•  Fazit: Interessante Daten ... aber was kann ich genau damit machen? Helfen sie mir wirklich?

Server-‐Logs Verfügbare Datenquellen



Zusammenführung von Server-‐Logs mit Crawling-‐Daten

Craw

ler

Server-‐Logs

Coole Da

ten



Zusammenführung von Server-‐Logs mit Crawling-‐Daten

Coole Da

ten



•  Welche URLs meiner Seite wurden die letzten 4 Wochen gecrawlt? •  Wie verteilt sich das auf die Klickèfe in meinem Projekt? •  Wie hoch ist die durchschni>liche Crawlrate von einzelnen Seiten und von Seitentypen/

Kategorien? •  ak`ve URLs nach Status Code •  Wie viel Prozent der Crawlrate wird für nicht ak`ve Seiten verwendet? •  URLs welche nicht ak`v sind (also im eigenen Crawl nicht vorhanden) jedoch einen

Status 200 für den Googlebot zurückliefern •  Welche ak`ven URLs wurden nicht gecrawlt? •  Mi>lerer Zeitraum zwischen Veröffentlichung und erstem Crawl? •  . •  .

Analysemöglichkeiten durch die Nutzung von Logfiles mit Crawling-‐Daten



Auswertungen eines echten Kundenprojektes



STRUCR: Keine wesentlichen Fehler gefunden


Gesamt : 2785 Seiten Status 200 : 2687 Status 301 : 48 Status 302 : 21 Status 404 : 32






… und nun die Logfiles J






… und nun die Logfiles

Gesamt : 50.136 Unique URLs! Status 200 : 25.400! Status 301 : 23.197 Status 30X : 822 Status 404 : 1.640







Google: 50136 Unique URLs STRUCR: 2.785 Unique URLs vs.

94,45 % der von Google gecrawlten URLs sind nicht teil der aktuellen Seitenstruktur




75,74 % der von Google gecrawlten URLs wurden

in dem Monat nur 1mal gecrawlt




600mal wurde die Startseite gecrawled




0

100

200

300

400

500

600

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Anzahl Crawls pro Monat (Top 20)




0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0 1 2 3 4

Crawlrate vs. Klickebene

Crawled by Google Not crawled by Google




1

5

25

125

625

0 1 2 3 4

Durchschni>liche Crawls pro Monat je Seite je Klickebene

5

2

10 9




0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0 1 2 3 4

Visits vs. Klickebene

Seiten mit Besuchen Seiten ohne Besuche




205

16

80

12

0

10

20

30

40

50

60

70

80

90

0

50

100

150

200

250

Kategorieseiten Produktseiten

Anzahl eingehender Links vs. SEO Visits

Durchschni>lich eingehende Links Durchschni>liche Anzahl SEO Visits



•  Veraltete URLs ohne eingehende Links, welche aktuell per 301 redirected werden für den Bot gesperrt oder vor einer Sperrung noch einige Zeit per 410 antworten.

•  Bes`mmte URL-‐Parameter generell für den Bot sperren (in diesem Fall „recommendaòn-‐Ids“)

•  URLs welche per Canonical „umgebogen“ sind und keine eingehenden Links haben für den Bot sperren

•  Interne Linkstruktur überarbeiten •  Englische Version in eigene Domain „abspalten“ •  404 Seiten ggf. durch 410 ersetzen.

Kommende Maßnahmen bei dem konkreten Projekt



•  Google vergisst nichts … GAR NICHTS! •  Google besucht auch über 1,5 Jahre später noch URLs, welche per 301 umgeleitet

werden, oder einen 404 liefern

•  Der Googlebot hat im gleichen Zeitraum 250% mehr Unique URLs gecrawlt als der Bingbot

•  Google arbeitet sehr ineffizient!

•  41,54% der „Googlebot“ Requests kamen nicht von Google J

Fazit


Gefällt mir

396

Vielen Dank

Bildrechte / Lizenzen Hard disk and database icon © Scanrail -‐ Fotolia.com error © olly -‐ Fotolia.com