19
SEODisc: Ansatz zur Erkennung von SEO-Attacken Matthias Meyer 21. M¨ arz 2011 TU Dortmund, G Data 1 / 18 SEODisc N

SEODisc: Ansatz zur Erkennung von SEO-AttackenWas ist SEO? SEO = Search Engine Optimization Ziel: Verbesserung der Positionierung einer Webseite in den Suchergebnissen Meist auf Google

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: SEODisc: Ansatz zur Erkennung von SEO-AttackenWas ist SEO? SEO = Search Engine Optimization Ziel: Verbesserung der Positionierung einer Webseite in den Suchergebnissen Meist auf Google

SEODisc: Ansatz zur Erkennung vonSEO-Attacken

Matthias Meyer21. Marz 2011

TU Dortmund, G Data

1 / 18SEODiscN

Page 2: SEODisc: Ansatz zur Erkennung von SEO-AttackenWas ist SEO? SEO = Search Engine Optimization Ziel: Verbesserung der Positionierung einer Webseite in den Suchergebnissen Meist auf Google

Einleitung Losungsansatz Ergebnis

Inhaltsverzeichnis

1 EinleitungWas ist SEO?SEO aus AngreifersichtSEO Techniken

2 Verfolgter LosungsansatzLosungsansatz

3 Ergebnis

2 / 18SEODiscN

Page 3: SEODisc: Ansatz zur Erkennung von SEO-AttackenWas ist SEO? SEO = Search Engine Optimization Ziel: Verbesserung der Positionierung einer Webseite in den Suchergebnissen Meist auf Google

Einleitung Losungsansatz Ergebnis

Einleitung

Was ist SEO?SEO = Search Engine Optimization

Ziel: Verbesserung der Positionierung einer Webseite in denSuchergebnissen

Meist auf Google optimiert

Unterscheidung in White-Hat-SEO und Black-Hat-SEO

3 / 18SEODiscN

Page 4: SEODisc: Ansatz zur Erkennung von SEO-AttackenWas ist SEO? SEO = Search Engine Optimization Ziel: Verbesserung der Positionierung einer Webseite in den Suchergebnissen Meist auf Google

Einleitung Losungsansatz Ergebnis

Einleitung

Wieso Interessant fur AngreiferSuchanfragen Dez. 2009: 1

Weltweit: ca. 131 Milliarden SuchanfragenGoogle: ca. 87 Milliarden Suchanfragen ( ca. 66 %)bzw. ca. 2.8 Milliarden Suchanfragen taglich

Positionierung in den Top 20 Suchergebnissen⇒ viele potentielle Opfer.

Funktionierendes Cloaking ⇒ keine Erkennung durch Crawler

Infektionsvektor uber z.B. Drive-By-Downloads schwer durchzentrale Mittel zu filtern.

Finanzieller Aspekt (Werbebanner) durch hohen Traffic.

1Quelle: ComScore - www.comscore.com - Pressemitteilung 22.01.2010

4 / 18SEODiscN

Page 5: SEODisc: Ansatz zur Erkennung von SEO-AttackenWas ist SEO? SEO = Search Engine Optimization Ziel: Verbesserung der Positionierung einer Webseite in den Suchergebnissen Meist auf Google

Einleitung Losungsansatz Ergebnis

Einleitung

White-Hat-SEOOn-Site

Meta Tags (Header, Description)Suchmaschinenfreundliche URLsKeywords in Uberschriften verwendenVereinfachte NavigationBilder: Verwenden von ALT und Description Tags

Off-SiteLink-Building

5 / 18SEODiscN

Page 6: SEODisc: Ansatz zur Erkennung von SEO-AttackenWas ist SEO? SEO = Search Engine Optimization Ziel: Verbesserung der Positionierung einer Webseite in den Suchergebnissen Meist auf Google

Einleitung Losungsansatz Ergebnis

Einleitung

Black-Hat-SEOBlack-Hat-SEO = White-Hat-SEO + ...

Content SpamKeyword stuffingCloaking

TextfarbeNoScriptCSS / JavaScriptAuswertung User-AgentAuswertung Referrer

Link-Building...

6 / 18SEODiscN

Page 7: SEODisc: Ansatz zur Erkennung von SEO-AttackenWas ist SEO? SEO = Search Engine Optimization Ziel: Verbesserung der Positionierung einer Webseite in den Suchergebnissen Meist auf Google

Einleitung Losungsansatz Ergebnis

Einleitung

Moglicher Angriff1 Erstellen einer Webseite zum Thema T unter URL LD

2 Aufbau eines SEO Netzes zum Thema T

Unbemerkte Ubernahme existierender Webseiten L1, L2, ..., Ln zumThema TEinfugen von Links zu allen Li (versteckt vor menschlichenBesuchern)Einfugen versteckter Links zu LD

3 Verstecken der Manipulation durch Cloaking TechnikenFiltern der Seiteninhalte nach ReferrerFiltern der Seiteninhalte nach User Agent

7 / 18SEODiscN

Page 8: SEODisc: Ansatz zur Erkennung von SEO-AttackenWas ist SEO? SEO = Search Engine Optimization Ziel: Verbesserung der Positionierung einer Webseite in den Suchergebnissen Meist auf Google

Einleitung Losungsansatz Ergebnis

Verfolgter Losungsansatz

Der Losungsansatz3 verschiedene Teilprobleme

Finden potentiell verseuchter Webseiten (Kandidatenfindung)

Finden von versteckten Inhalten

Erkennen von SEO-Netzen

8 / 18SEODiscN

Page 9: SEODisc: Ansatz zur Erkennung von SEO-AttackenWas ist SEO? SEO = Search Engine Optimization Ziel: Verbesserung der Positionierung einer Webseite in den Suchergebnissen Meist auf Google

Einleitung Losungsansatz Ergebnis

Verfolgter Losungsansatz

Der LosungsansatzProblemFinden potentiell verseuchter WebseitenAnnahme

Black-Hat SEOs verwenden Schlagworte zu aktuellen Themen(z.B. Erdbeben Japan)

Da Schlagworte aktuell vermehrt gesucht ⇒ steiler Anstieg inden Google Trends

Verbesserung des Rankings als Folge der SEO sorgt furPosition in den Top 25 Suchergebnissen.

. . .

9 / 18SEODiscN

Page 10: SEODisc: Ansatz zur Erkennung von SEO-AttackenWas ist SEO? SEO = Search Engine Optimization Ziel: Verbesserung der Positionierung einer Webseite in den Suchergebnissen Meist auf Google

Einleitung Losungsansatz Ergebnis

Verfolgter Losungsansatz

Der LosungsansatzProblemFinden potentiell verseuchter WebseitenLosung

Abfrage der Top 20 Keywords der Google Trends und GoogleHot Topics (stundlich)

Fur gefundene Keywords ⇒ Googlesuche und speichere Top 25Ergebnisse

Gefundene URLs: Abruf der Webseite mit verschiedenenemulierten UserAgents

. . .

10 / 18SEODiscN

Page 11: SEODisc: Ansatz zur Erkennung von SEO-AttackenWas ist SEO? SEO = Search Engine Optimization Ziel: Verbesserung der Positionierung einer Webseite in den Suchergebnissen Meist auf Google

Einleitung Losungsansatz Ergebnis

Verfolgter Losungsansatz

Der LosungsansatzProblemFinden potentiell verseuchter WebseitenVorgehen∑

10 Abrufe einer Webseite5 Abrufe ohne Referrer Header gesetzt5 Abrufe mit Google Suche als Referrer

Abruf jeweils mit emuliertem User AgentGoogle CrawlerFirefox (3er Serie)Internet Explorer (6er Serie)2x Neutraler User Agent (GTFetch)

11 / 18SEODiscN

Page 12: SEODisc: Ansatz zur Erkennung von SEO-AttackenWas ist SEO? SEO = Search Engine Optimization Ziel: Verbesserung der Positionierung einer Webseite in den Suchergebnissen Meist auf Google

Einleitung Losungsansatz Ergebnis

Verfolgter Losungsansatz

Der LosungsansatzProblemFinden von versteckten InhaltenAnnahme

Links auf SEO-Netz Mitglieder werden durch nicht tivialecloaking Maßnahmen versteckt

Das Augenmerk liegt im Verstecken vor menschlichenBenutzern

12 / 18SEODiscN

Page 13: SEODisc: Ansatz zur Erkennung von SEO-AttackenWas ist SEO? SEO = Search Engine Optimization Ziel: Verbesserung der Positionierung einer Webseite in den Suchergebnissen Meist auf Google

Einleitung Losungsansatz Ergebnis

Verfolgter Losungsansatz

Der LosungsansatzAufgabeDifferenzanalyse einer Webseite - Erkennen von verstecktenLinksVorgehen

Suche Linkentsprechungen∀ Links Li ∈ WGoogle suche Entsprechung in WFF

∀ Links Li ∈ WGoogle suche Entsprechung in WIE

∀ Links Li ∈ WGoogle suche Entsprechung in WNeutral

Suche Links in ”dynamischem Content”∀ Links Li ∈ WNeutral1 suche Entsprechung in WNeutral2

Vergleiche Anzahl Links zwischen Referrer und None-ReferrerVariante (Referrer-Analyse)

. . .13 / 18SEODisc

N

Page 14: SEODisc: Ansatz zur Erkennung von SEO-AttackenWas ist SEO? SEO = Search Engine Optimization Ziel: Verbesserung der Positionierung einer Webseite in den Suchergebnissen Meist auf Google

Einleitung Losungsansatz Ergebnis

Verfolgter Losungsansatz

Der LosungsansatzAufgabeDifferenzanalyse einer Webseite -Finden von versteckten TextenVorgehen

Ermittlere relative Schlagwortdichte pro WebseitenversionBerechne Schlagwortdichte von WGoogle , WFF , WIE , WNeutral1

sowie WNeutral2

Vergleich der Schlawortdichte zwischen Versionen der Webseite

Suche Inhalte in ”dynamischem Content”Vergleich Schlagwortdichte WNeutral1 vs. WNeutral2

14 / 18SEODiscN

Page 15: SEODisc: Ansatz zur Erkennung von SEO-AttackenWas ist SEO? SEO = Search Engine Optimization Ziel: Verbesserung der Positionierung einer Webseite in den Suchergebnissen Meist auf Google

Einleitung Losungsansatz Ergebnis

Verfolgter Losungsansatz

Der LosungsansatzProblemErkennen von SEO-NetzenAnnahme

Black-Hat SEOs besitzten eigene versteckte Netzstrukturenzum pushen von infizierten Webseiten

Diese Netzstruktur ist uber versteckte Links miteinandervernetzt

Es existieren Zyklen in dieser Netzstruktur aufgrund dermoglichst vollstandigen Vernetzung

. . .

15 / 18SEODiscN

Page 16: SEODisc: Ansatz zur Erkennung von SEO-AttackenWas ist SEO? SEO = Search Engine Optimization Ziel: Verbesserung der Positionierung einer Webseite in den Suchergebnissen Meist auf Google

Einleitung Losungsansatz Ergebnis

Verfolgter Losungsansatz

Der LosungsansatzProblemErkennen von SEO-NetzenLosung

Aufbau eines Graphen mit gefundenen Links aus derDifferenzanalyse

Knoten = URLsKanten = Links

Suche im Graphen nach Zyklen undZusammenhangskomponenten

Jede Zusammenhangskomponente bildet ein SEO-Netz

In jedem SEO-Netz suche Knoten mit hoher Zahl eingehenderKanten

16 / 18SEODiscN

Page 17: SEODisc: Ansatz zur Erkennung von SEO-AttackenWas ist SEO? SEO = Search Engine Optimization Ziel: Verbesserung der Positionierung einer Webseite in den Suchergebnissen Meist auf Google
Page 18: SEODisc: Ansatz zur Erkennung von SEO-AttackenWas ist SEO? SEO = Search Engine Optimization Ziel: Verbesserung der Positionierung einer Webseite in den Suchergebnissen Meist auf Google

Einleitung Losungsansatz Ergebnis

Ergebnis

Gewonnene ErkenntnisseExperiment durchgefuhrt:

2 Zeitraume: 23.09.10 - 04.11.10 und 02.01.11 - 15.01.11Insgesamt analysierte Webseiten: 660.74943 potentielle SEO-Netze gefunden worden

Keine eindeutige Erkennung von schadlichen Webseiten inSEO-Netzen

18 / 18SEODiscN

Page 19: SEODisc: Ansatz zur Erkennung von SEO-AttackenWas ist SEO? SEO = Search Engine Optimization Ziel: Verbesserung der Positionierung einer Webseite in den Suchergebnissen Meist auf Google

Einleitung Losungsansatz Ergebnis

Ergebnis

Aufmerksamkeit ...

Danke fur Ihre Aufmerksamkeit

Kontakt: [email protected] /[email protected]

Infos: www.seodisc.de (comming soon)

19 / 19SEODiscN