23
Meta-Suchmaschinen Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

Embed Size (px)

Citation preview

Page 1: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

Meta-SuchmaschinenMeta-Suchmaschinen

Klaus Kopperschmidt

22. Januar 2001

Page 2: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 2

Inhalt des VortragsInhalt des Vortrags

• Vorstellen, Einleitung und Motivation

• Klassifikation von Suchdiensten

• Suchmaschinen

• Überlegungen zur Konzeptionierung

• Beispiele von Meta-Suchmaschinen

• Fazit und Ausblick

Page 3: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 3

Anforderungen an eine Recherche im WWWAnforderungen an eine Recherche im WWW

• Die Recherche sollte so vollständig, wie möglich sein.

• Das Ergebnis sollte eine hohe Qualität haben.

• Das Ergebnis sollte schnell verfügbar sein.

Page 4: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 4

Internet Suchdienste Klassifizierung und BeispieleInternet Suchdienste Klassifizierung und Beispiele

• Katalog, Directory– Yahoo, Lycos usw.

• Suchmaschine, Crawler, Spider, Robot– Hotbot, Yahoo, Lycos, Google, Altavista,

Webcrawler usw.

• All-in-one-form

• Meta-Suchmaschine– Metacrawler, Highway 61, DogPile

Page 5: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 5

WWW und SuchmaschinenWWW und Suchmaschinen

• ca. 27% Abdeckung bei Altavista, May 1999– Quelle: www.searchenginewatch.com

• Google 600.000.000 Webseiten indiziert und 1.200.000.000 bekannt, Nov. 2000 – Quelle: www.searchenginewatch.com

• 93.047.785 Domain-Namen im Juli 2000 – Quelle: Internet Software Consortium

http://www.isc.org/ds/WWW-200007/index.html

• mehr als 550.000.000.000 Seiten im „Deep Web“– Quelle: Test 8/2000

Page 6: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 6

Suchmaschinen - Suchmaschinen - Wachstum seit 1995 und aktuelle GrößeWachstum seit 1995 und aktuelle Größe

Quelle: www.searchenginewatch.comStand: 08. November 2000

Page 7: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 7

Probleme bei SuchmaschinenProbleme bei Suchmaschinen

• Vollständige Netzabdeckung

• Erreichbarkeit

• 404-Webseite und Aktualität

• Bedienung (Syntax)

• Ungenaue Anfragen

• Search-Engine-Spamming

Page 8: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 8

Klassisches Konzept einer Meta-SuchmaschineKlassisches Konzept einer Meta-Suchmaschine

Die Benutzer stellen Anfragen.

Die Meta-Suchmaschine formuliert die Anfragen für die verschiedenen Suchmaschinen

Excite

Google

...

Yahoo

Die Meta-Suchmaschine verarbeitet die Ergebnisse

Die Benutzer bekommen das Ergebnis präsentiert

Page 9: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 9

Überlegungen zur ErgebnisbehandlungÜberlegungen zur Ergebnisbehandlung

• Direkte Übernahme des Ergebnisses– komplett– ausschnittsweise

• Bearbeiten der Ergebnisse– entfernen von „dead links“– verschmelzen der Ergebnisse (Ranking-Problem)– filtern von identischen Webseiten

(Eine Seite wird durch genau einen Link repräsentiert.)

Page 10: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 10

Identische Webseiten erkennenIdentische Webseiten erkennen

• Bsp.: http://www.cs.washington.edu/homes/speed/home.htmlhttp://www.cs.washington.edu/homes/selberg

• Identische Domain, unterschiedlicher Pfad– Überprüfung, ob es sich um ein Standard-Alias

handelt.– Überprüfung, ob der Titel der Web-Seiten gleich

ist.– Kompletter Text-Vergleich

Page 11: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 11

• Skalen, Bsp.: Metacrawler 0-100%, Lycos 0-1, OpenText 0-

• Unterschiedl. Bots -> unterschiedl. Indizierung bzw. Gewichtungsalgorith. -> unterschiedl. Ranking

• Rankings abhängig von Anzahl des vorkommenden Suchbegriffs, Wortabstand, Anzahl der Referenzen

• Search-Engine-Spamming

Ranking - ProblemRanking - Problem

Quelle: Inquirus

Page 12: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 12

Weitergehende Überlegungen zur ArchitekturWeitergehende Überlegungen zur Architektur

• client-based oder server-based

• online vs. last-mile-Problem

• Anfrage-Syntax und update-Problem

Page 13: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 13

Meta-SuchmaschinenMeta-Suchmaschinen

• MetaCrawler, MetaGer

• PrologCrawler

• Inquirus

• Personal Search Assistants

• MetaSeek

Page 14: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 14

MetaCrawler (I)MetaCrawler (I)

• Http://www.metacrawler.com

• University of Washington in Seattle (Diplomarbeit)

• Betrieben von Go2net, Inc. (jetzt InfoSpace)

• C++, Linux und Apache Webserver

• 10x 2*400 Mhz PentiumII mit 512MB RAM

Page 15: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 15

MetaCrawler (II)MetaCrawler (II)

Quelle: „The MetaCrawler ArchitectureResource Aggregation on the Web“by Selberg und Etzioni

Page 16: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 16

PrologCrawler (I)PrologCrawler (I)

• Pentium 200 mit Red Hat Linux 5.0 und Apache Webserver

• Sicstus Prolog 3.7.1 + PiLLoW-Library

• weniger als 500 LOC• run(simple(Query,Nres,Ord), ResultsPage) :-

s_search(Query,Nres,Results), s_process(Nres,Results,FilteredResults), sort(FilteredResults,Ord,SortedResults), build_html(SortedResults,ResultsPage).

Page 17: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 17

PrologCrawler (II)PrologCrawler (II)

Quelle:

„A Prolog Meta-Search Engine for the World Wide Web“ von

E. Bolognesi und A. Brogi

Page 18: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 18

Inquirus (I)Inquirus (I)

• Http://www.inquirus.com nur für akademische Testzwecke

• Perl

• Pentium Pro 200

• Holt Links von Suchmaschinen und untersucht eigenständig die zurückgelieferten Webseiten auf Relevanz und bewertet sie.

Page 19: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 19

Inquirus (II)Inquirus (II)

Quelle:

„Inquirus, the NECI meta search engine“ von S. Lawrence und C.L. Giles

Page 20: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 20

Personal Search Assistant (I)Personal Search Assistant (I)

• Gibt es jede Mengez.Bsp.: PSA, WebFerret, WebShades, Unified Financial Assistant usw.

• Benutzer-Profile

• Lokal im Hintergrund

• Meist Browserunabhängig

Page 21: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 21

Personal Search Assistant (II)Personal Search Assistant (II)

Quelle:

„Personal Search Assistant: A Configurable Personal Meta Search Engine“ von

P.R. Kaushik und K.N. Murthy

Page 22: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 22

Abschliessender VergleichAbschliessender Vergleich

Eigenschaften MetaCrawler

PrologCrawler

Inquirus PSA

Nutzbar - () Kompl. Netzabdeckung - - - -

„Online“ ()Timeouts ()Zeitraum - - - ()

Pers. Suche - - - Aktualität () -

404-Problem () Qualität d. Ergebnisses () () () ()

Page 23: Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001

22. Januar 2001 Meta-Suchmaschinen 23

FazitFazit

• 550.000.000.000 Webseiten

• Weiteres exponentielles Wachstum bei geringerem Wachstum der Suchmaschinen-Indices

• Meta-Suchmaschinen sind kein Allheilmittel, da sie auf Suchmaschinen bauen.

• Neue Jobs: Information-Broker usw.