28
Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected] Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen Seminar Web Suchmaschinen - WS0304

Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: [email protected]

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

Geschichte der Suchmaschinen undheutige Vernetzungsstrukturen

Seminar Web Suchmaschinen - WS0304

Page 2: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

I. Was gab es vor den WWW SuchmaschinenII. Die Geschichte der WWW SuchmaschinenIII. Zusammenfassung und Fragen der Hörer

Page 3: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

I. Was gab es vor den WWW Suchmaschinen

• Internettimeline (bis 1990)• Archie (1990)• Gopher (1991)• Veronica (1992)• Das WWW kommt (ab 1991)

Page 4: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

Internettimeline (bis 1990)

• ARPANET startet mit 4 Knoten (Hosts, 1969)• NCP – erstes host-to-host protocol (1970)• 23 Hosts (1971)• RFC‘s für telnet und email (1972)• RFC für ftp (1973)• RFC für TCP (1974)• TCP wird geteilt in TCP/IP (1978)• Domain Name System (DNS, 1984); hosts > 1,000• Internet Engineering Task Force (1986)• hosts > 10,000 (1987)• IRC (1988)• hosts > 100,000 (1989); hosts > 1,000,000 (1992)

Page 5: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

Archie

• „Archiver“ , ab 1990 von Deutsch, Emtage, Heelan• McGill University, Montreal• Idee: Ein Verzeichnis von „Anonymen“ FTP-Server• Dazu Programm, dass nach FTP-Servern sucht• 3 Möglichkeiten, um Programme zu bekommen• Dienst, um Programme über FTP zu bekommen

• Index jedoch größtenteils manuell gepflegt

Page 6: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

Gopher

• 1991 von McCahill, University of Minnesota• Protokoll zum Bereitstellen von Textdokumenten• Menüstruktur• Später Dateien direkt zu finden (Archiefunktionalität)• Index manuell gepflegt

Page 7: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

Veronica

• 1992, University of Nevada• Wie Archie aber für Gopherserver• Über Veronica konnte man den „Gopherspace“absuchen

• Bedienung wie bei Gopher

•Index jedoch größtenteils manuell gepflegt

Page 8: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

Das WWW entsteht

• 1991, Tim Berners-Lee, CERN• http Protokoll und html Format• Dokument können mit multimedialen Inhalten,miteinander Verknüpft für alle bereitgestellt werden

• 1993 Mosaic der erste grafische Browser für dasWWW

• Riesen Vorteil: Informationen können für allebereitgestellt werden

Page 9: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

II. Die Geschichte der WWW Suchmaschinen

• Systeme um Informationen anzubieten• Websuchmaschinen• Metasuchmaschinen• Wer mit wem und wo kommt die Antwort einerSuchanfrage heute her

Page 10: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

Wie erfasst man das World Wide Web?

• Generell zwei Techniken:

• Robots/Spiders:• Programm das automatisch Daten im Netz aufspürt• Waren am Anfang des WWW „verpönt“

• Directory• Die Einträge im Index werden manuell eingetragen

• Heute meist Kombination von beiden

Page 11: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

World Wide Web Wanderer

• 1993, Matthew Gray, MIT• erster WWW-Robot • erst nur Erfassung von Servern, dann auch URLs• Entstandener Index durchsuchbar

• Diskussion kam auf: Sind Robots gut oder schlecht?

Page 12: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

Aliweb

• 1993, Martijn Koster• „Archie fürs WWW“• Manuell aufgebaut• Webmaster schicken besondere DateiNachteil:• Indexdatei war schwer aufzubauen• Nicht viele EinträgeVorteil:• Beschreibungen zu den Einträgen

Page 13: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

Jump Station• Neben URL auch Titel und Header indiziert• Index linear durchsucht

World Wide Web Worm• URL und Titel indiziert• Index linear durchsucht

Repository-Based Software Engineering (RBSE)• Suche mit „ranking system“ des Suchstrings

Die nächsten Robots

Page 14: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

Excite (Architext)

• Anfang 1993 in Stanford begonnen• Idee: Durch Statische Analyse von Ausdrückenbessere Suchergebnisse

• Ab 1995 für Webmaster verfügbar• Suche auf eigenen Seiten

Page 15: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

Yahoo!

• 1994, Filo und Yang, Stanford• Aus „Meine Links“-Seiten entstanden• sehr beliebt• durchsuchbares Verzeichnis entsteht• später: robots unterstützen Verzeichnisaufbau

Page 16: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

WebCrawler

• 1994, Pinkerton, University of Washington• Dokumente werden komplett indiziert• so beliebt, dass Bandbreitenprobleme an Uni

Page 17: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

Lycos

• 1994, Mauldin, Carnegie Mellon University• schnellster wachsender Index dieser Jahre• Suche unterstützte „prefix matching“ und „word proximity“

Page 18: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

AltaVista

• 1995, DEC• sehr schnell• viele Neuerungen, darunter• „natural language queries“• bool‘sche Operatoren• andere Medien (Bilder, Newsgroups, Java Applets)• Tipps für Benutzer auf der Suchseite

Page 19: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

GoTo (Overture)

• 1997, Gross• auf das reine Indizieren fokussiert• einfache Suche im Index• seit 1998 Verkauf von Platzierungen im Index• Seitdem Fokus darauf

Page 20: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

Open Directory

• 1998• offener Katalog• komplett manuell gepflegt von Freiwilligen

Page 21: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

Google

• 1998, Page und Brin, Stanford• PageRank als neue Technik• Leistungsfähige Textsuche• Leistungsfähige Indizierung des WWW

Page 22: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

MetaCrawler

• 1995, Selburg, University of Washington• Interface, um mehrere Suchmaschinen abzufragenProbleme:• nicht alle Suchmaschinen einverstanden• Formatierung der SuchanfragenVorteil:• Man durchsucht mehrere Indexe

Page 23: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

Und Heute?

• Extreme Verflechtungen untereinander• Nur noch wenige „große“ Seiten• „Ergebniskauf“ vs. Eigene Indexergebnisse • „Portale“ vs. reine Suchseiten

Page 24: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

Page 25: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

Rechneraufwand am Beispiel AltaVista

• 1 GB Text / pro Stunde• 40 GB Gesamtindex• 3 Mio. Seiten / Tag gescannt• 16 Maschinen für Index und Suche im Index• je: 8 GB RAM, 10 parallele Alphaproz., 260 GB HDD

Page 26: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

Zusammenfassung

• Es gab Suchmaschinen vor dem WWW• Fast alle Suchmaschinen an Unis entwickelt• daraus Firmen entstanden• Bezahlte (fremde) Ergebnisse vs. Indexergebnisse

Page 27: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

Benutzte Quellen

• A History of Search Engineshttp://www.wiley.com/legacy/compbooks/sonnenreich/history.html

• Hobbes' Internet Timeline - the definitive ARPAnet & Internet historyhttp://www.zakon.org/robert/internet/timeline/

• NetHistory: Searchhttp://nethistory.urldir.com/search.php

• History of Search Engines and Directorieshttp://www.seoconsultants.com/search-engines/history.asp

• Die Suchfibelhttp://www.suchfibel.de/5technik/suchmaschinen_beziehungen.htm

• History of Search Engines - Evolution & Revolutionhttp://webhome.idirect.com/~glenjenn/search/history1.htm

• A Brief History of the Internethttp://www.walthowe.com/navnet/history.html

• EFF's (Extended) Guide to the Internethttp://www.eff.org/Net_culture/Net_info/EFF_Net_Guide/EEGTTI_HTML/eeg_toc.html#SEC204

Page 28: Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen · 2018-03-04 · Thomas Sliwa Institut für Informatik – Freie Universität Berlin Internet: sliwa E-Mail: sliwa@inf.fu-berlin.de

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: [email protected]

Noch Fragen ?