30
Nicht nur die Inhalte im Internet wachsen, auch die Suchdienstan- bieter lassen sich immer neue Funktionen einfallen. Wir haben für Sie einige belieb- te deutsche und internationale Suchma- schinen ausgewählt, um Ihnen derzeit ge- bräuchliche Sonderfunktio- nen zu erläutern. In der Tabelle auf Seite 92 können Sie außerdem die wich- tigsten Befehle und Features der Suchma- schinen nachschlagen und vergleichen. Acoon.de Die Suchmaschine bietet für den deutschsprachigen Raum nicht nur sehr gute Such- ergebnisse, sondern präsen- tiert diese auch mit beein- druckender Geschwindigkeit. Ein besonderes Feature, das das Suchen erleich- tern soll, ist der intelli- gente Such-Assistent. Da- hinter verbirgt sich eine Trup- pe von Web-Scouts, die Ihnen bei der Suche behilflich ist. Über ein Chat-Fenster äußern Sie Ihre Suchwünsche gegenüber dem Scout, und dieser macht sich für Sie auf die Suche. Nach rund 30 Minuten wer- den Ihnen an eine zuvor angegebene eMail-Adresse mehrere Suchergebnisse gesandt. Die komplette Dienstleistung wird von Acoon kostenlos angeboten. Altavista.de Altavista gehört zu den Klassikern unter den Suchmaschinen und hat deren Syntax maßgeblich geprägt. Seit dem Relaunch bietet Altavista einige zusätzliche Funk- tionen an, die Ihnen vor allem bei der Auf- bereitung der Ergebnisse weiterhelfen. So können Sie über die Profisuche extra Sor- tierkriterien definieren, nach denen Ihre Suchergebnisse aufbereitet werden. Dar- über hinaus stehen Ihnen auch nach der Darstellung der Suchergebnisse weitere Klassifikationskriterien zur Verfügung: Über die Registerkarten können Sie die Resultate nach deutschsprachigen oder weltweiten Funden, Bildern, Musik oder Videos unterscheiden. FastSearch Neben guten Suchergebnissen ist die Möglichkeit zur Eingabe von Such-Strings eine maßgebliche Stärke von FastSearch. Unter- stützt wird die Filterung von 31 Sprachen via ISO-Code und eine bequeme Filte- rung von Domains. Erstnut- zern steht ein einfaches Tool für das Zusammenstellen des Such-Strings per Aus- wahlbox zur Verfü- gung. Nahezu ein- zigartig ist die Cu- stomizing-Funktiona- lität. Via Cookie werden die Einstellungen zu Sprache, Content Reduction und Wortfilter lokal auf Ihrem Rechner abgelegt. Google Die aus einem Forschungsprojekt entstan- dene Suchmaschine ist inzwischen mehr als ein Geheimtip. Interessant sind bei Google besonders zwei Funktionen, wel- che die Aufbereitung der Ergebnisse be- treffen. Oft entspricht die von der Such- maschine indizierte Seite nicht mehr dem Inhalt, der sich aktuell auf der Seite be- findet. Gerade bei Einstiegsseiten größe- rer Sites findet zum Teil im Minutenab- stand ein Wechsel der Daten statt. Mit der Funktion „Im Cache“ zeigt Ihnen Google die Seite an, die indiziert wurde und den Treffer ausgelöst hat. Überdies ist jeder Treffer in der Ergebnisliste mit einem Link zum GoogleScout ausgestattet. Über diese Verknüpfung liefert Ihnen Google Seiten mit verwandten Ergebnissen. Lycos Benutzerfreundlichkeit wird bei Lycos großgeschrieben. „NEAR“, „FAR“, „+“ und „–“ haben ausgedient. Zur Steuerung des Strings steht Ihnen eine Auswahlbox zur Verfügung. Damit gehen zwar Kombi- nationsmöglichkeiten verloren, dafür muß nicht die Suchmaschinen-spezifische Syn- tax erlernt werden. Interessant ist die Su- che im Wörterbuch, die Ihnen die aktuel- le deutsche Rechtschreibung und zu Fremdwörtern die passende Erklärung lie- fert. Erwähnenswert sind bei Lycos noch die Relevanzkriterien: Sechs Möglichkei- ten stehen zur Verfügung, um den Einga- ben mit den Attributen „wichtig“, „mittel“ und „unwichtig“ eine Bedeutung zuzu- weisen und das Ergebnis zu gewichten. Northern Light Nahezu einzigartig sind die Auswahlkri- terien, die bei der Zusammenstellung ei- nes Suchergebnisses zur Verfügung ste- hen. Zum einen offeriert Northern Light neben Standard- und Power-Suche mit Bu- siness- und Investment-Suche weitere the- menspezifische Optionen. Nicht einzigar- tig, aber im Zusammenspiel mit den Ka- tegorisierungen innerhalb der einzelnen Sektionen selten zu finden. Über die Po- wer-Suche können Sie für die Inhalte der HTML-Seiten aus bis zu 16 Sparten aus- wählen, kategorisiert nach Inhalten ste- hen weitere 15 Checkboxen zur Verfügung. So lassen sich schnell und individuell oh- ne lange Befehlszeilen die gewünschten Seiten zusammenklicken. = Andreas Hitzig 90 internet world januar 2001 praxis recherche im netz URLs Suchmaschinen Acoon – http://www.acoon.de Altavista – http://www.altavista.de FastSearch – http://www.alltheweb.com Google – http://www.google.com Lycos – http://www.lycos.de Northern Light – http://www.northernlight.com Die Kunst des Suchens Viele große Suchmaschinen sind in den letzten Monaten um interessante neue Funktionen erweitert worden.

praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

� Nicht nur die Inhalte im Internetwachsen, auch die Suchdienstan-

bieter lassen sich immer neue Funktioneneinfallen. Wir haben für Sie einige belieb-te deutsche und internationale Suchma-schinen ausgewählt, um Ihnen derzeit ge-bräuchlicheSonderfunktio-nen zu erläutern.In der Tabelle aufSeite 92 können Sieaußerdem die wich-tigsten Befehle undFeatures der Suchma-schinen nachschlagenund vergleichen.

Acoon.deDie Suchmaschine bietet fürden deutschsprachigen Raumnicht nur sehr gute Such-ergebnisse, sondern präsen-tiert diese auch mit beein-druckender Geschwindigkeit.Ein besonderes Feature,das das Suchen erleich-tern soll, ist der intelli-gente Such-Assistent. Da-hinter verbirgt sich eine Trup-pe von Web-Scouts, die Ihnen bei derSuche behilflich ist. Über ein Chat-Fensteräußern Sie Ihre Suchwünsche gegenüberdem Scout, und dieser macht sich für Sieauf die Suche. Nach rund 30 Minuten wer-den Ihnen an eine zuvor angegebeneeMail-Adresse mehrere Suchergebnissegesandt. Die komplette Dienstleistungwird von Acoon kostenlos angeboten.

Altavista.deAltavista gehört zu den Klassikern unterden Suchmaschinen und hat deren Syntaxmaßgeblich geprägt. Seit dem Relaunchbietet Altavista einige zusätzliche Funk-tionen an, die Ihnen vor allem bei der Auf-bereitung der Ergebnisse weiterhelfen. So

können Sie über die Profisuche extra Sor-tierkriterien definieren, nach denen IhreSuchergebnisse aufbereitet werden. Dar-über hinaus stehen Ihnen auch nach derDarstellung der Suchergebnisse weitereKlassifikationskriterien zur Verfügung:Über die Registerkarten können Sie dieResultate nach deutschsprachigen oderweltweiten Funden, Bildern, Musikoder Videos unterscheiden.

FastSearchNeben guten Suchergebnissen istdie Möglichkeit zur Eingabe vonSuch-Strings eine maßgeblicheStärke von FastSearch. Unter-stützt wird die Filterung von31 Sprachen via ISO-Codeund eine bequeme Filte-

rung von Domains. Erstnut-zern steht ein einfaches Tool für

das Zusammenstellen desSuch-Strings per Aus-

wahlbox zur Verfü-gung. Nahezu ein-zigartig ist die Cu-

stomizing-Funktiona-lität. Via Cookie werden

die Einstellungen zu Sprache,Content Reduction und Wortfilter

lokal auf Ihrem Rechner abgelegt.

GoogleDie aus einem Forschungsprojekt entstan-dene Suchmaschine ist inzwischen mehrals ein Geheimtip. Interessant sind beiGoogle besonders zwei Funktionen, wel-che die Aufbereitung der Ergebnisse be-treffen. Oft entspricht die von der Such-maschine indizierte Seite nicht mehr demInhalt, der sich aktuell auf der Seite be-findet. Gerade bei Einstiegsseiten größe-rer Sites findet zum Teil im Minutenab-stand ein Wechsel der Daten statt. Mit derFunktion „Im Cache“ zeigt Ihnen Googledie Seite an, die indiziert wurde und den

Treffer ausgelöst hat. Überdies ist jederTreffer in der Ergebnisliste mit einem Linkzum GoogleScout ausgestattet. Über dieseVerknüpfung liefert Ihnen Google Seitenmit verwandten Ergebnissen.

LycosBenutzerfreundlichkeit wird bei Lycosgroßgeschrieben. „NEAR“, „FAR“, „+“und „–“ haben ausgedient. Zur Steuerungdes Strings steht Ihnen eine Auswahlboxzur Verfügung. Damit gehen zwar Kombi-nationsmöglichkeiten verloren, dafür mußnicht die Suchmaschinen-spezifische Syn-tax erlernt werden. Interessant ist die Su-che im Wörterbuch, die Ihnen die aktuel-le deutsche Rechtschreibung und zuFremdwörtern die passende Erklärung lie-fert. Erwähnenswert sind bei Lycos nochdie Relevanzkriterien: Sechs Möglichkei-ten stehen zur Verfügung, um den Einga-ben mit den Attributen „wichtig“, „mittel“und „unwichtig“ eine Bedeutung zuzu-weisen und das Ergebnis zu gewichten.

Northern LightNahezu einzigartig sind die Auswahlkri-terien, die bei der Zusammenstellung ei-nes Suchergebnisses zur Verfügung ste-hen. Zum einen offeriert Northern Lightneben Standard- und Power-Suche mit Bu-siness- und Investment-Suche weitere the-menspezifische Optionen. Nicht einzigar-tig, aber im Zusammenspiel mit den Ka-tegorisierungen innerhalb der einzelnenSektionen selten zu finden. Über die Po-wer-Suche können Sie für die Inhalte derHTML-Seiten aus bis zu 16 Sparten aus-wählen, kategorisiert nach Inhalten ste-hen weitere 15 Checkboxen zur Verfügung.So lassen sich schnell und individuell oh-ne lange Befehlszeilen die gewünschtenSeiten zusammenklicken.

= Andreas Hitzig

90 internet world januar 2001

praxis recherche im netz

URLs

SuchmaschinenAcoon – http://www.acoon.de

Altavista – http://www.altavista.de

FastSearch – http://www.alltheweb.com

Google – http://www.google.com

Lycos – http://www.lycos.de

Northern Light –

http://www.northernlight.com

Die Kunst des Suchens

Viele große Suchmaschinen sind in den letzten Monaten

um interessante neue Funktionen erweitert worden.

Page 2: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

92

inte

rne

t w

orl

dja

nu

ar 2

001

suchmaschinen-logik

Die Funktionen der wichtigsten Suchmaschinen im ÜberblickName URL Allgemeine Einstellungen Logische Operatoren Suchbereiche Sonstiges

Suche Suche nach Sortierung Variable UND ODER NOT NEAR kom- Titel Web- eMail- Meta- Links Domains Applet Bild Audio Video Wildcard Phrase Zusammen- Sortierung Sonder-nach allen mindestens nach Anzahl von plettes Adresse Adresse Begriffe /MP3 fassung funktionenWörtern einem Wort Domains Suchergeb- Doku-

nissen/Seite ment

Acoon http://www.acoon.de � � � � +A+B A B -B � auto- � � � � � � � � � � inter* � � nach WAP-Suche,

matisch Relevanz Suchassistent

Altavista.de http://www.altavista.de � � Profi- � A AND B A OR B NOT B A NEAR B auto- title: url: mailto: � link: domain:DE applet: Menü/ Menü Menü inter* „internet (A OR B) Profisuche verschiedene

suche matisch Begriff Adresse Adresse URL_Text Name image: world“ AND C frei Themensuchen,

Name wählbar Offline-Suchguide

Excite.de http://www.excite.de � � � � A AND B A OR B NOT B � auto- � � � � � � � Menü Menü Menü inter* Menü (A OR B) nach Suche nach Hotel,

matisch Power- AND C Relevanz Flügen und

suche oder URL eMail-Adressen

FastSearch http://www.alltheweb.com � � � � A+B A B NOT B � Menü Menü Menü � � Menü Menü � eigene eigene eigene inter* Menü � eigene Suche nach WAP,

Suche Suche Suche Logik FTP, MP3 und

Multimedia

Fireball http://www.fireball.de � � Profi- � A AND B A OR B NOT B A NEAR B Profi- Profi- Profi- Profi- Profi- Profi- Profi- applet: image: � � inter* „internet (A OR B) Profisuche Katalog-Suche,

suche suche suche suche suche suche suche suche Name Name world“ AND C Live-Suche, Datum

als Suchkriterium

Go http://www.go.com � � � � A AND B A OR B NOT B � auto- title: url: � � link: Menü � Menü Menü Menü inter* „internet � nach Suche innerhalb

matisch Begriff Adresse URL_Text world“ Relevanz Ergebnissen, Suche

oder Datum nach Rubriken

Google http://www.google.com � � � � A B � -B � auto- � � � � link: � � � � � � „internet � nach 16 Sprachen,

matisch URL_Text world“ Relevanz Anzeige ähnlicher

Seiten, Cache

HotBot http://www.hotbot.com � � � � A AND B A OR B NOT B � Menü Menü Menü � � Menü Menü � Menü Menü Menü inter* „internet (A OR B) keine umfangreiche

world“ AND C Angaben Suchkriterien

Lycos.de http://www.lycos.de � � � � A AND B A OR B NOT B A NEAR B Menü Menü Menü � � � Menü � Menü Menü � inter* „internet (A OR B) nach eigene

world“ AND C eigenen Relevanzkriterien,

Angaben 38 Sprachen

Northern Light http://www.northernlight.com � � � � A AND B A OR B NOT B � auto- Menü Menü � � � � � � � � inter* „internet (A OR B) nach umfangreiche

matisch world“ AND C Relevanz Menüselektion zur

Einschränkung der

Suchergebnisse

Web.de http://www.web.de � � � � +A+B A B -B � auto- Menü Menü � Menü � Menü Menü Menü � � inter* „internet (A OR B) k. A. Speicherung von

matisch world“ AND C Such-Layout, WAP-

Suche, Live-Suche

Yahoo.de http://www.yahoo.de � � � � A+B A B -B � auto- t: u: � � � � � � � � inter* „internet (A OR B) nach zeitliche

matisch Begriff Adresse world“ AND C Kategorien Einschränkung

der Ergebnisse

� = vorhanden � = nicht vorhanden

Page 3: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

� Web-Sites, die stetig wachsen, wer-den leicht unübersichtlich, und ge-

rade ältere Informationen sind kaum mehrauffindbar. Allerspätestens dann, wennSie selbst nicht mehr wissen, wo sich wel-che Seiten in Ihrem Web befinden, solltenSie sich Gedanken über die Integration ei-ner Suchmaschine machen.

Je nach Ausgangssituation stehen da-bei verschiedene Lösungen zur Verfügung.Zwei Punkte gilt es zu beachten: � Haben Sie vollen Zugriff auf den Web-

Server und können Sie dort beliebigSoftware installieren?

� Wie groß ist die Site, welches Budgetsteht zur Verfügung?

Im Prinzip funktioniert der Aufbau einerSuchmaschine für die eigene Site immernach dem gleichen Muster, unabhängigvon der jeweils eingesetzten Technologie:Der Site-Master definiert eine Reihe vonParametern und schickt anschließend ei-nen sogenannten Parser durch seine Sei-ten. Dieser digitale Spürhund erstellt ei-nen Index, in dem er wichtige Schlüssel-wörter sammelt. Greift der Benutzer on-line auf die Suchmaschine zu, dann wer-den nicht die Seiten selbst, sondern dieserIndex durchsucht. Das spart eine MengeZeit. Systeme, die nicht einen Index, son-dern die Dateien selbst durchforsten, funk-tionieren nur bei kleinen Sites. Für ganzgroße Sites ab 10.000 Seiten sollten pro-fessionelle Systeme eingesetzt werden.Welches System sich am besten eignet,hängt in hohem Maß vom eingesetztenServer ab.

Unser Focus richtet sich auf kleine undmittlere Sites. Für diese stehen aus tech-

nologischer Sicht vier ver-schiedene Möglichkeitenzur Verfügung: Suchdien-ste, Java, Perl und pro-prietäre Software. Die er-sten beiden Varianten funk-tionieren praktisch immer,sind allerdings von der Per-formance her ziemlich begrenzt. DiePerl/CGI-Variante ist die Standardlösung.Um sie nutzen zu können, muß der Web-Master freien Zugriff auf das CGI-Ver-zeichnis des Web-Servers haben, und die-ser wiederum muß Perl unterstützen. Vie-le Hoster bieten bereits vorgefertigte Such-Scripts an, die Dokumente im Volltextdurchforsten. Spezialisierte Such-Soft-ware muß parallel zum Web-Server in-stalliert werden. Eine solche Installationsollten jedoch nur Profis durchführen.

Der einfachste und schnellste Weg, umzur eigenen Suchmaschine für die Web-Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es gibt eine Reihe vonAnbietern im Netz, die dem BenutzerSuchdienste zur Verfügung stellen.Während die Eingabemaske auf der eige-nen Web-Site steht, erscheint die Ant-wortseite in der Regel beim Dienstleister.Bei den kostenlosen Varianten wird dortmeist Werbung eingeblendet. Außerdemprofitiert der Dienstleister natürlich vomTraffic. Einer dieser Dienstleister, Freefind,erlaubt die Anpassung der Antwortseite andas eigene Layout. Der Benutzer erkenntnur an der URL, wo er gelandet ist, undkommt mit dem nächsten Klick zurück.Beim Einsatz von Frames ändert sich nichteinmal die URL.

Das Basis-Setup für Freefind ist eine Sachevon Minuten. Auf der Homepage des Dien-stes befindet sich ein Formular, in dem nurdie Domain, eine eMail-Adresse und eineRubrik für die Site angegeben werden müs-sen. Alles weitere erledigt die Maschine:Nach 24 Stunden landet die Bestätigungs-Mail im Briefkasten.

Im ControlCenter auf der Freefind-Sitewird nun zunächst die Indexierung aus-gelöst. Dieser Vorgang kann in einem be-stimmten Rhythmus automatisiert wer-den, so daß der Index auch von Neuerun-gen erfährt. Es empfiehlt sich, die Inter-valle nicht zu kurz zu wählen, denn jederBesuch des Robot frißt selbstverständlichauch Server-Leistung. Ist die Site an mehrals eine Domain angebunden, lassen sichweitere Domain-Namen über die Feinein-stellungen – erreichbar im ControlCenterüber den Button „Next“ – angeben.

Im zweiten Schritt wird der Code in dieeigene Web-Site eingebaut. Es handelt sichum ein einfaches Formular, das den oderdie Suchbegriffe an ein Perl-Script auf demFreefind-Server übergibt. Dieses durch-sucht den erstellten Index und liefert dieErgebnisseite. Das Ergebnis entsprichtdem, was man von den großen Suchma-schinen gewohnt ist. Als Link dient derTitel der Seiten, als Beschreibung werdendie „Description“ aus den Meta-Tags oder

94 internet world juli 2000

praxis lokale suchmaschine

Eine integrierte Suchmaschine hilft, spezielle

Informationen auf der Web-Site leichter zu

finden. Wir sagen, wie’s geht.

PersönlicherSSppüürrhhuunndd

Page 4: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

die ersten Textzeilen innerhalb der Seiteaufgeführt. Bei der Generierung von Meta-Tags sollte daher darauf geachtet werden,jeder Seite eigene Keywords und eine ei-gene Beschreibung zu geben. Ein Klick aufeinen der Links führt postwendend zurückzur Web-Site.Hier das Formular:<form action=“http://search.freefind.com/ find.html“ method=“GET“ target=“_top“><center><font size=“-1“> <font color=“#FF6666“>Der Sitefinder </font> powered by FreeFind</font> <input type=“HIDDEN“ name=“id“ size=“-1“ value=“1234565“><input type=“HIDDEN“ name=“pid“ size=“-1“ value=“r“><input type=“HIDDEN“ name=“mode“ size=“-1“ value=“ALL“><input type=“TEXT“ name=“query“ size=“20“> </center>&nbsp; <font size=“-1“> <font face=“Courier New, Courier, mono“><input type=“radio“ name=“t“ value=“s“ checked>Site search <input type=“radio“ name=“t“ value=“w“>Web search </font></font> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <input type=“SUBMIT“ value=“ Such „ name=“SUBMIT“> </form>In diesem Code lassen sich die Beschrif-tungen „Site Search“ und „Web Search“sowie der „value“ des „Submit“-Buttonändern. Auch der Titel (hier: „Der Sitefin-der“) kann inklusive Farbe direkt im Codegeändert werden.

Um das Erscheinungsbild der Ergeb-nisseite zu ändern, gehen Sie ins Control-Center und dort in die Abteilung „Custo-mize“. Schritt für Schritt werden Sie durchdie Änderungsmöglichkeiten geführt. Da-bei kommt vor allem dem Hintergrundbildund den Schriftfarben besondere Bedeu-tung zu, um eine einheitliche, zu IhrerWeb-Site passende Optik zu erhalten. Daseinzufügende Logo erscheint ganz obenauf der Seite, wo es etwas verloren wirkt.Eventuell lohnt es sich, eine grafische An-passung vorzunehmen und einen breitenStreifen von geringer Höhe (30–40 Pixel)als Logo zu definieren. Sie müssen dieseDatei auf Ihrem Web-Server plazieren undFreefind die exakte URL mitteilen. Die Aus-wahl der Texte auf der Ergebnisseite erfolgt

nicht hier, sondern in einem anderen Menünamens Search Setup.

Spannendstes Feature von Freefind sinddie Reports. Hier berichtet der Dienst, wel-che Suchanfragen er erhalten hat, und sor-tiert diese. Außerdem registriert er, welcheLinks geklickt wurden, und listet die mitden Seiten verbundenen Keywords auf.Das ist ein wertvolles Hilfsmittel bei derAnalyse der Besucherströme.

Der Site-Betreiber kann Freefind nochetwas genauer steuern. Sollen einige Da-teien ausgeklammert werden, so hat erzwei Möglichkeiten: Zum einen kann erdas Tag <!— FreeFind No Index Page —>im Kopf der jeweiligen Seite plazieren, be-vor die Site indiziert wird. Soll nur ein Teileiner Seite ausgeklammert werden, so lau-tet das Tag-Paar:<!— FreeFind Begin No Index —><!— FreeFind End No Index —>Alles außerhalb dieser Klammern wird in-diziert. Die andere Möglichkeit ist die Er-stellung einer Robots-Datei. Dazu muß ei-ne Datei namens robots.txt im Stammver-zeichnis des Web-Servers liegen. In dieserDatei steht, welche Ordner und Dateiennicht von den Suchmaschinen indiziertwerden sollen (siehe Kasten). Das giltnicht nur für Freefind, sondern auch fürdie meisten großen Suchdienste im Web.

Um die Reihenfolge der Treffer zu ma-nipulieren, muß man wissen, wie Freefindindiziert. Jedes gefundene Wort wird re-gistriert. Die Anzahl der Treffer bestimmtdie Reihenfolge des Erscheinens aufder Ergebnisseite. Die Begriffe im

internet world juli 2000 95

info

robots.txtDie Norobots-Datei muß im Basisverzeich-

nis des Web-Servers gespeichert werden. Es

trägt zu Beginn einen Titel, dann folgen die

angesprochenen Suchmaschinen (User

Agent) mit den Zutrittsverboten.

# robots.txt for http://www.beispiel.de/User-agent: *Disallow: /testeiten/alle/Disallow: /tmp/ Disallow: /pass.htmlDiese Datei besagt, daß alle Suchmaschinen

Seiten, die innerhalb der Ordner „testsei-

ten/alle“ und „tmp/“ liegen, ignorieren sol-

len. Das gilt auch für die darin enthaltenen

Unterordner. Außerdem wird die Einzelsei-

te „pass.htm“ vom Zugriff ausgenommen.

Page 5: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

Titel der Seite und in den Meta-Tags zählendoppelt. Um die Wertigkeit einer Seitenoch weiter zu steigern, kann man einKeyword künstlich wiederholen:<!—FreeFind keywords words=“word1 word2 etc etc“ count=“5“—>Einen Nachteil hat Freefind allerdings: DieBoolschen Suchoperatoren gelten hiernicht, und Wildcards können ebenfallsnicht eingegeben werden. Die String-Definition mit Anführungszeichen (z. B.„Valerien Beckenbauer“) führt nicht wiegewohnt zur passenden Zeichenkette, son-dern wird per AND verbunden. Grundsätz-lich gilt für jede Suchanfrage mit mehre-ren Begriffen, daß zunächst AND vermu-tet wird. Wenn das nicht funktioniert,kommt OR zum Tragen.

Eine mögliche Java-Lösung ist Quest-Agent von JObjects. Die Software kann fürnichtkommerzielle Anwendungen kosten-los genutzt werden. Für kommerzielleAnwender gibt es verschiedene Lizenz-modelle, je nachdem, ob es sich um einen

Hoster oder einen einzelnen Site-Betreiberhandelt. Für die Benutzung von Quest-Agent sind nur wenige Voraussetzungenzu erfüllen. Der Site-Betreiber benötigt aufseinem Rechner eine funktionierende ak-tuelle Virtual Machine. Fehlt diese, ist dasnicht so schlimm, denn das große Down-load-Päckchen von JObjects (6,5 MByte)enthält einen Interpreter. Die fertige Suchefunktioniert mit jedem gängigen Java-fähigen Browser. Nur beim Internet Ex-plorer 3 erlebten wir zwei Abstürze, aberdieser Browser dürfte wohl kaum noch ei-ne Rolle spielen.

Ein einfaches Interface fragt Schritt fürSchritt die nötigen Informationen ab understellt sowohl den Index als auch die Ap-plets und die passende HTML-Seite. Letz-tere kann – wie bei allen Lösungen – nachdem eigenen Design gestaltet werden.Wahlweise läßt sich ein neues Projekt er-stellen oder ein bestehendes bearbeiten.Ein Wizard führt den Benutzer durch dasProgramm. Nach Auswahl und Benen-nung des Profils wird der Benutzer aufge-

fordert, den Zielordner für die Suche zudefinieren. Des weiteren fragt QuestAgentdie URL des Web-Servers ab. Diese Ein-gabe ist allerdings in den meisten Fällenüberflüssig.

Nach dem Klick auf „Next“ steht dieErstellung des Index an. Prüfen Sie dieDaten, die der QuestAgent anzeigt, undklicken Sie auf „Start Indexing“. DasProgramm durchforstet nun den ausge-wählten Ordner und alle Unterordner.

praxis lokale suchmaschine

96 internet world juli 2000

Die Konsole von QuestAgent ermöglicht die

einfache Programmierung der Suche, ohne in

den Quellcode gehen zu müssen

Page 6: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

QuestAgent erstellt eine Index-Datei, diezur Steuerung der Suchanfragen dient, so-wie mehrere unterschiedliche Inhaltsda-teien. Eine davon ist für die Links und Sei-tentitel verantwortlich. Aus dieser Dateiwird die Ausgabeliste generiert. Die wei-teren Dateien sind für die alphabetischeIndizierung zuständig. Mit der Funktion„Deploy“ wird der komplette Ordner in-klusive Java-Klassen und Suchmaske nacherfolgter Indizierung unter dem Namen„jobjects“ in das durchsuchte Basis-verzeichnis gelegt. Dem Site-Betreiberbleibt nun nur noch, die Suchseite namens„search2.html“ zu öffnen, den deutlichmarkierten Applet-Code zu kopieren undin eine eigene Suchseite einzufügen.QuestAgent bietet dabei auch gleich nochHinweise zur Suchhilfe an, die übernom-men werden können.

Die Java-Suche mit NetQuest ist rechtpassabel. Unser Index erreichte bei einerSite mit 100 HTML-Seiten insgesamt rund110 KByte. Die Suche funktioniert zuver-lässig. Als Ergebnis wird allerdings nur der

Seitentitel angezeigt. Das ist etwasdürftig und muß beim Aufbau derSite bedacht werden. Hier liegt dieeinzige erkennbare Schwäche desProgramms. Seine volle Leistungs-fähigkeit entfaltet das Tool, wennihm Sonderaufgaben gestellt wer-den; diese werden vor der Inde-xierung unter „Settings“ definiert.Die wichtigste Funktion ist derAusschluß von einzelnen Seitenund Ordnern. Dafür ist „Exclu-sion“ zuständig. Gehen Sie auf „Browse“,ermitteln Sie die gewünschte Datei, be-stätigen Sie mit „OK“ und fügen Sie dieDatei mit „Add“ der Ausschlußliste hinzu.Grundsätzlich durchsucht QuestAgentHTML- und TXT-Dateien. Weitere Web-fähige Dateiformate müssen bei den „FileTypes“ mit ihrem Mime-Type registriertwerden. Über einen kleinen Trick gelingtQuestAgent auch die Indizierung vonWord-Dokumenten und anderen pro-prietären Dateien: Kopieren Sie die Dateiund geben Sie der Kopie die Endung

„.dochtml“. Geben Sie diesen Dateityp beiden „File Extensions“ an, und schon wirddie Datei durchsucht.

Die Option für Datenbankprofis lautet„Handler“. Hier werden die zu lesendenFelder eines Dokuments näher bezeichnetund definiert. Auch die Priorität wird hierfestgelegt. Dabei ist der Handler nicht auffeste Tags wie Meta oder Body limitiert.QuestAgent kann auch mit selbstdefinier-ten XML-Strukturdaten umgehen. DemSuchenden stehen die wichtigstenBoolschen Verknüpfungen AND und

ak

tue

lle

sm

ag

azi

np

rax

iste

stse

rvic

e

internet world juli 2000 97

Die Berichte von Freefind geben Auskunft darüber, was

gesucht wurde

Page 7: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

OR zur Verfügung. Begriffe, die ohne Ver-knüpfung eingegeben werden, bekommenper se die AND-Bedingung, was den Such-komfort deutlich steigert. Außerdem kannder Benutzer der Suchmaschine mit Wild-cards arbeiten, etwa um auch einen mög-lichen Plural eines Suchbegriffs anzuzei-gen: „Pferd*“ liefert Ergebnisse wie Pferdund Pferde, aber auch Pferdehalfter.

Eine Server-basierte Suche benutzt inaller Regel die CGI-Schnittstelle und Perlals Programmiersprache. Bevor Sie zuWerke gehen, erkundigen Sie sich beiIhrem Web-Master, welche Perl-Versionder Web-Server verarbeiten kann. Kosten-lose CGI-Scripts unterschiedlichster Qua-lität gibt es im Web zuhauf. Wir be-schränken uns hier auf ein einfachesScript, das eine Volltextsuche durchführt.Boolsche Operatoren sind darin erlaubt,eine spezifische Rangordnung der Seitenerfolgt aber nicht. Eine etwas aufwendi-gere Lösung haben wir in Ausgabe 3/2000auf Seite 90 vorgestellt. Der Code steht aufder Web-Site der INTERNET WORLD un-ter http://www.internetworld.de/iw/magazin_listings_0300.htm zur Verfügung.

Der Vorteil der CGI-Lösung ist, daß der Ser-ver und nicht der Client die Sucharbeit lei-stet. Zudem lassen sich derartige Scriptssehr gut konfigurieren und den eigenen Be-dürfnissen anpassen. Nachteil allerdings:Die Volltextsuche dauert recht lange.

Wir benutzen ein Script namensSimpleSearch von Matt Wright. Das Scriptkommt in einer Zip-Datei zusammen miteiner Erklärung im Readme-File und einerHTML-Seite als rudimentäre Suchmaske.

Öffnen Sie zunächst die HTML-Seite.Sie sehen ein Formular mit der Aktion: <form method=POST action=“http://world widemart.com/scripts/cgi-bin/demos/ search.cgi“>Ändern Sie die Adresse des Links so, daßer auf Ihr CGI-BIN-Verzeichnis zeigt, zumBeispiel:<form method=POST action=“http://www.domain.de/cgi-bin/search.cgi“>Kopieren Sie nun das komplette Formularvon <FORM> bis <FORM>in eine eigene Sei-te und passen Sie das Layout an. Nunkommt die Datei search.pl an die Reihe.Öffnen Sie diese Datei mit einem Text-Edi-tor, der ungefragt keine Formatierungs-zeichen in der Seite hinterläßt. Auf Win-dows-Ebene eignet sich der „Editor“, fürgehobenere Ansprüche wäre zum BeispielTextpad von Helios zu empfehlen.

Der wesentliche Bereich befindet sichgleich im Kopf des Scripts:$basedir = ‘/www.domain.de/html/’;$baseurl = ‘http://www.domain.de/’;@files = (‘*.html’,’*.htm’, ‘intface/’);$title = „Franks Suche“;$title_url = ‘http://www.domain.de/;$search_url = ‘http://www.domain.de /search.html’;Problematisch sind nur die ersten beidenZeilen. Das Base-Directory ist das Grund-verzeichnis der zu durchsuchenden Da-teien. Die Base-URL ist die Domain. Bei-de werden vom späteren Script aneinan-dergehängt. Wie Sie sehen, wird in diesemBeispiel die Domain doppelt aufgeführt.Das ist häufig bei virtuellen Servern derFall, wo die Betreiber die Server einfachnach den Domain-Namen sortieren. ImZweifel müssen Sie ein bißchen testen, umden richtigen Pfad zu finden.

Auch die „@files“ werden dem Such-pfad beigefügt. Das Script von Wright führteine Positivsuche aus, es widmet sich al-so nur Dateien und Ordnern, die hierexplizit aufgeführt werden. Bei größerenWeb-Sites empfiehlt sich ein Script, das

statt dessen die aufgeführten Bereiche beider Suche ausläßt. In den Dateinamen sindWildcards erlaubt. Die Angabe des Ord-ners „intface/“ führt zum Durchsuchen al-ler darin enthaltenen Dateien. Die unterendrei Zeilen sind für den Seitentitel, denLink zur Homepage und den Link zurückzur Suchseite gedacht, die allesamt auf derErgebnisseite erscheinen. Im letzten Drit-tel des Scripts befinden sich einige Print-Anweisungen. Diese formatieren die Aus-gabeseite. Alles, was innerhalb der dop-pelten Anführungszeichen steht, istnormaler HTML-Code und kann ersetztwerden.

Das knifflige bei CGI-Scripts ist, daß sienicht einfach per se funktionieren, sobaldman sie auf den Server übertragen hat. Beidieser Übertragung ist übrigens unbedingtdarauf zu achten, daß sie im ASCII-Modusvonstatten geht, sonst wird die Dateizerstört. Perl-Scripts müssen auf demServer freigeschaltet werden. Bei gutenFTP-Clients, wie zum Beispiel Cute-FTP,ist diese Funktion bereits integriert, dochsie wird nicht von allen Servern unter-stützt. Mitunter ist die Eingabe von Handin der Kommandozeile nötig, zum Beispielwenn Sie einen Telnet-Zugriff auf einenUnix-Server haben. Fragen Sie imZweifelsfall lieber bei Ihrem Webmasternach, auf welche Weise Sie die Scriptsfreischalten können. = Frank Puscher

98 internet world juli 2000

praxis lokale suchmaschine

info

SuchoperatorenAND: Alle Worte müssen im selben Doku-

ment vorhanden sein.

OR: Eines der Worte muß vorhanden sein.

NOT: Dieses Wort darf nicht vorkommen.

STRING „“: Worte in Anführungszeichen

müssen in genau dieser Kombination in

der Seite erscheinen.

NEAR: Die beiden Suchbegriffe dürfen

höchstens 25 Worte auseinander liegen.

FAR: Die beiden Begriffe müssen mehr als

25 Worte auseinander liegen.

ADJ: Die beiden Worte müssen in beliebiger

Reihenfolge direkt nebeneinander lie-

gen.

BEFORE: Wie AND, aber mit fester Reihen-

folge.

ORDER: Die Ergänzung „O“ vor den anderen

Operatoren verlangt ebenfalls eine feste

Reihenfolge, etwa ONEAR.

WILDCARD „*“: Pferd* findet auch Pferde

und Pferdewagen.

URLs

Alle Links zum ThemaÜbersichten

http://service.freepage.de/cgi-bin/feets/

freepage_ext/41030x030A/rewrite/achim98

/suchm.htm

http://marcbauer.purespace.de/

suchmaschinen/eigene/index.htm

http://www.suchfibel.de/

Excite Web Search

http://www.excite.com/navigate/download.

html

C|Net-Workshop zur Meta-Suchmaschine

http://www.builder.com/Programming/

Scripter/110199/?tag=st.bl.3883.linksgp

Textpad

http://www.textpad.com/

Freefind

http://www.freefind.com/indexa.html

QuestAgent und andere Java-Lösungen

http://gamelan.earthweb.com/javaprogram

ming/applets/dir.utilsearchengines2.html

SimpleSearch

http://www.worldwidemart.com/scripts/

search.shtml#Downloading

Page 8: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

� Search-Engines sind integraler Be-standteil des World Wide Web. Denn

nur mitdem Einsatz dieser Helfer ist es Sur-fern möglich, der Informationsflut Herr zuwerden. Doch was auf den ersten Blick alsalltäglich und gegeben hingenommenwird, ist in Wahrheit nur durch ein Zu-sammenspiel komplexer Algorithmen undausgefeilter Technologien realisierbar.

Prinzipiell existieren zwei verschie-dene Typen von Suchmaschinen, die sichin ihrer Funktionsweise jedoch wesentlichunterscheiden:

Zum einen gibt es die sogenanntenDirectories. Die Datenbestände werdenausschließlich von Menschen gepflegt, dieentweder die Beschreibung einer Seite zurKatalogisierung einreichen oder aber – wasdie Aufgabe von Redakteuren ist – Seitenbegutachten und diese in die Datenbankenaufnehmen. Später wird die gesammelteInformation in eine hierarchisch organi-sierte Struktur von Kategorien eingeord-net, in denen der Benutzer gezielt in Spar-ten suchen und seine Suchanfrage belie-big spezialisieren kann, bis er schließlichdie gesuchte Information gefunden hat.Der Nachteil der Directories ist klar: Es istfür Menschenhand schier unmöglich, mit

dem explosionsartigen Wachstum des In-ternet Schritt zu halten. Nur wenige Siteskönnen indiziert werden, das Gros fälltdurchs Raster. Hier kommt die Rolle dereigentlichen Search-Engines zum Tragen:Diese erstellen ihren Datenbestand voll-

automatisiert mit Hilfe von Robots, die dasWeb durchwandern und die gesammeltenInformationen für Suchanfragen aufberei-ten und katalogisieren. Darum bezeichnetman jene auch gelegentlich als Web-Crawler.

Generell kann der interne Aufbau einerSearch-Engine in drei große Teile geglie-dert werden: Der erste ist der Spider, einspezialisierter Robot, der das Web durch-schreitet, Seiten besucht, diese zur späte-ren Indizierung vorbereitet und dann denLinks der Seite zu anderen Inhalten folgt.Die gesammelten Informationen desSpider finden schließlich im zweitengroßen Teil einer Search-Engine, demIndex, Verwendung. Diesen kann man sichals einen Katalog von immensem Ausmaßvorstellen, der Informationen zu allen ge-fundenen Web-Seiten, den darin enthalte-nen Schlüsselwörtern und etlichen weite-ren Daten enthält. Dieser Index bildet dieBasis für den dritten Part, das Suchwerk-zeug. Diese Applikation filtert die auf ei-ne Suchanfrage zutreffenden Daten ausdem Index heraus, bereitet diese auf undführt ein „Range-Ranking“, also eine Be-wertung der Relevanz eines Treffers für dieSuche, durch.

96 internet world mai 2000

praxis robots & spiders

DatenjägerUnermüdlich durchstreifen Suchmaschinen das Web

auf der Suche nach aktuellen Informationen. Wir führen Sie

durch das Innenleben dieser Automaten.

URLs

Weitere InformationenWer weiterführende Literatur u. a. zu den

Themen Robots, Spiders und Standard for

Robot Exclusion sucht, wird hier auf jeden

Fall fündig:

http://info.webcrawler.com/mak/projects/

robots/faq.html

Wer diesen Link besucht, findet die berühm-

te Web Robots FAQs von Martijn Kosters, die

keine Fragen offenlassen:

http://info.webcrawler.com/mak/projects/

robots/guidelines

Richtlinien für das Schreiben von Robots mit

gutem Benehmen:

http://www.webreference.com/content/

search/how.html

Informationen zum Thema Suchmaschinen

allgemein und Tips für das Range-Ranking.

Page 9: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

ersten Link zu einem Dokument, liest die-ses und extrahiert für den Index relevan-te Daten. Für seinen weiteren Weg durchsWeb listet der Spider alle im Dokumentvorkommenden Links auf, zieht jedochnur die in Betracht, die auf Dokumenteverweisen. Grafik, Musik und alle weite-ren Medien fordert der Spider erst gar nichtan. Hierin liegt unter anderem ein Grundfür die außergewöhnlich hohe Effizienz inbezug auf die Geschwindigkeit diesesRobot-Typen. Schließlich folgt er dem er-sten noch nicht besuchten Link des gela-denen Dokuments und wiederholt die Pro-zedur. Enthält das Dokument keine wei-teren Verknüpfungen zu anderen Doku-menten, taucht der Spider aus seiner re-kursiven Schleife auf und versucht es eineEbene höher. Auf dieser folgt er nun eben-falls wieder dem ersten noch nicht be-suchten Link. Diese Vorgehensweise wie-derholt er so lange, bis er keine unbe-suchten Links mehr findet und die Basis-liste abgearbeitet hat. Eine Veranschauli-chung der Vorgehensweise beim Durch-schreiten des Web können Sie dem Dia-gramm entnehmen.

Die Daten, die der Spider im Verlaufeines Zyklus sammelt, können zu ver-schiedenen Zwecken genutzt werden. Inerster Linie dienen sie zur Erstellung oderzur Aktualisierung des Index. Die Datenkönnen jedoch auch genutzt werden, umein effizientes Range-Ranking zuermöglichen: Spider ermitteln die

Die Tiefensuche ist das Herzstück desRobots. Mit ihrer Hilfe wird eine Durch-wanderung großer Teile des anarchischstrukturierten Web erst ermöglicht: Aus-gehend von einer Liste von URLs, die ei-ne Art Grundstock für die Suche darstellt,taucht der Spider ins Web ein. Er folgt dem

Spider sind autark agierende Agenten,die ihren Dienst ohne menschliches Zutunverrichten. Die Funktionsweise basierthauptsächlich auf einer angepaßten Formdes als Tiefensuche bekannten Algorith-mus. In seltenen Fällen wird an dessenStelle auch Breitensuche verwendet.

ak

tue

lle

sm

ag

azi

np

rax

iste

stse

rvic

e

internet world mai 2000 97

info

Standard for Robot ExclusionDie erste Aktion, die ein Spider mit gutem Be-

nehmen beim Besuch einer Site ausführt, ist

das Auslesen der Datei robots.txt und die Be-

folgung der darin genannten Instruktionen.

Findet er diese Datei hingegen nicht vor,

nimmt er an, daß er auf der Site willkommen

ist, und indiziert alle Dokumente, auf die er

Zugriff erhält.

Um Spider von Verzeichnissen fernzuhalten,

dient die Erstellung einer solchen Datei im

Stammverzeichnis der Site. Die Datei enthält

einige simple Befehle, die an dieser Stelle an-

hand eines Beispiels näher erläutert werden:

00 # Beispiel einer robots.txt Datei01 User–agent: *02 Disallow: /content/temp/03 Disallow: /users/04 User–agent: Scooter05 Disallow: /content/temp06 User–agent: Wanderer07 Disallow:

08 User-agent: Walker09 Disallow: /

Die erste Zeile beinhaltet einen Kommentar,

der durch ein Doppelkreuz eingeleitet und

vom Spider nicht interpretiert wird. In ihr sind

die Robots, für die nachfolgende Restriktionen

bzw. Anweisungen gelten, aufgelistet: Hier

steht entweder der Name des Spider oder ein

Stern, um alle Robots anzusprechen. Die Zei-

len zwei und drei nennen die Verzeichnisse,

deren Zutritt den Spiders untersagt ist. In Wor-

te gefaßt, untersagt unser Beispiel allen Spi-

ders den Zugriff sowohl auf /content/temp/

als auch auf /users.

Allerdings gilt dies nicht für die Robots mit Na-

men Scooter, Wanderer und Walker: Der erste

darf lediglich auf /content/temp nicht zugrei-

fen, während dem zweiten sogar uneinge-

schränkter Zugriff gewährt wird. Walker hin-

gegen ist der Zutritt zu sämtlichen Verzeich-

nissen verwehrt.

Page 10: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

Popularität von Sites, indem sie die Linkszählen, die auf diese verweisen. Generellgilt: Je beliebter die Site, desto relevanterist sie für eine auf jene Site zutreffendeSuchanfrage des Benutzers, und desto wei-ter oben wird sie in der Präsentation derSuchergebnisse gelistet werden.

Spider indizieren in wenigen Minutenmehr Seiten, als ein Mensch an einem Tagbearbeiten kann. Der AltaVista-Spider in-diziert etwa 2,5 Millionen Seiten pro Tag.Zieht man in Betracht, daß Search-Engineswie Pilze aus dem Boden sprießen, wirdschnell klar, daß Spider den Web-Trafficwesentlich erhöhen. Ernsthafte Problemekönnen jedoch entstehen, wenn einschlecht programmierter Spider auf einenServer zugreift und diesen mit einem An-sturm von Anfragen bombardiert. Bedingtdurch die Tatsache, daß Spider vollauto-matisiert sind, können sie riesige Da-tenmengen in kürzester Zeit anfordern.Beziehen sich diese Anforderungen jedochauf einen einzigen Server, kommt dies ofteiner Denial-of-Service-Attacke gleich(siehe IW 4/2000). Das Problem tritt auf,wenn der Tiefensuch-Algorithmus fehler-haft programmiert ist. Dann rotiert derSpider in einer Endlosschleife, die ihn stets

zu den gleichen Seiten zurückführt undden Server konstant belastet.

Auch temporäre HTML-Dokumentesind ein Problem, da der Spider nicht„weiß“, daß deren Existenz im Web nurvon kurzer Dauer ist und er sie somit in-diziert. Wird bei einer Suchanfrage einesolche Seite gelistet und vom Benutzerangeklickt, erfolgt ein Sprung ins Leere –der entsprechende Server generiert eineFehlermeldung.

Das wohl bekannteste und weltweitakzeptierte Protokoll für gutes Verhaltenvon Spidern, der „Standard for RobotExclusion“, wurde bereits 1994 von einerGruppe von Internet-Nutzern geschaffen.Dieses Protokoll erlaubt es den Admini-stratoren von Web-Sites, Spider voneinigen oder allen Bereichen der Siteauszuschließen. Zwar ist der „Standard forRobot Exclusion“ nur ein informelles Pro-tokoll und lediglich eine Empfehlung fürbesuchende Spider, doch hält sich in derRegel der Großteil der Robots an diese.Detaillierte Informationen finden Sie imKasten auf Seite 97.

Prinzipiell muß zwischen zwei Varian-ten der Indizierung differenziert werden:

In einer Volltext-Indizierung wird das ge-samte Dokument durchsucht und sämtli-che darin vorkommende Begriffe gesam-melt. Dabei werden jedoch Wörter wie„das“, „er“ oder „ist“ nicht indiziert, dasie der Charakterisierung einer Seite nichtdienlich sind. Die Auslese findet meist mitHilfe einer Art Wörterbuch statt, in demsolche irrelevanten Begriffe vermerkt sind.Bei einer Nicht-Volltext-Indizierung hin-gegen werden nur Teile des Dokuments,gewöhnlich die META-Tags, Header, Titelund/oder der erste Absatz, indiziert. Da-durch läßt sich eine Beschleunigung derIndizierung und somit eine Schonung derRessourcen des Web-Servers, auf dem derSpider ausgeführt wird, erzielen, daschließlich nicht das ganze Dokumentdurchsucht werden muß. Nachteilig wirktsich jedoch die Tatsache aus, daß viele In-formationen innerhalb des Texts verloren-gehen und die Indizierung des Dokumentssomit weniger exakt und adäquat ist.Außerdem sind META-Tags nicht reprä-sentativ für den tatsächlichen Inhalt einerSeite. Viele Betreiber führen zahlloseSchlüsselwörter und Schlagworte ausmöglichst vielen unterschiedlichen Berei-chen auf, um bei sämtlichen Suchanfra-gen gelistet zu werden.

98 internet world mai 2000

praxis robots & spiders

tip suchmaschinen

So kommen Sie in Suchmaschinen auf die vorderen PlätzeDer Eintrag in eine Suchmaschine ist nur dann

erfolgreich, wenn Sie bei den Suchergebnissen

einen der vorderen Plätze belegen. Wir zeigen

Ihnen im folgenden, worauf Sie besonders

achten sollten.

Suchmaschinen lassen sich nicht mehr so ein-

fach überlisten wie früher, als es genügte, ei-

nen Begriff beliebig oft in den Keywords zu wie-

derholen. Die Robots sind lernfähiger gewor-

den. Es gibt jedoch immer noch ein paar Knif-

fe, wie Sie Ihre Plazierung positiv beeinflussen

können.

Dies sollten Sie tun:

� Verwenden Sie Keywords und Description

direkt unter dem Titel der Seite. Achten Sie

darauf, daß die Beschreibung 250 Zeichen

und die Schlüsselbegriffe 150 Zeichen nicht

überschreiten.

� Setzen Sie Phantom-Pixel (Größe 1 x 1, trans-

parentes GIF) in größerer Zahl ein, und ver-

sehen Sie die ALT-Tags mit den wichtigsten

Keywords Ihrer Seite. Plazieren Sie die Pixel

möglichst unauffällig.

� Der Einsatz von Headline-Tags anstelle von

Überschriften in größerer Schriftart unter-

streicht die Relevanz der Titel gegenüber

Suchmaschinen.

� Überprüfen Sie die Keywords Ihrer Konkur-

renten, und adaptieren Sie diese, wo es sinn-

voll erscheint.

� Melden Sie die wichtigsten Seiten Ihrer Site

zur Sicherheit noch einmal manuell bei den

Top-10-Suchmaschinen an, und wiederho-

len Sie diesen Vorgang bei Veränderungen

an den Inhalten.

Dies sollten Sie tunlichst vermeiden: Sie sollten

bei Ihren Aktion allerdings auch die entspre-

chende Sorgfalt walten lassen, da die Robots

oftmals Kontrollmechanismen integriert ha-

ben. Auf folgende Umstände reagieren sie

ziemlich allergisch, unter Umständen droht so-

gar der Rauswurf aus der Suchmaschine:

� Wiederholen Sie keine Begriffe in Ihren

Schlüsselbegriffen.

� Verwenden Sie keine unsichtbaren Texte

(Text in Hintergrundfarbe), in denen die

wichtigsten Begriffe mehrfach wiederholt

vorkommen.

� Plazieren Sie keine unzutreffenden Schlüs-

selbegriffe wie „Pamela Anderson“ auf Ihrer

Seite, um ein besseres Suchergebnis zu er-

zielen.

� Setzen Sie keine „Redirect“- oder „Refresh“-

Seiten ein, die die Relevanz Ihrer Schlüssel-

begriffe steigern.

Tips im Internet: Unter http://accusubmit.com/

secrets/engines.html finden Sie eine Übersicht

einiger großer Suchmaschinen, wie diese Ihre

Seiten untersuchen und was Sie im speziellen

dabei beachten sollten. Wenn Sie Ihre Seite ak-

tuell auf Plazierungen testen wollen, unter-

stützt Sie z. B. http://www.scorecheck.com bei

Ihren Überprüfungen. Andreas Hitzig

Page 11: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

Der dritte große Part einer Such-maschine widmet sich der Strukturierungder gesammelten Daten. Durch simpleDatenbankabfragen können dann diegewünschten Informationen abgerufenwerden. Die erstellten Indizes werden abernicht in der Datenbank selbst gespeichert,sondern außerhalb abgelegt – aus Perfor-mance-Gründen und Platzproblemen. Inder Datenbank tauchen die gesammeltenBegriffe nur mit Verweisen auf die Indizesauf, in denen diese Begriffe gespeichertsind. Erfolgt nun eine Suchanfrage auf einbestimmtes Wort, wird in der Datenbanknach diesem gesucht, alle damit ver-bundenen Indizes gelesen, und nachDurchführung des Range-Rankings wirddieses dann dem Surfer in Form einesHTML-Dokuments grafisch aufbereitetpräsentiert.

Das Range-Ranking dient zur Bewer-tung der Relevanz einer Seite. So werdenSeiten, deren Relevanz für den entspre-chenden Suchbegriff hoch eingestuft wur-de, bei einem Treffer weiter oben gelistetals niedrig bewertete Seiten. Bei der Er-stellung der Treffer-Listen spielen zweiverschiedene Range-Ranking-Mechanis-men eine größere Rolle.

Der erste beschränkt sich darauf, dieWorthäufigkeiten innerhalb eines Doku-ments als Kriterium für das Ranking zunutzen. Bei einer Suche nach dem Begriff„Dijkstra“ würde in diesem Fall eine Sei-

te, in der dieses Wort fünfmal auftaucht,weiter oben aufgeführt werden als eine, inder es nur einmal vorkommt.

Eine komplexere Methode des Range-Rankings ist die Ermittlung der Zahl derSeiten, die auf ein spezifisches Dokumentverweisen. Je populärer eine Seite ist,desto höher wird sie eingestuft.

Selbstverständlich sind diese Mechanis-men nur Basistypen des Rankings. DieFunktionsweise läßt sich beliebig verfei-nern und kombinieren. So ziehen bei-spielsweise einige der zeitgemäßen Such-maschinen beim Zählen der Worthäufig-keiten auch die Schriftgröße des entspre-chenden Wortes in Betracht.= Cai Ziegler

ak

tue

lle

sm

ag

azi

np

rax

iste

stse

rvic

e

info

Rekursive Vorgehensweise des Spider

<Link>

<Link>

<Link>

<Link>

� �

� �

� �

� �

internet world mai 2000 99

Page 12: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

Fast Search. Die nach eigenen Angabengrößte Suchmaschine der Welt ist beson-ders hinsichtlich zweier Funktionalitäteninteressant: der FTP-Suche und der MP3-Suche. Auf diesen beiden Gebieten liefertder Suchdienst sehr gute Ergebnisse. In an-deren Bereichen, vor allem bei der Qua-lität der Ergebnisse, sind noch Verbesse-rungen nötig, damit Fast auch die besteSuchmaschine der Welt wird.

Fireball. Eine übersichtliche Oberfläche,gute Suchergebnisse und vor allem über-durchschnittlich viele Selektionsmöglich-keiten bietet die deutsche SuchmaschineFireball. Sie können die Daten sowohl überdas Menü als auch über die Befehlszeileselektieren. Neben den bereits von Alta-Vista bekannten Möglichkeiten kann mitBefehlzeilen wie „KEYWORDS: internet world,deutschland, magazin“ auch über Meta-Tagseiner Seite selektiert werden.

GO. Sind Sie auf der Suche nach Infor-mationen über amerikanische Unter-nehmen oder an aktuellen Daten von un-seren Übersee-Nachbarn interessiert, lei-stet Ihnen die Suchmachine GO gute Dien-ste. Sie können hier speziell in aktuellenNeuigkeiten und einer gut gepflegten

� Um Ihnen die derzeit gebräuchli-chen Suchtechniken zu erläutern,

haben wir für unseren Vergleich einige derbeliebtesten deutschen und internationa-len Suchmaschinen ausgewählt. DerSchwerpunkt unserer Untersuchungen lagdabei zum einen bei den Besonderheitender Syntax der Suchmaschinen, zum an-deren haben wir auch die erwähnenswer-ten erweiterten Funktionen eingehend un-ter die Lupe genommen. In der Tabelle aufSeite 82/83 können Sie die wichtigsten Be-fehle und Features der Search-Enginesnachschlagen und vergleichen.

Allgemein. Einige Standards haben in-zwischen Einzug bei den Suchmaschinengehalten. Unterstützt eine Search-Enginedie Eingabe von Phrasen (siehe Übersicht),so werden zur Begrenzung entwederHochkommas oder in seltenen Fällen, wiebei MSN-Search, der korrespondierendeMenübefehl verwendet. Anders bei derEingabe von „AND“ und „OR“. Hier kanndie Eingabe eines Suchbefehls mit der Syn-tax „A B“ sowohl „A AND B“ als auch „AOR B“ heißen, das ist abhängig von derSuchmaschine.

Im Bereich der Suche nach unter-schiedlichen Medien haben die Such-maschinen dem allgemeinen Trend Rech-nung getragen. Viele klassische Such-maschinen bieten inzwischen spezielle

praxis suchmaschinen

info

BenutzerfreundlichkeitSuchmaschinen werden immer benutzer-

freundlicher. Die Selektion verläßt die Ein-

gabe der Selektionskriterien über die Kom-

mandozeile und bietet immer mehr Menüs

an. Auch die allgemeinen Suchmaschinen

reagieren inzwischen schnell auf aktuelle

Trends und bieten größtenteils spezielle

Suchmasken für Musik und sonstige Medi-

en an. Zusatzdienste wie Kinderschutz und

kostenlose Übersetzungsdienste sind auch

immer häufiger anzutreffen.

80 internet world januar 2000

Effektive Sucheim InternetSuchmaschinen sind die

Inhaltsverzeichnisse des

Internet. Jede Suchmaschine

hat ihre Stärken in bestimmten

Bereichen. Wir zeigen Ihnen,

welches Web-Trüffelschwein

wofür am besten geeignet ist.

Selektionen, vor allen für Musik-Files wieMP3-Dateien an.

AltaVista.com. Der Klassiker unter denSuchmaschinen hat die Syntax und dieFunktionalität maßgeblich geprägt. Immernoch ist AltaVista im Bezug auf die Such-kriterien tonangebend. Trotz des RelaunchEnde Oktober wurde auf eine umfangrei-che Oberfläche zur Eingabe verzichtet. Dieinteressanten Parameter werden noch im-mer im Eingabefeld eingetragen. So kön-nen Sie bei AltaVista den Suchraum spe-zifisch auf Ihre Anfrage einschränken. Da-zu stehen Ihnen die Befehle url, title, mail-to und link zur Verfügung. Wollen Sie bei-spielsweise nur Ergebnisse einer amerika-nischen Regierungsbehörde, so lautet derBefehl url:gov.

Ein Manko vieler Suchmaschinen ist dieAufbereitung der Ergebnisse. Hier geht Al-taVista neue Wege und bietet Ihnen eige-ne Sortierkriterien an, die Sie in der er-weiterten Suche eingeben können.

Bei komplexen Suchen hilft die Schach-telung von Aussagen, die bei AltaVista per-fekt funktioniert. Suchen Sie nach einem„Polo“ oder „Golf“, wollen aber keinenSportlink angezeigt haben, so heißt die Be-fehlszeile (POLO OR GOLF) AND NOT SPORT.

Inzwischen gibt es auch eine deutscheVariante des Suchdienstes, die unterhttp://www.altavista.de zu erreichen ist.

Page 13: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

Bibliothek mit amerikanischen Unterneh-men schmökern. Auf den Einsatz von ANDund OR können Sie getrost verzichten, dain der erweiterten Suche alles über Drop-Down-Boxen eingegeben werden kann.Bei der Aufbereitung der Daten können Siedie Anzahl der Suchergebnisse und denUmfang der Beschreibung angeben – allesmenügesteuert.

HotBot. HotBot ist bereits recht früh vonder Kommandozeilen-Eingabe zu einerweitgehend menügesteuerten Eingabe-maske übergegangen und hat in diesemBereich auch noch immer die Spitzenpo-sition inne. Sie können die Inhalte der Sei-ten nicht nur direkt nach Mediendaten

che, Relevanz, Suchbereich und Katalogefür Ihre Bedürfnisse personalisieren. Eswerden 38 Sprachen zur Auswahl angebo-ten und auch die Verknüpfung mit Bild-,Ton- und Bücherarchiven verhilft bei vie-len Suchanfragen zum gewünschten Er-gebnis. Lycos ist eine der wenigen Such-maschinen, bei denen Sie die Reihenfolgeder Suchbegriffe festlegen können.

MSN-Suche. Neben einem Nachrichten-dienst in Zusammenarbeit mit dem ZDFhat sich die MSN-Seite inzwischen auchzu einer interessanten Suchmaschine ge-mausert. Die Qualität der Suchergebnissekann sich sehen lassen und über die Ex-pertensuche können Sie Inhalte einer Sei-te wie Bilder, Videos oder Musikdateiendirekt selektieren.

Northern Light. Das Nordlicht bietetnicht nur eine allgemeine Suche im Inter-net an, sondern betrachtet die Inhalte auchunter bestimmten Gesichtspunkten. Siekönnen Ihre Anfragen bei dieser Suchma-schine in den Bereichen Business, Invest-ment Research und Stock Quotes starten.

Letzteres liefert Ihnen aktuel-le Börsendaten, in den Invest-ment Researches finden SieWirtschaftsberichte von Un-ternehmen und kostenpflich-tige Interpretationen von Ex-perten. Sind Sie an Daten ei-nes speziellen Unternehmensinteressiert, verhilft Ihnen die„Business“-Suche schnell zuden richtigen Links. Damit Sieaufgrund allgemeiner Firmen-namen nicht irregeleitet wer-den, können Sie zusätzlichnoch die entsprechende Bran-che des gesuchten Unterneh-mens angeben.

= Andreas Hitzig

internet world januar 2000 81

ak

tue

lle

sm

ag

azi

np

rax

iste

stse

rvic

e

HotBot bietet eines der umfassendsten Menüs

zur Selektion von Seiteninhalten – ein Maus-

klick genügt

oder speziellen Technologien, sondernauch nach deren Endungen absuchen. Alshilfreich erweist sich auch die Einschrän-kung nach der Art der Seiten. Sie könnenangeben, ob Sie nur die Einstiegsseiten ei-ner Homepage wünschen oder bis zu wel-cher Ebene der Site noch ein Suchergeb-nis angezeigt werden soll.

Google. Die Suchmaschine Google ent-stand aus einem Forschungsprojekt derStanford Universität. Durch einen neuenAnsatz der Bewertung von Suchergebnis-sen schafft es die Suchmaschine, zum Teilüberdurchschnittlich gute Suchergebnissezu liefern. Interessant ist die Suchmaschi-ne besonders für Linux-Anwender, da ei-ne spezielle Suchvariante direkt auf ver-schiedene Ressourcen des Betriebssy-stems zugreift. Andere Varianten durch-suchen speziell die Seiten der US-Behör-den und der Stanford Universität.

Lycos.de. Beim deutschen Ableger vonLycos steht Benutzerfreundlichkeit anoberster Stelle. Mit der Profi-Suche kön-nen Sie Ihre Eingabe in den Bereichen Spra-

Klassiker Alta-

Vista: Auf aus-

ufernde Such-

menüs hat man

verzichtet – alle

Befehle werden

ins Eingabefeld

eingetragen, zu-

sätzlich gibt es

noch Sortier-

optionen

URLs

Suchmaschinen � AltaVista – http://www.altavista.com

� Fireball – http://www.fireball.de

� GO.COM – http://www.go.com

� HotBot – http://www.hotbot.com

� Fast Search – http://www.alltheweb.de

� Lycos.de – http://www.lycos.de

� MSN – http://www.msn.de

� Northern Light –

http://www.northernlight.com

Aus einem Forschungsprojekt der Universität

Stanford ist die Suchmaschine Google entstan-

den. Sie liefert Suchergebnisse ohne Werbung

Die deutsche Suchmaschine Fireball bietet bei

der Auswahl der Inhalte sehr detaillierte Selekti-

onsmöglichkeiten, leider noch innerhalb der

Kommandozeile

Page 14: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

Suchen für Profis

82 internet world januar 2000

Alle Suchoptionen der wichtigsten SuchmaschinenName Acoon Aladin Allesklar AltaVista.com Crawler Eule Excite.de Fast Search Fireball

URL www. www. www. www. www. www. www. www. www.

acoon.de aladin.de allesklar.de altavista.com crawler.de eule.de excite.de alltheweb.com fireball.de

Allgemeine Einstellungen

Suche nach � � � � � � � � �allen Wörtern

Suche nach mindestens � � � � � � � � �einem Wort

Eingabe einer Frage � � � � � � � � �

Sortierung � � � � (Advanced � � � � �nach Domains Search)

variable Anzahl � � � � � � � � �Suchergebnisse/Seite

logische Operatoren

UND +A +B A B A AND B A AND B A B +A +B A AND B A AND B A UND B

ODER A B A ODER B A OR B A OR B A OR B A B A OR B Menü A ODER B

NOT -B � � NOT B � -B NOT B NOT B NICHT B

NEAR � � � A NEAR B A NEAR B � � � �

Suchbereiche

komplettes automatisch Menüoption automatisch � automatisch automatisch automatisch automatisch automatisch

Dokument

Titel � Menüoption � title:Begriff � � � � title:Begriff

Web-Adresse � Menüoption � url:Adresse � � � � url:Adresse

eMail-Adresse � � � mailto:Adresse � � � � mailto:Adresse

Meta-Begriffe � � � � � � � � keywords:

Begriff

Links � � � link:Hostname � � � � link:Hostname

Domains � � � domain:DE � � � � domain:DE

Applet � � � applet:Name � � � � applet:Name

Bild � � � Menü � � � � image:Name

Audio/MP3 � � � Menü � � � � �

Video � � � Menü � � � � �

Sonstiges

Wildcard inter* � inter* inter* � inter* � inter* inter*

Phrase � � „internet „internet „internet „internet Menü „internet „internet

world“ world“ world“ world“ world“ world“

Zusammenfassung � � � (A OR B) AND C � � (A OR B) AND C � �

Sortierung nach Relevanz k. A. nach Relevanz frei wählbar k. A. nach Relevanz nach URL eigene Logik nach Position,

oder Relevanz Frequenz

und Distanz

Sonderfunktionen Börsenkurse Firmensuche Suche nach Family Filter für Verschiedene Auswahl des FTP-Search Suche nach

PLZ und Ort, jugendgefähr- Ausgabemodi: Suchraums: Rubriken,

max. 500 dende Inhalte, Titel, Standard, weltweit, Europa, Live-Suche

Übersetzungs- Detail deutscher Sprach-

service raum

� = ja, � = nein

Zum Herausnehmen:

Page 15: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

internet world januar 2000 83

Go Google HotBot Kolibri Lycos.de MSN-Search Northern Light Web.de Yahoo.de

www. www. www. www. www. search. www. www. www.

go.com google.com hotbot.com kolibri.de lycos.de msn.com northernlight.com web.de yahoo.de

� � � � � � � � �

� � � � � � � � �

� � � � � � � � �

� � � � � � � � �

� � � � � � � � �

A AND B A AND B A AND B Menü A AND B A AND B A AND B +A +B A +B

A OR B � A OR B Menü A OR B A OR B A OR B A B A B

NOT B NOT A NOT A � NOT B -B -B -B -B

� � � � A NEAR B � � � �

automatisch automatisch Menü automatisch automatisch automatisch automatisch automatisch automatisch

title:Begriff � Menü � Menü � title:Begriff Menü t:Begriff

url:Adresse � Menü Menü Menü Menü url:Adresse Menü u:Begriff

� � eigene Suche � Menü � � � �

� � � � � � � Menü �

link:Hostname link:url � Menü � Menü � � �

� � Menü � Menü Menü � Menü �

� � � � � � � Menü �

� � Menü Menü Menü Menü � Menü �

� � Menü Menü Menü Menü � � �

� � Menü Menü � Menü � � �

inter* inter* inter* inter* inter* inter* inter* inter* inter*

„internet „internet „internet � „internet Menü „internet „internet „internet

world“ world“ world“ world“ world“ world“ world“

� � (A OR B) AND C � (A OR B) AND C � (A OR B) AND C (A OR B) AND C (A OR B) AND C

nach Relevanz nach Relevanz k. A. nach Relevanz nach Domänen k. A. nach Relevanz k. A. nach Kategorien

oder Aktualität oder Datum

Suche nach Rubrik : Suche bei Umfangreiche Fun-Suche Kinder- Suchraum Suche nach Speicherung Alter der Doku-

Web, Topics, News, US-Regierung, Suchkriterien: sicherung eingrenzbar, COMPANY, umfang- von Such-Layout mente angeben

Companies u. News- Stanford Uni Sprache, Alter Doku- Erzeugungs- reiche Menüselek-

groups, Kinderfilter, und Linux mente, Dokumentin- datum, tionen zur Beschrän-

Suche innerhalb halte, Suchtiefe, ver- Inhalt selektierbar kung der Suchergeb-

Ergebnismenge wandte Begriffe nisse

Suchmaschinen-Poster

Page 16: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

Liest man die Nachrichten dereinschlägigen Internet-Magazi-ne, dann könnte man meinen, die

Suchmaschinen geben allmählich das Su-chen auf. Die Dienstleister versuchen sichzunehmend mit Auktionen, als Commu-nity, mit privaten Homepages, als Free-Mailer oder als alles zusammen (dann nen-nen sie sich Portal). Ihre Kernaufgabe, demorientierungslosen Surfer beim qualifi-zierten Durchforsten der Internet-Land-schaft zu helfen, tritt zunehmend dahin-ter zurück.

Bereits vor einem Jahr (s. IW 7/98, S.86) stellten wir im ersten großen Such-maschinentest mit Verblüffung fest, daßDokumente zu aktuellen Themen nur sehrschwer zu finden sind, und daß alle Such-maschinen intern erhebliche Schwankun-gen in der Relevanz der Ergebnisse auf-wiesen. Das hat sich bis heute nicht geän-dert. In puncto Performance sind zwar al-le Maschinen besser geworden – mit Aus-

nahme von Excite, Eule undInfoseek – in Sachen Qualitätder gefundenen Dokumen-te hat sich dagegen nichtviel getan.

Angesichts der Tatsa-che, daß immer mehrNeulinge ins Web vor-

dringen, die in der Benutzung von Com-putern wenig geübt sind, ist es geradezufahrlässig, als Einschränkung der Sucheeinen Begriff wie „DE-Sites“ zu verwen-den (Excite). Erstens versteht nur ein er-fahrenen Surfer, was damit wirklich ge-meint ist und zweitens ist der Sinn einersolchen Einschränkung kaum faßbar,denn seit wann sagt eine Top-Level-Do-main wie .de etwas über den Inhalt aus?

Testmethode. Wie im letzten Jahr ha-ben wir auch dieses Mal eine Liste vonzehn verschiedenen Suchanfragen abge-arbeitet. Dabei haben wir die Menge derTreffer, deren Qualität und die Fehlerhäu-figkeit bewertet. In allen Suchmaschinenwurden einzelne Testanfragen zu ver-schiedenen Tageszeiten und Wochentagenwiederholt, um auch eine verläßliche Aus-sage in Sachen Performance zu bekom-men. Der Bewertung der Qualität der Such-ergebnisse haben wir drei Kriterien zu-

grundegelegt: Die Aktualität einer Infor-mation, die Relevanz der Information unddie Existenz der gesuchten Begriffe. Be-sonders bei tagesaktuellen Themen wiezum Beispiel der Rentenreform-Diskussi-on ergibt sich hier eine unangenehmeSpreizung. Der Suchbegriff taucht beiStandarddokumenten der ÖTV genausoauf wie in der aktuellen Wirtschaftsmel-dung der Berliner Morgenpost.

Im Gegensatz zur letztjährigen Recher-che haben wir Zusatzdienste, die nicht zurSuche gehören, außen vor gelassen. Esgeht hier nicht um die Bewertung als Por-tal, sondern um die reine Suchfunktion.Auch die Anzahl gefundener Dokumentespielte für uns keine Rolle, weil sie nichtsüber die Qualität des Ergebnisses aussagt.Wir haben pro Suchanfrage die ersten 20gefundenen Treffer begutachtet und be-wertet.

Die Konsistenz der Treffer spiegelt dieMenge der Links wieder, die zu einem Zielführen. Die Relevanz zeigt die Ergebnisse,die den gewünschten oder einen passen-den Inhalt haben. Negativ macht sich inder Relevanz bemerkbar, wenn eine Such-maschine Verweise auf andere Suchma-schinen und Bücherdienste wie vor allemAmazon im Überfluß führt. Auchsollten gute Suchmaschinen in der

108 internet world oktober ’99

test suchmaschinen-vergleich

Werden Suchmaschinen zunehmend zu

Traffic-Generatoren für Portaldienste

mißbraucht? Im zweiten großen

Suchmaschinentest prüfte Internet World die

Qualität der Web-Navigatoren.

Was leisten

deutsche Spürhunde?

Page 17: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

test-protokoll

Neun deutsche Suchmaschinen im VergleichSuchmaschine Altavista Fireball Intersearch Lycos/AOL Netfind Infoseek MSN Lotse Excite/Netcenter Eule

Adresse http://www.altavista.de http://www.fireball.de http://www.intersearch.de http://www.lycos.de http://www.infoseek.de http://www.msn.de http://www.lotse.de http://www.excite.de http://www.eule.de

Funktionalität

Treffer Durchschnitt 326.533 119.050,90 857,8 867 394.474,30 139,5 nicht zu ermitteln nicht zu ermitteln 58.443,90

Gicht 1.919 2.171 1.253 1.656 3.295 215 nicht zu ermitteln nicht zu ermitteln 434

Rezept + Kartoffelsalat 1.370 1.353 120 237 1.636 15 nicht zu ermitteln nicht zu ermitteln 18

Rentenreform 2.073 5.917 2.782 2.638 3.929 513 nicht zu ermitteln nicht zu ermitteln 1.163

Machtwort + Schröder 25.567 42.282 185 95 49.962 41 nicht zu ermitteln nicht zu ermitteln 8

CD Simply Red 570.153 332.011 1.494 1.074 1.003.472 17 nicht zu ermitteln nicht zu ermitteln 94.244

Film + Kevin Costner + 1.570 33 66 30 107 10 nicht zu ermitteln 14 530Paul Newman

Fernsehprogramm + 260.870 199.270 270 402 81.930 71 nicht zu ermitteln nicht zu ermitteln 32Montag

Stadtplan + Konstanz 31.134 25.896 202 221 45.174 57 nicht zu ermitteln nicht zu ermitteln 21

Job Marketing Berlin 2.370.660 581.569 2.206 2.248 2.755.229 454 nicht zu ermitteln nicht zu ermitteln 365.516

„Die Straße der 15 7 0 70 15 2 13 nicht zu ermitteln 122.470Ölsardinen“

Trefferquote 57,50% 57,30% 47,50% 45% 46% 54,00% 49,20% 56,70% 50,50%

Komplexe Abfragen 2,3 2,6 2,2 3,5 2,5 4,2 2,9 2,9 3,8

Aktualität 2,8 1,6 1,8 3,2 1,8 3,1 3,8 2,6 4

Konsistenz 88% 94% 94% 88,50% 94,80% 93% 98,50% 93% 87,80%

Bewertung 2,8 2,6 3,1 3,3 2,9 3 2,9 2,9 3,2

Komfort/Qualität klar und einfach ok. ok., Suchmaske nur zusätzliche Such-Links ok. ok. ok. ergänzende Suchbegriffe ok.am Fuß der Ergebnisseite

Übersicht gut Seite sehr voll gut schlechte Färbung keine Farbe auf ok. ok. keine Mengenangabe ok.besuchter Links besuchten Links der Treffer

Ergebnisanzeige einfach, Größe und Relevanzanzeige in %, sehr gut, Anzeige der inkl. Größe, Relevanz, gut, Anzeige mit Datum, spartanisch spartanisch Link zur „ähnlichenSeite“ viele Doppler, nurDatum fehlen sonst spartanisch, Fundstelle (Meta,Titel, Domain URL, Größe, Ergebnis irreführend, wahlweise Relevanz in %, Anzeige

gelegentlich leere URL,Text), Anzeige mit nach Datum sortierbar Anzeige als Titelliste oder detailiert, Standard oder Headlines Datum und Größe mit Beschreibung nur Titel

Besonderes wenig Doppler, Übersetz- Relevanz fällt schnell ab, gefundene Begriffe einige Doppler, detaillierte stark schwankende Rele- Verknüpfungen fragwürdig, keine Suchtips, Links auf eigenen Katalog, zeigt sogar identische URLsung, Profisuche mit mögliche Erweiterung der werden gefärbt Suche bringt kaum vanz, Anfrage kann direkt Bool’sche Operatoren keine Profisuche Suche nach Domain- mehrfach, detaillierteDatumseingrenzung Suche auf einen Host oder bessere Ergebnisse erweitert werden müssen als solche ausge- Herkunft Suche bringt keinen

dessen Ausschluß sind wiesen werden, sonst setzt Unterschiedwenig hilfreich MSN automatisch AND

Wertung Komfort/Qualität 2,4 2,6 2,4 2,6 2,2 3 2,8 2,8 3,2

Geschwindigkeit

Einfache Anfrage 1,9 2,2 2,5 2,2 3,2 2,4 2,7 3,8 3,3

Komplexe Anfrage 1,9 2,4 2,8 2,5 3,5 2,5 3 4 3,8

Wertung Geschwindigkeit 1,9 2,3 2,7 2,4 3,4 2,5 2,9 3,9 3,6

Gesamtwertung 2,4 2,5 2,7 2,8 2,8 2,8 2,9 3,2 3,3

Plazierung 1. Platz 2. Platz 3. Platz 4. Platz 5. Platz 6. Platz 7. Platz 8. Platz 9. Platz

11

0in

tern

et w

orld

okto

be

r ’99

test su

chm

aschin

en

-verg

leich

Page 18: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

Lage sein, identische Sites auf verschie-denen URLs zu erkennen und zu filtern.

Das Ergebnis. Die allgemeine Schwarz-seherei in Sachen Qualität von Suchma-schinen hat heute keinen Bestand mehr.Zu allen Suchbegriffen wurden von allenSuchmaschinen passable Ergebnisse er-bracht. Einzig die sehr weite Einschrän-kung auf den exakten Terminus „DieStraße der Ölsardinen“ brachte die eineoder andere Maschine an den Rand derVerzweiflung. Fast durchweg nur ausrei-chende Ergebnisse erzielten die Suchma-schinen bei der Suche nach aktuellen The-men. Machtworte Schröders waren auch1997 schon zu finden, und die Diskussionum die Rentenreform reicht noch weiterzurück. Hier zeigen Infoseek und MSN einhervorragendes Feature, nämlich die Sor-tierung nach Datum. Besonders beiMSN kamen brandaktuelle Dokumen-te auf den Schirm, die bei der norma-len Suche nicht unter den ersten 20 ge-landet waren.

Ein weiteres überraschendes Ergeb-nis erbrachte die Suche nach der aktu-ellen Simply Red CD. Keine Suchma-schine brachte einen der großen CD-Händler unter den ersten 20 mit demdirekten Verkaufsangebot. Statt dessen– und das ist aus unserer Sicht erfreu-lich – rangieren vor allem zu diesemThema private Homepages ganz oben.Als Testsieger geht Altavista hervor. Beiallen Anfragen findet die Maschine un-ter den ersten 20 Treffern mindestensfünf wirklich passende Sites. Die

Sucheingabe ist klar und einfach und fürden Profi jederzeit mit Bool’schen Opera-toren erweiterbar. Direkt dahinter rangiertFireball. Deren Stärke liegt in der Aktua-lität der Dokumente. Dagegen muß sie inSachen Performance hinter Altavistazurückstecken.

Trotz der akzeptablen Leistung mußauch Altavista allerhand Kritik einstecken.Die Darstellung der Ergebnisse genügtnicht mehr dem aktuellen Stand. Man wür-de sich die Angabe von Dateigröße undBearbeitungsdatum wünschen. Die Rele-vanz spielt keine besondere Rolle. Auchdie Links zur weiterführenden und ergän-zenden Suche vermißt man schmerzlich.

Alternativ dazu bietet Altavista dieMöglichkeit, Fundstellen übersetzen zulassen. Für eine erste Übersicht über denInhalt des Gefundenen kann das sinnvoll

sein. Für mehr allerdings nicht, da die Qua-lität der Übersetzung nicht ausreicht.

Bei der Wiederholung der Suchen hatsich ergeben, daß die Anzahl der gefunde-nen Treffer sehr schnell steigt. Wir habenaber die Ergebnisse der ersten Abfrage alsReferenz aufgeführt. Der Wert ist ohnehinein theoretischer und für die Qualität dergefundenen Ergebnisse nicht relevant. Bei„Schröders Machtwort“ aber sank die Zahlder Treffer innerhalb eines Tages um einpaar hundert. Innerhalb der ersten 20 Tref-fer änderte sich nichts. Sollte die Redukti-on tatsächlich einer Bereinigung der Da-tenbank entsprechen, wäre das sehr er-freulich. Näher liegt die Vermutung, daßdie Datenbank nicht ganz konsistente Tref-ferzahlen auswirft, denn bei jeder Suchan-frage unterscheiden sich Ergebnisse auf derersten Seite von denen auf der zweiten.

Nachbessern muß vor allem Eule inder erweiterten Suche – die bringt keinanderes Ergebnis als die normale. AuchLotse sollte in Sachen Benutzerführungund Hilfe nachlegen. Enttäuschend istdie Leistung von Excite. Beim Thema„Gicht“ findet die Suchmaschine neunMal einen Buchtip bei Amazon. Beim„Machtwort“ landen die Links eins,drei und sieben direkt im 404-Nirvanaund das „Fernsehprogramm für Mon-tag“ bringt an dritter Stelle schon städ-tische Müllabfuhrtermine. Auch Info-seek sortiert seine Treffer nicht gut: Un-ter „Gicht“ erscheint zehn Mal eine Siteeines Hamburger Heilpraktikers aufverschiedenen Free-Hostern.

= Frank Puscher

112 internet world oktober ’99

test suchmaschinen-vergleich

Vorbildlich: Excite bietet dem User passende

Begriffe für eine Erweiterung der Suche an

Intersearch zeigt nicht nur die Menge der Einzeltreffer, son-

dern auch deren Fundstelle an

Excite liefert statt des

gesuchten aktuellen

Fernsehprogramms die

Termine der Müllabfuhr,

was auch als Wink mit

dem Zaunpfahl verstan-

den werden kann

Durch die Kooperation mit einigen Nachrichtenanbie-

tern zeigt sich auch MSN von seiner aktuellen Seite, vor

allem, wenn man den Zeitraum eingrenzt

Page 19: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

M Es war ein schwarzer Tag im Lebender Christie Hefner, Tochter von

Hugh Hefner und mittlerweile Chefin desPlayboy-Imperiums. Ihre Firma hatte ge-klagt – gegen die SuchmaschinenbetreiberExcite und Netscape – und schließlich ver-loren. Im Gerichtsverfahren ging es vor al-lem um die Frage, ob Suchmaschinen le-gal handeln, wenn sie zu bestimmtenSchlagworten Werbebanner einblenden,die sie vorher an die zahlungskräftigeKundschaft verhökert hatten. Im konkre-ten Fall hatte Excite Werbebanner ver-kauft, die bei den Suchbegriffen „Playboy“und „Playmate“ eingeblendet wurden.Playboy sah darin einen klaren Verstoß ge-gen das Markenrecht und klagte auf Un-terlassung. Beklagter im Rechtsstreit wargleichzeitig auch Netscape, die im Net-center den Suchservice von Excite benut-zen. Das Gericht schmetterte die Klage ab.Nach Ansicht von Rechtsexperten ist dasUrteil für die Suchmaschinenbetreiber nurein Pyrrhus-Sieg und noch lange keinGrund aufzuatmen. Das Gericht hat esnämlich versäumt klarzustellen, ob derVerkauf von eingetragenen Markennamenals Suchbegriff an einen Dritten eine ge-nerelle Verletzung des Markenrechts dar-stellt oder nicht. Es entschied, daß „Play-boy“ und „Playmate“ allgemeine, generi-

sche Begriffe seien und Playboy daher keinmarkenrechtliches Monopol beanspru-chen könne. Medienanwältin JessicaFriedman: „Das Gericht befand sich in ei-ner Zwickmühle. Hätte es für „Playboy“entschieden, würden der englischen Spra-che Begriffe geraubt, die nicht nur die Wa-ren und Dienstleistungen von Unterneh-men bezeichnen.“ Ganz anders sieht esdemnach bei Wörtern aus, die nicht ge-nerischen Ursprungs sind, also beispiels-weise bei Unternehmensnamen wieMicrosoft, Hewlett-Packard usw. „Sun“hingegen hätte ähnliche Schwierigkeiten

wie „Playboy“. Dabei ist die Einblendungvon Bannern in Abhängigkeit von Such-begriffen bei vielen Unternehmen eine be-liebte und gängige Marketingstrategie. DieZuordnung erlaubt gezieltere Werbungund damit eine eindeutigere Einkreisungder Zielgruppe, auch ohne Benutzerprofi-le. Für die Suchmaschinen ist der Banner-verkauf die einzige Erlösquelle. Noch willniemand für schlechte Suchergebnisseauch nur einen Pfennig zahlen. Erst kürz-lich belegte die Zeitschrift „Nature“ in ei-ner Studie, daß Suchmaschinen mitder Indexierung der Internet-Inhalte

40 internet world september ’99

magazin suchmaschinen

Die Betreiber von

Suchmaschinen stecken in

der Klemme. Lassen sich

mißliebige Suchergebnisse

per einstweiliger

Verfügung unterdrücken?

Dürfen Werbebanner nach

markenrechtlich

geschützten Schlagworten

verkauft werden?

Nackte Tatsachen

»haften suchmaschinenbetreiberbei meta-tag-klau?«

Page 20: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

überfordert sind. Nur maximal 16 Prozentdes WWW würden von den Suchmaschi-nen-Robots erfaßt. Insgesamt katalogisie-ren sämtliche Maschinen zusammenge-nommen nur etwa 40 Prozent aller Seitenim Internet. Kein Wunder also, daß einezahlungswillige Klientel noch nicht in

Sicht ist. Experten geben dennoch Ent-warnung: Das Bunny-Urteil wäre selbstbei einem Erfolg des Playboy-Konzerns fürdie Suchmaschinenbetreiber kein Genick-bruch gewesen. Die Werbeerlöse seiennicht abhängig von der Schlagwort-Ver-knüpfung. Suchmaschinen gehören nochimmer zu den am stärksten frequentierten

42 internet world september ’99

magazin suchmaschinen

Sites im Web und sind schon allein des-halb für die Werbeindustrie unerläßlich.

Noch ein anderes Problem macht denSuchmaschinenbetreibern aber derzeit zuschaffen. Eine Suche nach speziellenSchlüsselbegriffen bei unterschiedlichenAnbietern bringt es an den Tag: Je nachLust und Laune spuckt die Software dieunterschiedlichsten Homepages aus. EinBlick in die Meta-Tags oder Beschrei-bungstexte der aufgelisteten Seiten zeigtdeutlich: Meta-Tags wimmeln nur so von

Markenbegriffen, in Beschreibungstextenziehen die Betreiber alle Register, um auchden letzten Surfer auf die eigene Home-page zu locken. Bekannte Beispiele kom-men von Pornoanbietern, die zum Teilauch vor Begriffen wie „Kinderpornogra-fie“ nicht haltmachen, um ihre hartgesot-tene und oft zahlungswillige Klientel an-zulocken. Rechtlich ist die Situation beiden Betreibern der Suchmaschinen hier-zulande ähnlich unklar wie in den USA.

Hinzu kommt die Frage, ob Suchmaschi-nenbetreiber nicht generell für aufgeliste-te Internet-Adressen haftbar zu machensind, die mit der gesuchten Informationnicht im Zusammenhang stehen. Rechts-anwalt und Online-Kenner Oliver Süme istsich sicher (siehe Kasten): Ein Anspruchauf Unterlassung besteht durchaus auchgegen Suchmaschinenbetreiber, weil dieerreichte Plazierung durch die Softwaredes Suchmaschinenbetreibers verursachtworden sei. Da ein Unterlassungsanspruch

gegenüber jedem besteht, der eine rechts-widrige Einwirkung zum einen mitverur-sacht hat und sie zum anderen wieder ver-hindern kann, müssen auch die Suchun-ternehmen zittern.

Ähnliches gilt auch für den „Playboy“-Fall. Mit dem Urteil abfinden, will sich dieHeerschar der Anwälte nicht: Das Unter-nehmen wird Berufung gegen die Ableh-nung der Unterlassungsklage einlegen.

= Pit Klein

Christie Hefner, Chefin des Playboy-Imperiums

tip

Rechtsanwalt Oliver Süme zum Thema:

„Neben dem Verwender von rechtsverletzen-

den Meta-Tags kann auch gegen den Betrei-

ber einer Suchmaschine grundsätzlich dann

ein Unterlassungsanspruch bestehen, wenn

die Meta-Tags noch verwendet werden und

der Betreiber von diesem Verhalten Kenntnis

erlangt.Schwieriger wird es dann,wenn durch

dieses Verhalten erst ein guter Listenplatz er-

reicht wird, ohne daß Suchmaschinenbetrei-

ber oder der Geschädigte dies mitbekommen

haben und die entsprechenden Tags dann be-

seitigt werden,wenn der Platz erreicht und der

rechtswidrige Wettbewerbsvorteil erlangt ist.

Besteht dann noch ein Anspruch gegen den

Betreiber der Suchmaschine auf Beseitigung

der Plazierung ?

In diesem Fall geht es für den Betreiber der

Suchmaschine nicht mehr um die Verantwor-

tung für rechtswidrige fremde Inhalte, denn

die Tags sind beseitigt und der Inhalt der ge-

listeten Seite ist nicht mehr rechtsverletzend.

Die Haftungsregelung der vorher noch ein-

schlägigen Regelung des §5 Teledienstgesetz

ist daher nicht mehr einschlägig. Zurückzu-

greifen ist daher auf die allgemeinen gesetz-

lichen Unterlassungsregeln.

Dabei gilt der Grundsatz, daß ein Unterlas-

sungsanspruch gegenüber jedem bestehen

kann, der eine rechtswidrige Einwirkung zum

einen mit verursacht hat und sie zum anderen

wieder verhindern kann. Die erreichte Plazie-

rung ist hier durch den Suchmaschinenbe-

treiber verursacht worden,nämlich durch den

Einsatz der Software, auf der die Suchmaschi-

ne basiert und die Plazierung möglich macht.

Da der Betreiber diesen Zustand auch verhin-

dern kann, kann ein Unterlassungsanspruch

gegeben sein. In der Praxis müßte dann aller-

dings durch den Geschädigten bewiesen wer-

den, daß genau die erreichte Plazierung

hauptsächlich auf der Verwendung eines be-

stimmten Meta-Tags beruht. Unter diesen

Umständen kann ein Unterlassungsanspruch

auch gegen den Betreiber der Suchmaschine

gegeben sein.Sollte in einem solchen Fall eine

außergerichtliche Einigung scheitern,können

je nach Einzelfall die Voraussetzungen einer

einstweiligen Verfügung gegeben sein, die

dem Anspruchsteller schnellen, aber nur vor-

läufigen Rechtsschutz gewährt.“

Haftung von Suchmaschinenbetreibern

»ein anspruch auf unterlassungbesteht auch bei

suchmaschinenbetreibern«

Der Stein des Anstoßes:

Hardcore-Banner bei Excite

Page 21: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

Das Internet macht’s möglich, daß

auch die aufgeräumteste Fest-

platte im heimischen PC nach kur-

zer Zeit aus allen Nähten platzt.

Ein Download hier, ein interessan-

tes Dokument dort... nur Vorsicht!

Es wird erst einmal alles gespeichert und

natürlich auch gleich in einem eigenen Ver-

zeichnis verstaut, um Ordnung ins Chaos zu

bringen. Doch spätestens dann, wenn ein

Freund oder eine Kollegin dringend nach Rat

fragen und man genau weiß, daß man erst

vor ein paar Wochen genau diese Informati-

on auf Platte gebannt hat, geht die Suche

los: Ein Doppelklick hier, ein Doppelklick

dort, ach nein, da war doch noch das Unter-

verzeichnis, oder war es doch nicht hier?

Spätestens jetzt wünscht man sich den

berühmten kleinen Helfer herbei, der dem

Gedächtnis auf die Sprünge hilft und die Su-

che in akzeptabler Zeit zu einem erfolgrei-

chen Ende bringt. In diesem Artikel stellen

wir glimpse (steht für GLobal IMPLicit SE-

arch) vor, ein Programmpaket zur Indizie-

rung und zur Volltextsuche im lokalen Datei-

system, das auch bei großen Datenmengen

sehr gute Ergebnisse präsentiert. Außerdem

zeigen wir, wie man sich glimpse auf der ei-

genen Web-Site zunutze macht, ohne mäch-

tige aber meistens auch sehr teure Suchma-

schinen installieren zu müssen.

SUCHEN UND FINDEN –EIN ÜBERBLICKEs existieren prinzipiell zwei völlig unter-

schiedliche Ansätze, um in Textdateien nach

Informationen zu suchen. Grep und ähnliche

Tools, welche sehr schnell eine kleine Da-

tenmenge mit Hilfe von regulären Aus-

drücken durchsuchen, und indexbasierte

Werkzeuge, die typischerweise einen sehr

großen Index benötigen, der generiert wer-

den muß, bevor eine Suche stattfinden kann.

Diese sind dann allerdings auch bei der Su-

che in sehr großen Datenmengen äußerst

schnell.

Indexbasierte Tools verwenden meistens so-

genannte invertierte Indizes, bei denen für

jedes Wort (außer natürlich Worte wie „der“,

„die“, „das“, „ein“, „und“,...) vermerkt wird,

in welchen Dateien es in welchen Zeilen vor-

kommt. Dadurch müssen bei einer späteren

Suche nicht mehr alle indizierten Dateien

einzeln durchsucht werden. Es genügt dann,

den Index nach dem gesuchten Begriff zu

durchsuchen. Da für diesen vermerkt wurde,

wo er vorkommt, kann dann gezielt und da-

durch sehr schnell auf die entsprechende

Stelle in einer Datei zugegriffen werden. Der

große Nachteil bei diesem Ansatz für den

Heimanwender ist die Größe des Indizes, die

typischerweise bei 50 bis 300 Prozent der in-

dizierten Datenmenge liegt. Während dies

bei den kommerziellen Suchmaschinen kei-

ne so große Rolle spielt (Plattenplatz wird

immer billiger), wird man es sich zweimal

überlegen, ob man dem heimischen PC eine

zweite Festplatte spendiert, nur um den In-

dex unterzubringen.

Ein weiterer Nachteil eines invertierten

Index ist die Tatsache, daß Suchbegriffe ex-

akt angegeben werden müssen. Informatio-

nen mit Schreibfehlern werden nicht gefun-

den.

Glimpse ist eine Mischung aus den bei-

den beschriebenen Ansätzen. Es verwendet

ebenfalls einen Index, der allerdings in der

Regel weniger als fünf Prozent der Ur-

sprungsdatengröße benötigt. Die Suche

berücksichtigt auch Schreibfehler, so daß

auch Buchstabendreher oder vergessene

Buchstaben das Suchergebnis nicht beein-

flussen (den „Antrieb“ der Suchmaschine

liefert agrep). Man kann glimpse auch nur

die „besten“ Treffer anzeigen lassen, wel-

ches hier diejenigen mit den wenigsten Feh-

lern bzw. Abweichungen sind. Aufgrund der

sehr kleinen Indexgröße ist glimpse langsa-

mer als Suchmaschinen, die einen lupenrei-

nen invertierten Index verwenden. Die War-

tezeiten bewegen sich aber trotzdem bei

ausgedehntem Suchen noch im einstelligen

Sekundenbereich. Die kleine Indexgröße

wird dadurch erreicht, daß eine zweischich-

tige Suche angewandt wird. Für die indizier-

ten Begriffe wird nicht deren exakte Position

vermerkt, sondern nur die Nummer des

Blocks, in dem sich ein Begriff befindet. In-

nerhalb dieses Blocks wird dann wieder auf

die „herkömmliche“ Art gesucht, um die ex-

praxisSUCHMASCHINE

77internetworld juli ’99

aktu

elles

magazi

npra

xis

test

serv

ice

Such!!Ob Intranet oder Internet: Informationen zu finden istdas A und O. Die Lösung heißt Suchmaschine – aber wieprogrammiert man eine?

Parameter mögliche Werte Bedeutung-H Verzeichnis wo befindet sich der Suchindex?

-b baut einen größeren Index (20-30%)

-o baut einen mittelgroßen Index (7-9%)

-a fügt dem Index die angegebenen Dateien hinzu

-d entfernt die angegebenen Dateien aus dem Index

-f fügt nur die Dateien dem Index hinzu, die sich seit

dem letzten Durchlauf geändert haben

-X extrahiert aus HTML-Dokumenten deren Titel-Tag

-F die Dateinamen für den Index werden von Standard-

eingabe gelesen

-i .glimpse_include hat Vorrang vor .glimpse_exclude

Die wichtigsten Parameter von glimpseindex

INFO

Page 22: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

akte Position herauszufinden. Auch hier ist

aber nicht alles Gold was glänzt. Bei Such-

begriffen, die aus mehreren Wörtern beste-

hen, bekommt glimpse Schwierigkeiten,

wenn jedes Wort für sich sehr häufig gefun-

den wird, die Kombination der Wörter aber

eher selten ist. In diesem Fall nähert sich die

Performance eher der nicht-indizierten Voll-

textsuche an.

Doch nun genug der Theorie. Anhand ei-

ner kleinen (aber voll funktionsfähigen)

Suchmaschine für ein Web-Site werden wir

jetzt eines von vielen Einsatzgebieten von

glimpse in Aktion zeigen.

DIE WEB-SITE-SUCHMASCHINEDie Verwendung von glimpse besteht immer

aus zwei Teilen. Zuerst muß für den Bereich

im Dateisystem, auf dem später die Suche

stattfinden soll, in unserem Beispiel dem

„Document-Root“ des Web-Servers, ein In-

dex erstellt werden. Im zweiten Teil findet

dann unter Verwendung dieses Indizes die

eigentliche Suche statt.

Die Indizierung übernimmt das Programm

glimpseindex, welches Bestandteil des Ge-

samtpakets ist. Einen ersten Index erhält

man durch den Aufruf:

glimpseindex –X –H

/glimpse/ersterIndex /HTMLDokumente

glimpseindex erzeugt daraufhin im Verzeich-

nis/glimpse/ersterIndex einen Index aller in-

dizierbaren Textdateien, die es im Verzeich-

nis /HTMLDokumente findet. Der Parameter

–X veranlaßt das Programm dazu, zu HTML-

Dokumenten im Index auch deren Titel zu

speichern, der dann später im Suchergebnis

wieder auftaucht. Bei der Indizierung wer-

den auch Unterverzeichnisse berücksichtigt.

Standardmäßig erzeugt glimpseindex

den kleinstmöglichen Index. Möchte man die

Suche beschleunigen, so kann man mit den

Parametern –o und –b einen mittleren (7-8

Prozent) bzw. einen großen (20-30

Prozent) Index erzeugen lassen. Im

Indexverzeichnis befinden sich nun

mehrere Dateien, deren Namen al-

le mit „.glimpse_“ beginnen. In

„.glimpse_filenames“ stehen bei-

spielsweise die Namen der Datei-

en, die indiziert wurden. Fehlermel-

dungen stehen in „.glimpse_mes-

sages“ und den Index selbst findet

man in „.glimpse_index“. Stan-

dardmäßig werden alle Dateien in-

diziert, die glimpseindex im ange-

geben Verzeichnis findet.

Dieses Verhalten kann man

steuern, indem man mit einem Tex-

teditor die Dateien „.glimpse_in-

clude“ und „.glimpse_exclude“ an-

legt. In diesen kann man angeben, welche

Dateien berücksichtigt bzw. nicht berück-

sichtigt werden sollen. Zeilenweise gibt man

reguläre Ausdrücke (wie bei der Verwendung

von grep-Tools) an, mit denen Dateinamen

verglichen werden. Der Eintrag „*.zip$“ in

„.glimpse_exclude“ bedeutet beispielswei-

se, daß ZIP-Archive nicht indiziert werden

sollen. Einträge in „.glimpse_exclude“ ha-

ben Vorrang vor Einträgen in „.glimpse_ in-

clude“ (außer bei Verwendung des Parame-

ters –i, siehe Kasten).

Normalerweise sind

diese Einträge aller-

dings nicht notwendig,

da glimpseindex recht

gute Annahmen darü-

ber macht, welche Da-

teien Index-fähig sind

und welche nicht. Dies

ist alles, was man an In-

formationen für den An-

fang benötigt. Einige

weitere Parameter sind

im Info-Kasten be-

schrieben.

Die Suche auf dem

gerade erzeugten Index

übernimmt das Programm glimpse selbst.

Die einfachste Suche sieht wie folgt aus:

glimpse –U –H /glimpse/ersterIndex

suchbegriff

Als Ergebnis bekommen wir nun jedes ein-

zelne Vorkommen von Suchbegriff in den in-

dizierten Dateien. Die Sonderbehandlung

von HTML-Dateien, ähnlich wie bei der Er-

praxisSUCHMASCHINE

78 internetworld juli ’99

Weitere Infos zumglimpse-PaketDas komplette glimpse-Paket können

Sie von http://glimpse.cs.arizona.edu

laden, wo es sowohl als Sourcecode

als auch in Binärform verfügbar ist.

Wenn Ihnen der Aufwand zu groß ist,

glimpse in die eigene Web-Site einzu-

bauen, sollten Sie einen Blick auf Web-

Glimpse werfen (http://glimpse.cs.

arizona.edu/webglimpse).

Aufsetzend auf einem glimpse-Index

ist es ein Leichtes, eine komplette Site

mit einer Suchmaske zu versehen. Lei-

der ist noch kein komplettes Windows-

Paket von glimpse verfügbar. Die

eigentliche Suchmaschine, agrep,

wurde aber bereits portiert (unter

http://www.geocities.com/SiliconVal-

ley/Lakes/4889/agrep.html). Damit

können Sie die flexible und schreib-

fehlertolerante Suche implementie-

ren. Es fehlt aber noch die Indexerstel-

lung.

INFO

<HTML>

<HEAD>

<TITLE>Lokale Suchmaschine</TITLE>

</HEAD>

<BODY BGCOLOR=#FFFFFF>

<H1>Suche in lokaler Website</H1>

<FORM ACTION=glimpse.cgi>

Suchbegriff: <INPUT TYPE=TEXT name=suchbegriff>

<INPUT TYPE=submit VALUE=Suche

</FORM></BODY></HTML>

HTML-Formular

LISTING 1

Suchergebnis für den Suchbegriff „Wettbewerb“ auf der Internet-

World-Homepage – die Trefferanzahl sagt aus, wie häufig der Such-

begriff auf dieser Seite vorkommt

Page 23: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

stellung des Indizes, erzwingen wir durch

den Parameter –U. Damit bekommen wir

nicht nur den Dateinamen, sondern eben

auch den Titel des HTML-Dokuments mitge-

liefert.

Da man beim Suchergebnis innerhalb ei-

ner Web-Site nicht an jedem einzelnen Vor-

kommen des Suchbegriffs interessiert ist,

sondern nur an den Dokumenten, die den

Suchbegriff enthalten (auch mehrfach), ge-

ben wir noch den Parameter –c mit an. glimp-

se zählt dann nur noch die Anzahl der Treffer

pro Dokument, liefert diese aber nicht mehr

einzeln als Ergebnis. Das Suchergebnis hat

dann schließlich den folgenden Aufbau:

Dateiname1 Titel1: Trefferanzahl1

Dateiname2 Titel2: Trefferanzahl2

Dateiname3 Titel3: Trefferanzahl3

Dateiname4 Titel4: Trefferanzahl4

Dateiname5 Titel5: Trefferanzahl5

...

...

Mit diesen Grundlagen sind wir jetzt gerü-

stet, um unsere Suchmaschine zu realisie-

ren. In Listing 1 ist das HTML-Formular abge-

bildet, welches wir verwenden, um unsere

Suchparameter einzugeben – nichts Weltbe-

wegendes, aber es erfüllt seinen Zweck. Das

CGI-Gegenstück ist in Listing 2 zu sehen. In

den Zeilen 4 und 5 wird der Aufruf der Such-

maschine „zusammengebaut“. In Zeile 7 fin-

det die eigentliche Suche statt. Das Ergebnis

kommt zeilenweise zurück und ist dann in

@ergebnis zur weiteren Verarbeitung ver-

fügbar.

Falls der Suchbegriff gefunden wurde,

wird aus jeder Zeile der Dateiname, der Titel

des Dokuments und die Trefferanzahl extra-

hiert (Zeile 13 bis 18). Diese Bestandteile

werden dann in HTML-Listenform in der Va-

riable $ergebnis gespeichert. Von Zeile 21 an

wird dann nur noch das CGI-Ergebnis ausge-

geben. Fertig ist die Suchmaschine.

BELIEBIGERWEITERNNatürlich kann man

die Suchmaschine be-

liebig komplex erwei-

tern und verfeinern.

Als Ausgangspunkt

für eigene Versuche

sollte dieses kleine

Beispiel aber ausrei-

chend sein. Aufgrund der sehr flexiblen

Suchmöglichkeiten, der einfachen Installati-

on, der akzeptablen Performance, des nied-

rigen Speicherplatzbedarfs und des un-

schlagbar günstigen Preises (kostenlos) ist

glimpse nicht nur eine Alternative als Such-

maschine für Websites, sondern auch zur In-

dizierung von CD-ROMs, bisher undokumen-

tiert auf der Festplatte liegenden Einzeldo-

kumenten und sogar zur Indizierung von jah-

relang gewachsenen und unübersichtlich

gewordenen Mailboxen. Die Aussage „Ich

weiß, ich habe Dir die Mail geschickt, leider

weiß ich nicht mehr, wo ich sie gespeichert

habe“, gehört mit glimpse endlich der Ver-

gangenheit an.

■ Markus Schärtel

79internetworld juli ’99

aktu

elles

magazi

npra

xis

test

serv

ice

01 #!/usr/bin/perl

02 use CGI;

03 $query = new CGI;

04 $programmAufruf = “glimpse -i -U -c -H /glimpse/ersterIndex “ .

05 $query->param( “suchbegriff” );

06

07 @ergebnis = `$programmAufruf`;

08

09 if( scalar @ergebnis == 0 ){

10 $ergebnis = “<B>Leider nichts gefunden</B>”;

11 } else {

12 $ergebnis = “<ul>”;

13 foreach ( @ergebnis ){

14 ( $url, $titel, $anzahl ) =

15 m,/HTMLDokumente(\S*)\s+([^:]*):\s+(\d+)$,;

16 $ergebnis .= “<li>“ .

17 “<A HREF=$url> $titel - $anzahl Treffer </A><BR>”;

18 }

19 $ergebnis .= “</ul>”;

20 }

21 print <<”EOF”;

22 Content-type: text/html

23

24 <HTML>

25 <HEAD>

26 <TITLE>Lokale Suchmaschine Suchergebnis</TITLE>

27 </HEAD>

28 <BODY BGCOLOR=#FFFFFF>

29 <H1>Suche in lokaler Website: Suchergebnis</H1>

30 $ergebnis

31 </BODY>

32 </HTML>

33 EOF

Das Suchmaschinen-CGI

LISTING 2

Rudimentäre Suchmaske: Über dieses kleine HTML-Formular star-

ten Sie die Suche auf Ihrer lokalen Suchmaschine

Page 24: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

Meta-Suchmaschinen ermögli-

chen eine parallele Recherche

über mehrere Engines. Dabei

unterscheiden sich die ver-

schiedenen Maschinen vor al-

lem in der Datenaufbereitung,

also der Sortierung nach Trefferrelevanz

oder Ausblendung von Duplikaten.

APOLLO 7Einer der deutschen Kandidaten ist Apollo7.

Der Such-String wird in eine übersichtliche

Eingabemaske eingegeben und an zehn

deutsche Suchmaschinen – meist kleinere

wie Lotse oder Sharelook – gesandt. Die Ein-

stellmöglichkeiten beschränken sich auf ma-

ximale Suchzeit und Quellen. Die Treffer wer-

den übersichtlich in Listenform ausgegeben.

DOGPILEDie englischsprachige Suchmaschine Dog-

pile bietet umfangreiche Suchfunktionen an.

Standardmäßig lassen sich 14 Suchmaschi-

nen befragen. Die benutzerdefinierte Suche

erweitert die Abfrage auf Usenet, FTP-Ar-

chive, News, Suchmaschinen und weitere

Quellen. Leider werden die gruppierten Er-

gebnisse lieblos ausgegeben.

HIGHWAY 61Highway 61 ist die etwas andere Suchma-

schine. Die Feldbeschreibungen sind witzig

formuliert, die Ergebnisse werden mit einem

Relevanzfaktor versehen und danach grup-

piert. Bei der Ausgabe läßt sich festlegen, ob

geklickte Links im selben Browser-Fenster

oder in einem neuen betrachtet werden.

INFERENCE FINDDer Suchumfang von Inference Find ist mit

fünf Suchmaschinen nicht überwältigend –

die großen sind aber dabei. Ergebnisse wer-

den in Listenform, aber nicht immer nach-

vollziehbar sortiert. Interessant für Home-

page-Besitzer: Per HTML-Code läßt sich ein

Eingabefenster in jede Web-Page inte-

grieren. Die Suchmaschine ist mit einer

mehrsprachigen Oberfläche ausgestattet.

An der deutschen Seite sollten die Betreiber

allerdings noch ein wenig arbeiten.

INTERNET SLEUTHInternet Sleuth behauptet, auf 3.000 Daten-

banken zurückgreifen zu können. Für die

direkte WWW-Suche werden sechs Maschi-

nen genutzt. Daneben stehen – ähnlich Dog-

pile – Suchmöglichkeiten in News-Diensten,

Software-Archiven und Usenet-Datenban-

ken zur Verfügung. Interessant: Eine Katego-

rienliste kann die Suche auf bestimmte The-

mengebiete einschränken.

Meta-Suchmaschinen: Alle Kandidaten im Überblick Name Apollo 7 Dogpile Highway 61 Inference Find Internet Sleuth MammaURL www.apollo7.com www.dogpile.com www.highway61.com www.ifind.com www.isleuth.com www.mamma.comSuchmaschinen Nathan, Eule, Lotse, Altavista, Excite, GoTo.com, Lycos, Yahoo, Excite, Altavista, Excite, Infoseek, Altavista, Excite, Infoseek, Yahoo, Excite, Infoseek,

Sharelook, Netguide, Infoseek, Lycos, Lycos’ a2z, Infoseek, WebCrawler Yahoo, WebCrawler Lycos, WebCrawler, Yahoo Lycos, WebCrawler, Hotbot, Sternchen, Yahoo, Thunderstone, Excite Altavista, HotbotJesus.de, Medizin.de, Guide Search, Mining Co., Paperboy What U Seek, Magellan,

WebCrawlerEinstellmöglichkeiten Timeout, Suchmaschinen – Trefferanzahl, Timeout, p Timeout, Suchmaschinen Timeout, Anzahl Ergeb-

Linkausgabe in neuem nisse/Seite, Anzeige Fenster möglich Zusammenfassung,

Suche über SeitentitelListaufbereitung Gruppierung nach Listaufbereitung, gruppiert bewertete Listausgabe Listaufbereitung über gruppiert nach sortiert nach

Ergebnissen nach Suchmaschinen gefundene URLs, Suchmaschinen TrefferrelevanzBewertung der Ergebnisse

bool’sche Operatoren AND, OR AND, OR, NEAR P, über Menü AND, OR P P+/– p P P P P PPhrasen k. A. P p P k. A. PBesonderheiten deutsche Suchmaschine, Suche über Usenet, FTP, originell gestaltete Anleitung zum Einbau der Suche über Reviews, Suche über Usenet,

Spion News Wires, Stock Quotes, Suchmaschine Suchmaschine in eigene News, Software, Usenet News, Stock Quota, MP3, Yellow Pages, White Pages, Homepage Bilder, SoundsMaps, Weather

praxisSUCHMASCHINEN

Parallele Suche mit Meta-Suchmaschinen

74 internetworld april ’99

Oft müssen bei der Suche nach Informationen mehrereSuchmaschinen bemüht werden. Meta-Suchmaschinennehmen die Arbeit ab und bereiten die Ergebnisse auf.

Page 25: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

aktu

elles

magazi

npra

xis

test

serv

ice

MAMMADie „Mutter aller Suchmaschinen“ (Eigen-

werbung), bietet umfangreiche Quellen zur

Suche an. Neben der Recherche in klassi-

schen Suchmaschinen kann auch gezielt im

Usenet und in News-Archiven gesucht wer-

den. Interessant für Musik-Freaks dürfte die

direkte Suche von MP3-Stücken sein. Außer-

gewöhnlich ist außerdem die Selektion von

Bildern und die Auswahl der zu befragenden

Suchmaschinen per Menü. Zur besseren

Übersicht werden die ermittelten Ergebnisse

nach Relevanz bewertet und sortiert.

METACRAWLER (GO2NET)Die umfangreichen Einstellmöglichkeiten

von Go2Net werden direkt auf der „Perso-

nal“-Seite knapp und verständlich beschrie-

ben. Go2Net bietet vor allem bei der Aufbe-

reitung der Ergebnisse einige interessante

Einstellmöglichkeiten. Neben maximaler

Trefferzahl pro Suchmaschine lassen sich

auch die Anzahl der Resultate pro Ausgabe-

Seite angeben. Die Ergebnisse werden mit

einem Relevanzfaktor versehen und sortiert

in einer Liste ausgegeben. Hervorzuheben

ist noch die Möglichkeit, die Einstellungen

zu speichern.

METAFINDAls einziger Kandidat im Überblick gibt Me-

tafind die maximale Trefferzahl pro Suchma-

schine vor. Dafür bietet Metafind eine vor-

bildliche Auswahl an Optionen zur Listen-

aufbereitung. Als einzige Suchmaschine las-

sen sich die Sortierkriterien wie Schlüssel-

worte oder URL direkt wählen. Diese Mög-

lichkeiten entschädigen für die etwas karge

Eingabemaske.

METAGERDie deutsche Suchmaschine MetaGer liefert

mit Abstand die detailliertesten Einstell-

möglichkeiten. Besonders gelungen ist die

Kontrolle der Treffer vor der Ausgabe. Tote

Links haben so keine Chance. MetaGer be-

zieht neben deutschen Suchmaschinen auch

englischsprachige mit ein.

METAGOPHERAls einzige Meta-Suchmaschine versucht

MetaGopher anhand von Schlüsselbegriffen

bei Bedarf jugendgefährdende Informatio-

nen auszufiltern. Die Suchtiefe kann manu-

ell bestimmt werden: Nur Treffer, die ober-

halb der bestimmten Hierarchiestufe auf der

Web-Site abgelegt sind, werden angezeigt.

Die ermittelten Ergebnisse können auf

Wunsch mit einem Relevanzfaktor versehen

und anhand dieser Information sortiert wer-

den. Homepage-Besitzer können die Such-

maschine in ihre Site integrieren.

SAVVY SEARCHDie Konfiguration von Savvy Search erinnert

stark an einen Fragebogen. Die Optionen der

Suchmaschine werden mit einem Relevanz-

faktor zwischen eins und fünf gewichtet. Die

Einstellungen lassen sich speichern. Bei der

Auswahl der Suchmaschinen geht Savvy

Search einen eigenständigen Weg: Zunächst

fragt die Software vier Engines ab. Reichen

diese Resultate nicht, können per Klick die

nächsten vier Maschinen angefragt werden.

SUCHEN.COMDie dritte deutsche Suchmaschine im Über-

blick bietet wie MetaGer eine Kombination

aus englischsprachigen und deutschen

Suchmaschinen. Die Suchergebnisse wer-

den in einer Liste aufbereitet, doppelte Er-

gebnisse aussortiert. Bei der Auswahl der

Suchmaschinen läßt Suchen.com sowohl im

nationalen, als auch internationalen Bereich

nahezu keine Wünsche offen.

M Andreas Hitzig

Metacrawler Metafind MetaGer MetaGopher SavvySearch Suchen.comwww.metacrawler.com www.metafind.com meta.rrzn.uni-hannover.de www.metagopher.com www.savvysearch.com www.suchen.comAltavista, Excite, Infoseek, Altavista, Excite, Dino, web.de, Yahoo (dt), Infoseek, Yahoo, Altavista, Lycos, WebCrawler, Goggle, Crawler, Yahoo (dt./engl.), Excite (dt./engl.), Lycos, WebCrawler, Yahoo, Infoseek, PlanetSearch, Hotbot, Fireball, Altavista, Excite, Lycos, Magellan, Thunderstone, DirectHit, Lycos (dt./engl.), Spider, web.de, Nathan, Thunderstone, LookSmart, WebCrawler Crawler.de, Hotlist, Allesklar, Hotbot, WebCrawler NationalDirect, Excite, Altavista, Eule, Dino, Aladin, Intersearch, Interfux, Mining Co. Nathan, Netguide, Lycos, Infoseek, HotBot, Galaxy Lotse, Allesklar, Hotlist, Altavista,

Gerhard, Uni-Hannover NothernLight, Infoseek, Hotbot, GoTo.com, WebCrawler, ThunderStone

Timeout, Anzahl Ergeb- Timeout, Erläuterung Timeout, Anzahl Ergebnisse/ Erläuterung zu Seiten, Priorität der einzelnen Timeout, Anzahl Treffernisse/Seite, Ergebnisse/ zu Seiten anzeigen, Seite, Linkprüfung Filter für jugend- SuchmaschinenSuchmaschine Sortierkriterien für gefährdende Inhalte,

Ergebnis Suchtiefe in Seitensortiert nach sortiert nach sortiert sortiert nach sortiert nach Zusammenfassung der Ergebnisse, Trefferrelevanz Benutzervorgabe Trefferrelevanz Trefferrelevanz Eliminierung von Doubletten, Kurzinfos

zu ErgebnissenP P P P P PP P p P P PP P P P PSpeicherung der festgelegte Anzahl Prüfung der Links, Suche in umfangreiche Einstell- verfügbar in mehreren Sprachen, um- Suche über deutsche und amerikanische Einstellungen möglich von Ergebnissen pro dt. Usenet, Suchbegriffe auf möglichkeiten – fangreiche Einstellmöglichkeiten Suchmaschinen

Suchmaschine URLs überprüft speicherbar speicherbar, viele weitere Suchmög-lichkeiten über News, Shareware, Usenet, Magazine, eMail-Adressen etc.

ÜBERSICHT

75internetworld april ’99

Page 26: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

praxisSUCHMASCHINEN

59internetworld februar ’99

Der richtige Suchstring ist der

Schlüssel zur erfolgreichen Suche

im Internet. Wir zeigen Ihnen in

dieser Folge die unbekannten

oder selten eingesetzten Spezial-

funktionen der wichtigsten inter-

nationalen Suchmaschinen sowie der Test-

sieger aus IW 7/98. Den kompletten Be-

fehlssatz der vorgestellten Suchmaschinen

finden Sie im Anschluß an diesen Artikel auf

unserem Miniposter.

LYCOSDie deutsche Suchmaschine Lycos

(http://www.lycos.de), die, von den USA aus

agierend, inzwischen weltweit elf Niederlas-

sungen besitzt, bietet neben der gewohnten

Standardfunktionalität eine Erweiterung der

Befehle ADJ, NEAR und FAR an. Damit kön-

nen Sie neben der Position der angegebenen

Begriffe auch noch deren Reihenfolge be-

stimmen. Die Befehle werden durch ein vor-

angestelltes „O“ gekennzeichnet: OADJ,

ONEAR und OFAR. Suchen Sie beispielswei-

se einen englischen Text über Rennautos

und definieren Sie den Suchstring mit „race

ADJ car“, so werden auch Seiten gefun-

den, die den String „car race“ enthalten

– „race OADJ car“ schließt die unge-

wollten Ergebnisse aus. Bei den Befeh-

len können Sie zusätzlich noch den Ab-

stand der Wörter definieren, der maxi-

mal bestehen darf.

INTERSEARCHIntersearch (http://www.intersearch.

de) hat seine Zusatzfunktionen als Da-

tenbank-Selektoren definiert. Mit de-

nen können Sie Ihre Suche auf Titel, Me-

ta-Bschreibungen, HTML-Text, eMail-

Adressen oder URLs einschränken. Ge-

rade bei professionell gestalteten Sei-

ten finden sich die maßgeblichen Inhal-

te in einer Reihe von Meta-Tags zusam-

mengefaßt und können zur konkreten

Suche verwendet werden. Wenn Sie

nach Seiten suchen, die als Schlüssel-

begriffe „Bug“ und „IE“ haben, sieht der

Suchstring wie folgt aus: +META:Bug

+META:IE. Auch die Suche nach einer

eMail-Adresse, die auf einer Seite verwendet

wurde, gestaltet sich einfacher: EMAIL:

[email protected]

Titel geben einen Überblick über den In-

halt einer Seite. Das Schlüsselwort TITLE be-

schränkt die Suche auf die TITLE-Tags einer

HTML-Seite, TITLE:„Internet World“ liefert

Seiten, in denen „Internet World“ vorkommt.

FIREBALLDie Spezialität der Suchmaschine Fireball

(http://www.fireball.de) ist die Feldsuche,

die Sie über den dargestellten Teil einer

HTML-Seite und deren Quelltext durch-

führen können. Bei bestimmten Recherchen

ist es sinnvoll, nur einen bestimmten Teil ei-

ner Seite zu durchsuchen. Benötigen Sie ein

Bild zu einem bestimmten Thema oder einer

bestimmten Person, können Sie mit Hilfe des

Image-Begriffs Ihre Suche einschränken:

image:gates sucht nach Bildern des Herr-

schers über das MS-Imperium. Gerade für

Homepage-Besitzer ist es wichtig zu wissen,

ob Ihre Seiten in vielen anderen Seiten als

Link angeboten wird. Fireball liefert Ihnen

diese Informationen mit dem String link:

<Web-Server> , beispielsweise link:internet-

world.de für den Server dieses Magazins.

Beim Surfen im Internet kommt es mitun-

ter vor, daß der Surfer von einer Seite zur an-

deren springt und sich danach nicht mehr ge-

nau an den Namen einer speziellen Site er-

innern kann, die er besucht hat. Wer sich

noch an einen Teilstring, wie „internet“ und

die TLD „com“ erinnert, den sollte der

Suchmaschinen effektiv einsetzen(2)

Im ersten Teil des Workshops wurde die Grundfunktio-nalität der Suchmaschinen durchleuchtet. Viele Such-

maschinen bieten weiterführende Funktionen an, die das Suchen erheblich erleichtern und effektiver gestalten.

Hotbot bietet neben grellem Design umfangreiche

Suchoptionen, die vor allem Metainformationen ein-

beziehen – so läßt sich gezielt nach Informationen

suchen, die im HTML-Code verborgen sind

aktu

elles

magazi

nte

stpra

xis

intr

anet

serv

ice

Page 27: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

60 internetworld februar ’99

griff feature läßt sich nach Zusätzen einer

Seite suchen: Applets, Flash Plug-Ins,

Shockwave-Dateien oder Audio-Dateien

sind nur einige. Der Syntax ist simpel ge-

halten: feature:<object>, für ActiveX Con-

trols also feature:activex.

Hilfreich ist auch die Funktion

depth:<tiefe>, mit der Sie die Suchtiefe in-

nerhalb von Seiten angeben können. Wol-

len Sie lediglich Informationen anzeigen,

die sich im Root-Verzeichnis der Site befin-

den oder im ersten unterordnet, so geben

Sie als Tiefe 2 an. Mit dem Meta-Begriff

scriptlanguage:[VBScript|JavaScript] kön-

nen Programmierer nach eingesetzten

Scripts suchen und sich damit schnell Lö-

sungen im Web betrachten.

Sind Sie auf der Suche nach Nachrichten,

die innerhalb der letzten Tage ins Netz ge-

setzt wurden, können Sie über within:num-

ber/unit einen konkreten Zeitraum angeben.

Suchen Sie beispielsweise nach aktuellen

Informationen zu Bill Gates zweitem Kind,

werden Sie mit +„Bill Gates“ +child wit-

hin:1/month sicher fündig. Sie können die

Seiten sogar mit konkreten Daten ein-

schränken: „Bill Gates“ +child AND befo-

re:31/12/98 AND after 1/12/98

ALTAVISTAAuch der Klassiker Altavista (http://www.

altavista.com) hat einiges zu bieten. Eine

Funktion, die wir bis jetzt in keiner ande-

ren Suchmaschine gefunden haben

ist „anchor“. Damit lassen sich

Texte der Hyperlinks untersu-

Suchstring url:internet AND domain:com

zum gewünschten Ergebnis führen.

EXCITEAuch Excite (http://www. excite.de) erreich-

te beim Test der IW noch ein befriedigendes

Ergebnis, bietet jedoch im Hinblick auf Zu-

satzfunktionen keine allzu großen Möglich-

keiten. Hilfreich ist höchstens die Einschrän-

kung der Suchmenge, die Ihnen die Auswahl

zwischen dem gesamten Bereich des WWW,

europäischen oder deutschen Seiten bietet.

Zusätzlich können Sie auch noch Nachrich-

ten aus dem Usenet mit in Ihre Suche einbe-

ziehen. Ganz passabel ist die Aufbereitung

der Informationen – interessant ist hier vor

allem die Funktion der ähnlichen Sites. Zu je-

dem Suchergebnis bekommen Sie neben der

Prozentanzahl auch noch die Möglichkeit,

auf Basis der Informationen einer Seite di-

rekt eine neue Suche zu starten. Auch so

kommen Sie manchmal ans Ziel.

Gerade die internationalen Suchmaschi-

nen bieten eine größere Datenbank und

damit weitreichendere Möglichkeiten der

Suche. So bieten beispielsweise die drei po-

pulären Suchmaschinen Altavista, Hotbot

und Infoseek eine Reihe interessanter Mög-

lichkeiten, wie Sie sich effektiver durch die

Informationsflut wühlen können.

HOTBOTMit einer beeindruckenden Vielfalt an Optio-

nen wartet die Suchmaschine HotBot

(http://www.hotbot.com) auf. Diese Funk-

tionalität ist vor allen für Programmierer und

Designer interessant, da Sie damit gezielt

nach bereits bekannten Realisierungen

suchen und darüber Ansätze für Ihre eigenen

Projekte finden können. Über den Meta-Be-

chen. Interessieren Sie sich also für Seiten,

die über den Text „Internet World“ ange-

steuert werden, hilft Ihnen der Suchstring

anchor:„internet world“. Hilfreich ist auch

die Funktion host:name. Wer kennt nicht die

Situation: Sie erinnern sich noch genau an

eine Web-Site, auf der Sie eine interessante

Seite gesehen haben. Nachträglich finden

Sie diese Seite aber nicht mehr. Hier hilft Ih-

nen Altavista: Sie geben wie gewohnt Ihre

Suchbegriffe ein, beschränken die Suche

aber auf einen Rechner wie host:www.micro-

soft. com. Eine hilfreiches Feature ist auch

die automatische Übersetzung. Zwar kom-

men teilweise merkwürdige Konstrukte da-

bei heraus, für einen Überblick reicht es aber.

INFOSEEKDer deutsche Ableger konnte im IW-Test

nicht glänzen. Der große Bruder aus Ameri-

ka (http://www.infoseek.com) besitzt aber

eines der größten Archive der Welt inklusive

einiger interessanter Funktionen und wurde

deswegen hier aufgenommen. Infoseek ka-

tegorisiert die Seiten in einem internen In-

dex, der auch für die Suche genutzt werden

kann. Wenn Sie beispielsweise aus der Ru-

brik Internet näheres über Suchmaschinen

wissen wollen, geht das über eine Pipe: Ru-

brik|Unterrubrik, also internet|„search engi-

ne“. Infoseek speichert auch alle Informa-

tionen, die in den ALT-Tags des HTML-Quell-

texts angegeben wurden. Gerade bei Bil-

dern bietet dieses Vorgehen eine in-

teressante Alternative zum Meta-

befehl „link“ an.

In den vorangegan-

genen Beispielen konn-

te nicht auf alle Funktio-

nen der Suchmaschinen

eingegangen werden.

Der folgende Überblick

liefert aber eine kom-

plette Übersicht der Be-

fehle und soll helfen,

schneller zu den gewün-

schten Informationen zu

kommen. Wenn Sie auf

weitere Funktionen bei

Suchmaschinen stoßen,

mailen Sie einfach an:

[email protected],

Betreff: Search-Engine.

■ Andreas Hitzig

Bei der Ausgabe ordnet Excite den gefundenen Seiten jeweils eine

Relevanz in Prozent zu – Interessant ist bei dieser Suchmaschine

auch die Verzweigung auf verwandte Seiten, die eine neue Suche

auf Basis der angeklickten Seite startet

Die Suchmaschine Lycos setzt bei ihrer Ober-

fläche besonders auf vielfältige Einstellmög-

lichkeiten – Sie können über eine grafische

Oberfläche viele Angaben zur Suche und Er-

gebnisaufbereitung machen

Page 28: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

61internetworld februar ’99

Erweiterte Suchfunktionen der Search-EnginesLycos Intersearch Fireball Excite Altavista HotBot Infoseek

URL www.lycos.de www.intersearch.de www.fireball.de www.excite.de www.altavista.com www.hotbot.com www.infoseek.com

Allgemeine EinstellungenSuche nach allen Wörtern V V V V V V V

Suche nach mind. einem Wort V V V V V V V

Eingabe einer Frage V p p p V V p

Eingabe einer Phrase V V V V V V V

Sortierung nach Domains V p p V V V V

variable Anzahl V p p V V V VSuchergebnisse/Seite

Logische OperatorenUND A AND B A AND B A AND B A AND B A AND B A AND B A AND B

+A +B +A +B A & B +A +B +A +B A & B +A +B

ODER A OR B A OR B A OR B A OR B A OR B A OR B A OR BA,B A | B A | B A,B

NOT NOT A NOT A NOT A NOT A NOT A NOT A NOT A-A -A ! A -A -A ! A -A

WortzusammenhängeWort A vor Wort B A BEFORE B p p p p p p

Wort A nahe bei Wort B A NEAR B A NEAR B A NEAR B p A NEAR B p pAbstand max. 25 Worte Abstand max. 10 Worte p Abstand max. 10 Worte p p

Wort A weit entfernt von Wort B A FAR B p p p p p pAbstand mind. 25 Worte p p p

Wort A unmittelbar bei Wort B A ADJ B p p p p p pFestlegung des Abstands A NEAR/Anzahl B p p p p p pvon FAR/NEAR A FAR/Anzahl B p p p p p pVorgabe Reihenfolge bei A OADJ B p p p p p pADJ/NEAR/FAR A ONEAR B p p p p p p

A OFAR B p p p p p p

Suchbereichekomplettes Dokument Menüoption all:Begriff Menüoption p Standard Menüoption Standard

Titel Menüoption title:Begriff Menüoption p title:Begriff Menüoption title:Begriff

title:Begriff p title:Begriff

Web-Adresse Menüoption url:Adresse Menüoption p url:Adresse Menüoption url:Adresse

url:Adresse pSeiten einer URL Menüoption p Menüoption p host:hostname Menüoption site:hostname

host:hostname p

eMail-Adresse eMail-Finder email:Adresse p mailto:Adresse spezielle Site mailto:Adresse

Meta-Begriffe p meta:Begriff metaname:Begriff p p p

Link p p Menüoption p link:hostname p link:hostname

link:hostname p

Domains p p domain:DE p domain:DE domain:DE pApplet p p applet:Name p applet:Name feature:applet p

Bild p p image:Name p image:Name feature:image p

SonstigesWildcard inter* inter* inter* inter* inter* inter* inter*

Platzhalter p inter??? p p p p p

Phrase „internet world“ „internet world“ „internet world“ „internet world" „internet world“ „internet world“ „internet world“

Zusammenfassung (A OR B) AND C (A OR B) AND C (A OR B) AND C (A OR B) AND C (A OR B) AND C (A OR B) AND C (A OR B) AND C

reguläre Ausdrücke p 199[1...3] anstelle 1991 p p p p pAND 1992 AND 1993

Sortierung nach Begriffen p p V V p p p

Sonderfunktionen p p verschiedene Suche in untersch. Übersetzung von Seiten feature:name für Suche in ALT-TagAusgabeformate: Excite Katalogen acrobat, applet, activex, Standard, Detail und Newsgroups audio,embed, flash, und Kompakt form, frame, image,

script, shockwave, table, video, vrml

Ähnliche Seiten Suche im Usenet Suche im Usenet Einsatz Pipe (|) zur newsgroup:name newsgroup:name Definition von

Überbegriff|Begriff

Name eines Links, der Datumseingrenzungen auf eine Seite verweist after:dd/mm/yy before:anchor:text dd/mm/yy within:

number/unit

Suche nach Scripts scriptlanguage:[language]

V = ja p = nein

mmii--

Page 29: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

Wer kennt die Situation nicht?

Man ist auf der Suche nach

dringend benötigten Infor-

mationen und sitzt ratlos vor

einer Internet-Suchmaschi-

ne. Anstelle der gewünsch-

ten Daten spuckt die Searchengine aber nur

eine scheinbar endlos lange Liste an URLs

aus, die zum Teil nicht das geringste mit den

gesuchten Infos zu tun haben.

TECHNIK DER SUCHMASCHINENSuchmaschinen bedienen sich Robots, die

das Internet nach Informationen durch-

forsten. Dabei werden Homepages bis zu ei-

ner gewissen Hierarchietiefe untersucht und

die Daten an die Suchmaschine übermittelt.

Da diese Informationen aber schlecht struk-

turiert sind, werden Sie – bevor Sie in einer

Datenbank landen – indiziert. Die häufig vor-

kommenden Begriffe werden dabei in die

Datenbank übernommen. Jede Suchmaschi-

ne wertet zusätzlich auch noch spezielle,

von den Erstellern der Homepage definierte

Begriffe aus (siehe dazu Artikel „Suchma-

schinen“, IW 8/98, S. 54). Abhängig vom

Eingabestring sucht die Maschine die ein-

zelnen Begriffe in der Datenbank zusammen

und gibt sie nach ihrer Relevanz absteigend

aus. Wenn Sie nun einen zu allgemeinen

Suchbegriff angeben, findet die Engine

Unmengen von Daten. Hier gilt es anzuset-

zen und die gewünschten Informationen so

genau als möglich einzukreisen. Sie sollten

sich vor Ihrer Suche eine Reihe von Begriffen

aus dem Umfeld der gewünschten Informa-

tionen überlegen und in diesem Zusammen-

hang auch Mehrfachbedeutungen explizit

ausschließen. Suchen Sie beispielsweise

mit dem Schlagwort „Golf“, kann das Ergeb-

nis sowohl Berichte über das Auto, den Sport

oder auch geographische Sites liefern. Je

eindeutiger Sie Ihre Anfrage stellen, desto

weniger Mißverständnisse entstehen dabei.

UNTERSCHIEDLICHESUCHMASCHINENEinen maßgeblichen Teil des Erfolgs macht

die Wahl der richtigen Suchmaschine aus. Je

nach Art der benötigten Informationen emp-

fiehlt sich die Verwendung einer allgemei-

nen Suchmaschine oder einer speziellen

Suchmaschine, die sich auf ein bestimmtes

Themengebiet spezialisiert hat und meist

sorgfältig gepflegtere Informationen ent-

hält. Umfangreiche Listen über deutsche

und internationale Suchmaschinen, sowie

zu Spezialsuchmaschinen finden Sie bei-

spielsweise bei Yahoo (http://www.yahoo.de/

computer_und_internet/internet/world_wide_

web/web_durchsuchen/suchmaschinen) und

Web.de (http://web.de/Internet/Suchen+%

26+Finden/Deutsche+ Suchmaschinen).

Einen effizienteren Ansatz bietet die Ver-

wendung einer Meta-Suchmaschine. Dabei

handelt es sich um ein Programmsystem,

das eine Anfrage an mehrere Suchmaschi-

nen und Kataloge parallel abschicken kann,

um eine weitaus bessere Trefferquote zu er-

zielen. Darüber hinaus werden die Ergebnis-

se der befragten Suchmaschinen von der

Meta-Suchmaschine ausgewertet, die dop-

pelten Einträge eliminiert und das

Ergebnis aufbereitet. Entwickelt

wurde dieses System an der Uni-

versität von Washington, an der

findige Programmierer auch den

Metacrawler entwickelten (http://

www.metacrawler.com). An der Uni

Hannover wurde eine – speziell

auf deutsche Searchengines ab-

gestimmte – Metasuchmaschine

programmiert, die unter http://

meta.rrzn.uni-hannover.de zu fin-

den ist. Neben diesen Server-seiti-

gen Meta-Suchmaschinen gibt es

auch kleine Programme, die Sie

auf Ihrem Rechner installieren

können und die Client-seitig ope-

rieren. Eine Auswahl finden Sie im

IW-Web.

SUCHSTRATEGIENeben der Auswahl einer geeigneten Such-

maschine oder Meta-Suchmaschine ist die

Auswahl einer richtigen Suchstrategie fürs

Ergebnis ausschlaggebend. Ein wichtiger

Bestandteil von Suchstrings ist die soge-

nannte bool’sche Aussagelogik. Damit wer-

den mehrere Argumente mit logischen Ope-

ratoren verknüpft und von der Suchma-

schine ausgewertet. Die gängigen – allge-

meinen Operatoren – sind anhand der Bei-

spiele im Kasten „Suchmaschinen-Syntax“

näher erläutert. Der IW-Testsieger Lycos

(http://www.lycos.de) aus IW 7/98 („Such-

maschinen: Was leisten sie wirklich“, S.

86ff ) bietet einige mächtige Funktionen, mit

denen Sie die Wortzusammenhänge eines

Textes untersuchen können. Dabei handelt

es sich um die Funktionen ADJ, NEAR, FAR

und BEFORE. Sie suchen beispielsweise

nach bekannten Bugs des Internet Explorer

praxisSUCHMASCHINEN

78 internetworld januar ’99

Suchmaschinenim Griff (1)Das Angebot an Informationen im Internet wächsttäglich. Für Einsteiger wird es – trotz Suchmaschinen –immer schwieriger, schnell brauchbare Sites zu finden.

Metasuche: Zur ersten Suche bieten sich spe-

zielle Tools wie WebFerret an, die gleichzeitig

mehrere Suchmaschinen nach den eingegebe-

nen Begriffen durchforsten

Page 30: praxis recherche im netz Die Kunst des Suchensgcc.uni-paderborn.de/www/WI/WI2/wi2_lit.nsf/78e7f73ae881ef17c12… · Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es

4.0. Wenn Sie die Suche nun ausschließlich

mit AND bzw. OR gestalten, bekommen Sie

eine Vielzahl von Seiten in die Ergebnismen-

ge, die zwar die beiden Begriffe enthalten,

aber nicht in direktem Zusammenhang ste-

hen. Mit dem Operator ADJ können Sie Wör-

ter in unmittelbarer Nähe suchen. NEAR

/<Anzahl> erlaubt es, einen Abstand zwi-

schen den Suchwörtern zu definieren, der

maximal bestehen darf. „internet explorer“

near/10 bug liefert beispielsweise alle Sei-

ten, auf denen die Wörter „internet explorer“

und „bug“ maximal 10 Wörter Abstand ha-

ben. Einen hilfreichen Ansatz bieten auch die

Suchmöglichkeiten von Hotbot (http:// www.

hotbot.com). Hier können Sie auch nach

speziellen Objekten wie Applets, Scripts

oder Grafiken innerhalb einer Seite suchen.

Die Index-Software berücksichtigt da-

bei nicht nur inhaltliche Begriffe,

sondern neben den META-Tags

auch weitere Informa-

tionen aus dem

HTML-Quellcode.

Außerdem ste-

hen Ihnen bei

dieser Such-

maschine per Kontrollkästchen auch gleich

die Funktion NEAR und mehrere MUST IN-

CLUDE-Auswahlmöglichkeiten offen.

ALTERNATIVENSollte Ihnen der Weg über die Suchmaschi-

nen nicht zum Erfolg verhelfen, dann gibt es

alternative Methoden. Nicht selten hilft die

Web-Gemeinde bei der Suche nach Informa-

tionen weiter. Eine Anfrage in einer der vie-

len Newsgroups ist oft von Erfolg gekrönt.

Wenn es sich um tagesaktuelle Informatio-

nen handelt, werden Sie auch oft auf den Si-

tes von deutschen Tageszeitungen (Samm-

lung unter http://www.zeitungen .de) oder

speziellen News-Diensten wie Cnet News

(http://www.news. com) fündig.

In der nächsten Ausgabe kommen

die Profis mit ausgefeilten Tips

und Tricks für die besten vier

Searchengines auf ihre Ko-

sten. ■ Andreas Hitzig

aktu

elles

magazi

nte

stpra

xis

intr

anet

serv

ice

Suchmaschinen-SyntaxDie Möglichkeiten beim Zusammenstellen von Suchstrings unterscheiden

sich meist nur unwesentlich. In der folgenden Tabelle werden die wichtigsten Befehle von Altavista und Lycos gegenübergestellt. Die

Befehle und die Syntax unterscheiden sich – wie bei vielen anderen Suchmaschinen auch – nur unwesentlich.

Schlüsselwort Zeichen Bedeutung Beispiel Altavista Lycos

+ Angegebener Begriff muß im Ergebnis enthalten sein. +Internet Ja Ja

- Angegebene Begriff darf nicht im Ergebnis enthalten sein. -Internet Ja Ja

* Nur Wortstamm wird angegeben (Truncation) Inter* Ja Ja, Symbol ist $

( ) Abhängig von der Klammerung wertet der Interpreter Redakteur AND („Pit Klein“ OR „Patrik Bock“) hat ein anderes Ja Ja

der Suchmaschine die Anfragen unterschiedlich aus Ergebnis als (Redakteur AND „Pit Klein“) OR „Patrik Bock“

„ “ Ausdruck muß im Ergebnis enthalten sein „Internet World“ Ja Ja

AND & Findet nur Dokumente, in denen die alle angegebenen Magazin AND „Internet World“ Ja (Advanced Help) Ja

Begriffe enthalten sind

OR | Findet alle Dokumente, in denen mindestens eines der Magazin OR „Internet World“ Ja (Advanced Help) Ja

angegebenen Wörter enthalten ist

NOT ! Schließt Dokumente mit den angegebenen Begriffen Magazin AND NOT„Internet World“ Ja (Advanced Help) Ja

aus dem Ergebnis aus

INFO

1/8 Seite querNet.-D.

79internetworld januar ’99

Jede Suchmaschine bietet bei der Suche eine

etwas andere Syntax: Bei Lycos erfahren Sie

anhand ausführlicher Beispiele, welche Mög-

lichkeiten zur Verfügung stehen