5
1 Einfɒhrung Nach einer Studie des amerikanischen Marktforschungsinstitutes Cyveillance [Cyve00] umfasste das Internet im Juli 2000 rund 2,1 Milliarden statische Websei- ten. Jeden Tag kommen weitere sieben Millionen hinzu. Bereits fɒr Anfang 2001 wurde eine Verdopplung auf 4 Milliarden prognostiziert. Daneben gibt es jedoch noch einen viel grɆßeren Datenbestand, hȨufig als „deep“, „invisible“ oder „hidden“ Web [Brig00; Looh01; Webl01; Warn01] bezeichnet. Hierbei handelt es sich um an das Internet angeschlossene Datenbanken, die erst auf eine konkrete Anfrage eines Benutzers hin die Ergebnisse der Datenbankanfrage als dynamische Webseite darstellen. Nach der Anfrage ist diese dynamische Webseite nicht mehr existent. Auf Grund dieser Tat- sache sind die Inhalte des „Invisible Web“ (z. B. Shopping-Datenbanken wie Ama- zon oder Online-WɆrterbɒcher wie LEO.ORG) auch nicht durch herkɆmm- liche Suchmaschinen indizierbar. Informa- tionen aus diesen Datenbanken werden durch eine Web-Suche, etwa mit Altavista, nicht gefunden. Die verfɒgbaren Suchmaschinen decken nur das statische Web, und auch davon nur 10 – 30% [AT01] ab. Nach [ LaGi99] liegen die Zahlen noch niedriger. Danach gibt es keine Suchmaschine, die mehr als 16% des (statischen) Web indiziert. Eine Studie von BrightPlanet [ Brig00] geht davon aus, dass das „Invisible Web“ fɒnfhundert mal grɆßer ist als die sichtbare OberflȨche des World Wide Web. Danach handelt es sich um ungefȨhr 550 Milliarden Dokumente, mit einer QualitȨt der Infor- mation, die den Durchschnitt der stati- schen Seiten im Internet bei Weitem ɒber- steigt. Es ist fast schon ein Paradoxon, dass die vielen Informationen dazu fɒhren, dass es dem Nutzer immer schwerer fȨllt, fɒr ihn relevante Informationen zu finden. In [ Korn00] wird festgestellt, dass der Prozentsatz der Informationen im Web, die fɒr den Einzelnen nɒtzlich ist, kon- tinuierlich zurɒckgeht und heute bei 0,01% liegt. Laut [iHar01] verbringen ɒber 80% der geschȨftlichen Nutzer mindestens 30 Mi- nuten pro Tag mit Suchen im Web. Außer- dem wird mit 81% die Websuche als hȨu- figster Grund angegeben, warum sich ein Nutzer mit dem Internet verbindet. Nach [Ster00] rufen 52% der deutschen Online- Nutzer vor allem Informationen im Inter- net ab. Nach einer Studie von [LyVa00] wer- den in den nȨchsten drei Jahren weltweit mehr Informationen (12 Exabytes = 12 Milliarden Gigabytes) erzeugt als in den letzten 300.000 Jahren. Auf Papier werden nur 0,003% der weltweit gespeicherten In- formationen gedruckt. Diese Fakten zeigen deutlich, wie hoch der Bedarf an neuen LɆsungen fɒr die Su- che im Internet ist. Im Folgenden wird der Stand der Tech- nik kurz beschrieben, gefolgt von einer Ƞbersicht verschiedener LɆsungsansȨtze. Kapitel 4 beinhaltet die Beschreibung der clientbasierten Software BINGOOO zur Schaffung einer einheitlichen Recherche- plattform im Internet. Abschließend gehen wir auf SchwȨchen dieser Vorgehensweise ein und stellen ein Peer-to-Peer-Konzept in Aussicht. 2 Stand der Technik Dem Nutzer des Internets stehen heute im wesentlichen Kataloge, Suchmaschinen und Metasuchmaschinen als Hilfsmittel zur Recherche zur Verfɒgung. Kataloge (wie z. B. Lycos) bieten hierar- chisch kategorisierte, meist redaktionell aufbereitete Linklisten zu verschiedenen Themengebieten. Es werden die verschie- denen Quellen zu einem Thema auf- gefɒhrt, auch Quellen des „invisible Web“, eine gleichzeitige Suche innerhalb aller dieser Quellen ist ɒber den Katalog aber nicht mɆglich (natɒrlich kann man auf ei- nen Link klicken und dann innerhalb die- ser einen Quelle suchen, nur dann hat man den Katalog bereits verlassen). Durch die redaktionelle Betreuung ist die Relevanz hoch, wegen der damit verbundenen ma- nuellen Vorgehensweise die VollstȨndig- keit aber gering. Bei Suchmaschinen dagegen werden die Informationsquellen nicht kategorisiert. Es wird automatisch ein Index der stati- schen Webseiten erstellt. Die Suche selbst Dr. Wolf Garbe, CEO, CTO, BINGOOO AG, WebTower Cologne, Deutz-Kalker Straße 18, D-50679 KɆln, Tel. (02 21) 8 02 49-0, Fax (02 21) 8 02 49-50, E-Mail: wolf.garbe@bingooo. com, http://www.bingooo.com BINGOOO – Die Transformation des World Wide Web zur virtuellen Datenbank Wolf Garbe WI – Innovative Produkte WIRTSCHAFTSINFORMATIK 43 (2001) 5, S. 511–515 511

BINGOOO — Die Transformation des World Wide Web zur virtuellen Datenbank

  • Upload
    wolf

  • View
    213

  • Download
    0

Embed Size (px)

Citation preview

1 Einf�hrung

Nach einer Studie des amerikanischenMarktforschungsinstitutes Cyveillance[Cyve00] umfasste das Internet im Juli2000 rund 2,1 Milliarden statische Websei-ten. Jeden Tag kommen weitere siebenMillionen hinzu. Bereits f�r Anfang 2001wurde eine Verdopplung auf 4 Milliardenprognostiziert.

Daneben gibt es jedoch noch einen vielgr�ßeren Datenbestand, h�ufig als „deep“,„invisible“ oder „hidden“ Web [Brig00;Looh01; Webl01; Warn01] bezeichnet.Hierbei handelt es sich um an das Internetangeschlossene Datenbanken, die erst aufeine konkrete Anfrage eines Benutzers hindie Ergebnisse der Datenbankanfrage alsdynamische Webseite darstellen. Nach derAnfrage ist diese dynamische Webseitenicht mehr existent. Auf Grund dieser Tat-sache sind die Inhalte des „Invisible Web“(z. B. Shopping-Datenbanken wie Ama-zon oder Online-W�rterb�cher wieLEO.ORG) auch nicht durch herk�mm-liche Suchmaschinen indizierbar. Informa-tionen aus diesen Datenbanken werdendurch eine Web-Suche, etwa mit Altavista,nicht gefunden.

Die verf�gbaren Suchmaschinen deckennur das statische Web, und auch davon nur10–30% [AT01] ab. Nach [LaGi99] liegendie Zahlen noch niedriger. Danach gibt eskeine Suchmaschine, die mehr als 16% des(statischen)Web indiziert.

Eine Studie von BrightPlanet [Brig00]geht davon aus, dass das „Invisible Web“f�nfhundert mal gr�ßer ist als die sichtbareOberfl�che des World Wide Web. Danachhandelt es sich um ungef�hr 550MilliardenDokumente, mit einer Qualit�t der Infor-mation, die den Durchschnitt der stati-schen Seiten im Internet bei Weitem �ber-steigt.

Es ist fast schon ein Paradoxon, dassdie vielen Informationen dazu f�hren,dass es dem Nutzer immer schwerer f�llt,f�r ihn relevante Informationen zu finden.In [Korn00] wird festgestellt, dass derProzentsatz der Informationen im Web,die f�r den Einzelnen n�tzlich ist, kon-tinuierlich zur�ckgeht und heute bei0,01% liegt.

Laut [iHar01] verbringen �ber 80% dergesch�ftlichen Nutzer mindestens 30 Mi-nuten pro Tag mit Suchen im Web. Außer-dem wird mit 81% die Websuche als h�u-figster Grund angegeben, warum sich ein

Nutzer mit dem Internet verbindet. Nach[Ster00] rufen 52% der deutschen Online-Nutzer vor allem Informationen im Inter-net ab.

Nach einer Studie von [LyVa00] wer-den in den n�chsten drei Jahren weltweitmehr Informationen (12 Exabytes = 12Milliarden Gigabytes) erzeugt als in denletzten 300.000 Jahren. Auf Papier werdennur 0,003% der weltweit gespeicherten In-formationen gedruckt.

Diese Fakten zeigen deutlich, wie hochder Bedarf an neuen L�sungen f�r die Su-che im Internet ist.

Im Folgenden wird der Stand der Tech-nik kurz beschrieben, gefolgt von einer�bersicht verschiedener L�sungsans�tze.Kapitel 4 beinhaltet die Beschreibung derclientbasierten Software BINGOOO zurSchaffung einer einheitlichen Recherche-plattform im Internet. Abschließend gehenwir auf Schw�chen dieser Vorgehensweiseein und stellen ein Peer-to-Peer-Konzeptin Aussicht.

2 Stand der Technik

DemNutzer des Internets stehen heute imwesentlichen Kataloge, Suchmaschinen

und Metasuchmaschinen als Hilfsmittelzur Recherche zur Verf�gung.

Kataloge (wie z. B. Lycos) bieten hierar-chisch kategorisierte, meist redaktionellaufbereitete Linklisten zu verschiedenenThemengebieten. Es werden die verschie-denen Quellen zu einem Thema auf-gef�hrt, auch Quellen des „invisible Web“,eine gleichzeitige Suche innerhalb allerdieser Quellen ist �ber den Katalog abernicht m�glich (nat�rlich kann man auf ei-nen Link klicken und dann innerhalb die-ser einen Quelle suchen, nur dann hat manden Katalog bereits verlassen). Durch dieredaktionelle Betreuung ist die Relevanzhoch, wegen der damit verbundenen ma-nuellen Vorgehensweise die Vollst�ndig-keit aber gering.

Bei Suchmaschinen dagegen werden dieInformationsquellen nicht kategorisiert.Es wird automatisch ein Index der stati-schen Webseiten erstellt. Die Suche selbst

Dr.Wolf Garbe, CEO, CTO,BINGOOOAG,WebTower Cologne,Deutz-Kalker Straße 18, D-50679 K�ln,Tel. (02 21) 8 02 49-0, Fax (02 21) 8 0249-50, E-Mail: [email protected], http://www.bingooo.com

BINGOOO –Die Transformat ion

des Wor ld Wide Webzur v ir tuellen Datenbank

Wolf Garbe

WI – Innovative Produkte

WIRTSCHAFTSINFORMATIK 43 (2001) 5, S. 511–515 511

erfolgt dann in diesem Index, der die Ver-kn�pfung von Suchbegriffen mit zugeh�ri-gen Webseiten realisiert. Der Index erfasstaber eine Webseite nur in gewissen Ab-st�nden, sodass eine Aktualit�t der Sucher-gebnisse h�ufig nicht gegeben ist. Außer-dem ist der Abdeckungsgrad des Index imVerh�ltnis zur Gesamtzahl der Webseitenim Internet begrenzt. Er wird durch denZeitaufwand der Indexierung und die Spei-cherkapazit�t des zentralen Servers einge-schr�nkt. Die Relevanz der Suchergebnisseist durch die automatische Bearbeitungund die Mehrdeutigkeit von Begriffen beiSuche und Indexierung begrenzt.

Eine Metasuchmaschine hat keinen ei-genen Datenbestand, sondern schickt eineAnfrage parallel an mehrere Suchmaschi-nen und fasst deren Suchergebnisse zusam-men. Dadurch wird eine h�here Abde-ckung erreicht und die Verf�gbarkeit desSuchservice steigt. Aber auch hier wird das„InvisibleWeb“ nicht erfasst.

In allen drei F�llen bekommt man alsSuchergebnis nur Links (mit Titel undKurzbeschreibung) geliefert.

3 L�sungsans�tze

Zur Schaffung einer einheitlichen Recher-cheplattform, die auch das „invisible Web“einschließt, sind grunds�tzlich drei Wegedenkbar.

Man kann die Betreiber der Informati-onsquellen im Internet von der Notwen-digkeit �berzeugen, standardisierteSchnittstellen anzubieten. Diese w�rdengeeigneten Werkzeugen dann die M�glich-keit einer effektiven und qualifizierten Su-che �ber den Gesamtbestand er�ffnen.Hier gibt es z. B. mit RDF [RDF01], RSS[RSS01], ICE [ICE01], XMLNews[XMLN01], NewsML [News01], MCF[MCF01], CDF [CDF01], OCS [OCS01],SEP [SEP01], NITF [NITF01], RIXML[RIXM01], um nur einige zu nennen, einegr�ßere Anzahl von Vorschl�gen. DieStandards sind zum Teil spezialisiert, zumTeil mit breiterem Anwendungsfeld, tretenaber auch teilweise konkurrierend auf, so-dass das Ziel einer einheitlichen standardi-sierten Schnittstelle noch in weiter Ferneliegt. Einheitliche Schnittstellen w�rdengeeigneten Werkzeugen dann allerdingsauch dieM�glichkeit einer effektiven, qua-lifizierten Suche �ber den Gesamtbestander�ffnen.

Der zweite Weg besteht darin, die In-formationen der verschiedenen Daten-quellen in eine einheitliche Datenbank zukopieren, zu �berf�hren oder zumindestzu indexieren. Dies ist der Ansatz, den dieherk�mmlichen Suchmaschinen f�r diestatischen Webseiten verfolgen und dertheoretisch auch f�r das „Invisible Web“erweiterbar w�re. Dabei werden aber auchdie Probleme sichtbar: Hohe einmaligeund laufende Kosten, das Problem derfortlaufenden Aktualisierung sowie die be-grenzten Kapazit�ten eines einzelnen Ser-vers stehen der Erfassung der Inhalte desgesamten Internet entgegen. Und auch hierm�sste man sich zuvor auf ein einheitlichesDatenformat einigen.

Eine dritte Variante, die erm�glicht, aufverschiedene Datenquellen des Internets�ber eine einheitliche Oberfl�che zuzu-greifen, ohne dass diese Quellen modifi-ziert oder in eine zentrale Datenbank ko-piert werdenm�ssen, wurde mit der client-basierten Software BINGOOO realisiertund soll im Folgenden beschrieben wer-den.

4 BINGOOO

4.1 Das PrinzipAusgangspunkt ist die �berlegung, dassheute im Internet zu fast jedem Thema eineVielzahl von Information in unterschiedli-chen Quellen zur Verf�gung stehen. Aller-dings ist dem normalen Internetnutzer nurein Bruchteil der relevanten Quellen be-kannt. Und selbst wenn er sie kennen w�r-de, w�re der Aufwand, manuell die gleicheAnfrage nacheinander an alle Quellen zuschicken, betr�chtlich. Da außerdem dieDarstellung der Ergebnisse je nach Quellein unterschiedlichen Layouts erfolgt, ist ei-ne manuelle Aggregation oder ein Ver-gleich von Ergebnissen sehr aufw�ndig.

Nun w�re es sehr n�tzlich, auf alle dieseDatenquellen mit einer einzigen Anfragezugreifen zu k�nnen, sie als eine Art virtu-elle, verteilte Datenbank zu betrachten.Genau dies bietet das Internet heute abernicht. Bei einer verteilten Datenbank kannmit einer Abfrage im Gesamtbestand ge-sucht werden, im Internet haben wir esheute jedoch mit separaten Datenbankenzu tun, die zwar alle an das gleiche Netzangeschlossen sind, die aber nicht zentraldurchsucht werden k�nnen.

Auf die meisten Informationsquellenkann �ber die weitverbreiteten StandardsHTTP und HTML zugegriffen werden.HTTP definiert das �bertragungspro-tokoll undHTMLdieDarstellung derDo-kumente im Browser.

Bei der Anfrage, meist �ber eine Ein-gabe in einem Formular derWebseite reali-siert, wird eine Suche in der an den Web-server angeschlossenen Datenbank aus-gef�hrt. Auf die Suchergebnisse hat manjedoch keinen direkten Zugriff, sie werdensofort automatisch in das HTML-Formatumgewandelt und im Browser angezeigt.Dabei gehen jedoch die semantischen In-formationen zu den einzelnen Ergebnisfel-dern verloren, es gibt nur noch Informatio-nen zu Reihenfolge, Schriftart und -gr�ßesowie Hintergrundfarbe der Spalten derErgebnistabelle. Das Ergebnis ist maschi-nenlesbar und kann vom Browser dar-gestellt werden, aber eine inhaltliche Wei-terverarbeitung der Informationen ist ma-schinell nicht mehr m�glich.

Die L�sung besteht darin, die verlorengegangene semantische Ebene zu rekons-truieren. Das grunds�tzliche Verfahren istschematisch in Bild 1 dargestellt. DasContent-Management recherchiert zu je-dem Themenbereich, hier als Agent be-zeichnet, die jeweils relevanten Quellen.Im Content, d. h. der Agentendefinition,wird festgelegt, in welcher Kategorie sichder Agent befindet und auf welche Quel-len er zugreift. Es wird definiert, welcheSuchfelder er besitzt, wie die Anfrage anseine Quellen zu formulieren ist und wel-che Spalten seine Ergebnistabelle aufwei-sen soll.

Gleichzeitig analysiert das Content-Management aber auch das Ausgabefor-mat der Ergebnisse der jeweiligen Quelleund definiert Extraktionsvorschriften f�rdie einzelnen Datenelemente aus demHTML-Quellcode und deren Zuordnungzu den einzelnen Spalten der Ergebnis-tabelle. Durch diese im Content hinterleg-ten Informationen wird die semantischeEbene restauriert. Die Agentendefinitionund die diese Definition interpretierendenSoftwarekomponenten werden in [Neil00]auch alsWrapper bezeichnet.

Im Ergebnis wird die in BINGOOOeingegebene Suchanfrage automatisch undparallel an die im Content definiertenQuellen �bergeben. Deren in unterschied-lichen Layouts (Tabelle, Liste) �bermittel-ten Suchergebnisse werden extrahiert undnormalisiert, um die semantische Ebene er-

Wolf Garbe

512

g�nzt und damit sortierbar und vergleich-bar gemacht.

4.2 Die SoftwareBINGOOO (siehe Bild 2) ist eine Kom-bination aus thematisch gegliederter Meta-suchmaschine, Browser und Messenger.BINGOOO enth�lt derzeit 200 Agenten,die themenspezifisch jeweils mehrereQuellen gleichzeitig durchsuchen. Dabeireicht die inhaltliche Bandbreite von derWeb-Metasuche �ber aktuelle Nachrich-ten, Suche in Pressearchiven, dem Zugriffauf Online-W�rterb�cher bis hin zur Su-che in den wichtigstenOnline-Buchl�den.

Die Echtzeitsuche in den als Quellendefinierten Suchmaschinen und Datenban-ken garantiert aktuelle Ergebnisse. Bei derSuche wird auch das „Invisible Web“ inForm von Shopping-Datenbanken undArchiven verschiedener Art einbezogen.Die Ergebnisse der verschiedenen Quellenwerden normalisiert in einer Tabelle pr�-sentiert. Ein wichtiges Merkmal ist, dasszus�tzlich zu den �blichen Links bereitsdetaillierte Informationen angezeigt wer-den. Somit k�nnen Preise, technische Da-ten und sonstige Informationen sortiert,verglichen und weiterverarbeitet werden.Gegenw�rtig erfolgt die Auswahl und De-finition der Kategorien, Agenten undQuellen zentral durch das BINGOOO-Content-Management. Die Spezifikationder Agenten-Definition wird aber noch indiesem Jahr ver�ffentlicht und gleichzeitigeine dezentrales, verteiltes Content-Ma-nagement eingef�hrt. Damit wird jederAnwender in die Lage versetzt, entspre-chend seinen Bed�rfnissen neue Quellenhinzuzuf�gen und diese Definition auchanderenNutzern zur Verf�gung zu stellen.

Durch die Beschr�nkung auf reine Text-informationen entfallen lange Ladezeitenf�r Bilder und Grafiken. Die Website mitder Detailinformation zum Ergebnis wirdper Klick im integrierten Browser ge�ff-net. Zus�tzliche Browserfunktionen undein Kommunikationsmodul mit Instant-Messenger, SMS-Gateway, Web-TV und-Radio (Streaming Media), integriert in ei-ne einheitliche Oberfl�che, machen BIN-GOOO zum vielseitigen Internet-Werk-zeug.

Web-Meta-Suchmaschine

16 Suchmaschinen werden parallel abge-fragt. Es erfolgt eine grafische Darstellung

von Ergebnisrelevanz und Top-Level-Do-main. Eine Aggregation filtert doppelteTreffer, d. h. Treffer mit identischer URL(Uniform Ressource Locator).

Themen-Suchmaschinen

200 Agenten, thematisch unterteilt in 13Kategorien (von Suche, Nachrichten,Wirtschaft, �ber Einkaufen bis zu Sport)greifen auf insgesamt 1000Quellen zur�ck.Sie liefern aktuelle Daten durch Echtzeit-abfrage in den Originalquellen. Die paral-lele Abfrage in den zum jeweiligen Thema

wichtigsten Quellen sichert relevante Er-gebnisse. Eine direkte Anzeige von derDe-tailinformationen zum Suchergebnis ist imintegrierten Browserm�glich.

Durch die zus�tzlich zu den �blichenLinks extrahierten und in der Ergebnis-tabelle dargestellten, detaillierten Informa-tionen k�nnen Preise, technische Datenund sonstige Informationen sortiert, ver-glichen und weiterverarbeitet werden. EinExport der Ergebnisse im XML-, HTML-,und Excel-Format ist m�glich.

Kernpunkte f�r dasManagement

BINGOOO ist eine neue clientbasierte Suchsoftware, die folgende Eigen-schaften anbietet:

, Die heterogenen Informationsquellen im Internet werden durch Rekonstruk-tion der semantischen Ebene zu einer verteilten, virtuellen Datenbank trans-formiert. Eine Modifikation auf Quellenseite ist dazu nicht erforderlich.

, Es erfolgt eine parallele Suche in mehreren Quellen und eine einheitlicheZusammenfassung von deren Ergebnissen.

, Je nach Suchkontext wird nur auf die jeweils relevantenQuellen zugegriffen.

Durch dieses Vorgehen kann das von normalen Suchmaschinen nicht erfass-bare „Invisible Web“ erschlossen werden. Das System liefert Daten statt Linksund erm�glicht damit ein Vergleichen und Sortieren auf der semantischenEbene.

Stichworte: Suche, Recherche, Agenten, Meta-Suche, Informationen,Web,Invisible Web, Content-Management, Peer-to-Peer

Bild 1 Die Transformation des World Wide Web zur virtuellen Datenbank

BINGOOO

513

Browser

BINGOOO kann auch als Standard-Browser eingesetzt werden.

Mit Quick-Search startet bei Eingabeeines Suchbegriffs im Adressfeld desBrowsers die Meta-Suchmaschine auto-matisch. Es k�nnen zu jeder Webseite refe-renzierende und verwandte Links,WHOIS-Information (Information �berden Inhaber der Domain) und eineOnline-�bersetzung angezeigt werden. Pop-up-Fenster k�nnen unterdr�ckt werden. Meh-rere gleichzeitig ge�ffnete Webseiten wer-den �ber ein Register im gleichen Fenster�bersichtlich dargestellt.

Kommunikationsmodul

Buddy-Listen informieren �ber die Anwe-senheit von Freunden und Kollegen imLAN und im Internet. �ber Instant-Mes-saging lassen sich Nachrichten und Web-Seiten schnell und unkompliziert versen-den. DieNachrichten werden verschl�sselt�bertragen. Ebenfalls integriert wurde einkostenloser SMS-Versand sowie ein Me-dienfenster f�r den Empfang von Web-TVund -Radio.

BINGOOO ist seit September 2000verf�gbar und wird heute bereits von �ber300.000 Anwendern im privaten und pro-fessionellen Bereich eingesetzt. BIN-

GOOOist in der Personal-Version kosten-los auf der Website http://www.bingooo.com erh�ltlich. Danebenwerden zuk�nftigim Funktionsumfang erweiterte Professio-nal- undCorporate-Versionen angeboten.

4.3 Die VorteileIm Folgenden werden die Vorteile des be-schrieben Konzeptes n�her vorgestellt.

Effektives Content-Management: DasContent-Management arbeitet auf einersehr abstrakten Ebene, n�mlich der Quel-lenebene. Es muss beim Beispiel einesNachrichtenagenten nicht bei jeder neuenNachricht redaktionell t�tig werden, son-dern nur wenn neue Nachrichtenquellenhinzugef�gt werden sollen oder wenn sichdas Darstellungsformat der Nachrichtender jeweiligen Quelle signifikant �ndert.Damit ist auch bei der Einbindung einersehr großen Anzahl von Quellen der per-sonelle Aufwand �berschaubar.

Dieser Aufwand l�sst sich noch einmalreduzieren, wenn in der n�chsten Entwick-lungsstufe die Agenten-Definition freige-geben wird. An Stelle des bisherigen zen-tralen Content-Management bei BIN-GOOOwird dann ein dezentrales, verteil-tes Content-Management unter Einbezie-hung der Internet-Community treten. Da-

mit wird dann auch eine noch gr�ßere in-haltliche Bandbreite des BINGOOO-Konzepts m�glich.

Kombination von Katalog (Portal) undMeta-Suchmaschine:Die Verkn�pfung derVorteile von Katalog (hohe Relevanz) undMeta-Suchmaschine (hohe Vollst�ndig-keit, Suche innerhalb der Quellen stattAuflistung) wird bei geringen operativenKosten realisiert.

Kompatibilit�t und große Datenbasis: Eswerden die verbreitetsten Standards im In-ternet genutzt. Dadurch ist der Zugriff aufsehr viele Informationsquellen m�glich,ohne dass bei den Betreibern Anpassun-gen, die Einf�hrung neuer Technik oderdie langwierige Einf�hrung neuer Stan-dards notwendig wird.

Aktualit�t der Information: Die Notwen-digkeit eines zentralen Index und der da-mit verbunden Zwischenspeicherung wirdvermieden.

Umfassende Information: Es wird parallelauf viele relevanten Quellen zum jeweili-gen Thema zugegriffen.

Relevante Information: Es wird nur aufdie Quellen zugegriffen, die zum Themabeitragen k�nnen.

Informationen statt Links: Das dadurchm�gliche Sortieren und Vergleichen er-m�glicht eine wesentlich schnellere Aus-wahl der wirklich relevanten Informatio-nen aus der Liste der Suchergebnisse. DasKlicken durch eine lange Liste von Linkswird �berfl�ssig, da sich die Informationenschon auf den ersten Blick erschließen.

Hohe Schnelligkeit und Verf�gbarkeit:Der gleichzeitige Parallelzugriff auf meh-rere Datenquellen befreit den Nutzer voneiner langwierigen manuellen Suche in ver-schiedenen Quellen und liefert auch beimAusfall einzelner Quellen (oder wenn die-se zum Suchbegriff keine Ergebnisse an-bieten) noch Resultate.

Thematische Integration: Es wird eine ein-heitliche Benutzerschnittstelle �ber alleunterschiedlichen Themenbereiche undArten von Informationsquellen im Webrealisiert.

Technische Integration: Es ist ein Zugriffauf Datenbanken, Suchmaschinen, Katalo-ge, Newsgroups und einfache Webseitengleichermaßenm�glich.

Bild 2 Die Benutzeroberfl�che

Wolf Garbe

514

5 Ausblick

W�hrend der Ansatz von BINGOOO zurSuche im „Invisible Web“ eine gute L�-sung darstellt, kann die Metasuche im sta-tischen Web trotz partieller Verbesserun-gen die grunds�tzlichen Probleme der alsQuellen eingebundenen Suchmaschinennicht l�sen. Deren Ansatz, die Erfassungdes exponentiell wachsenden Web auf ei-nem einzigen Server zu realisieren, haltenwir nicht f�r erfolgversprechend. Trotzst�ndig h�herer Investition im Hardware-bereich wird die Vollst�ndigkeit und Ak-tualit�t der so realisierten Suchindizes zu-r�ckgehen.

Wir setzen dem das Konzept einer ver-teilten Peer-to-Peer-Suchmaschine ent-gegen, in dem die Anwender, die f�r dasWachstum der Inhalte des Internets sor-gen, auch deren Auffindbarkeit sicherstel-len. Diese Alternative zu serverbasiertenSuchtechnologien wird es erm�glichen, dieSuchergebnisse aktueller, umfassender undkosteng�nstiger zu realisieren. Bei umfas-senderen Suchergebnissen steigen die An-forderungen an die Relevanz der Sucher-gebnisse. Diese wird einerseits durch einevollautomatische Bewertung von Inhaltendurch die Nutzer der Peer-to-Peer-Such-maschine und andererseits durch eine lexi-kalisch-semantische Analyse von Such-anfrage und Ergebnissen sichergestellt.

Integraler Bestandteil der zuk�nftigenL�sung wird ein P2P-Filesharing mit ge-gen�ber bekannten L�sungen wie Napsterund Gnutella verbesserter Performance,Verf�gbarkeit und Rechtssicherheit sein.

Ein weiterer Schwerpunkt wird im BereichDatenschutz und Sicherung der Privat-sph�re beim Surfen und Publizieren durchP2P-Anonymizer und P2P-Webserver ge-setzt.

Literatur

[AT01] @-WEB: Suchmaschinenindex, 2001.http://www.at-web.de/Informationen/suchmaschinenindex.htm, abgerufen am 2001-07-11.

[Brig00] BrightPlanet: The Deep Web: surfacinghidden value, Studie, 2000. http://www.completeplanet.com/tutorials/deepweb/summary03.asp, abgerufen am 2001-07-11.

[CDF01] Channel Definition Format (CDF).http://www.w3.org/TR/NOTE-CDFsubmit.html, abgerufen am 2001-07-11.

[Cyve00] Cyveillance: Cyveillance Web Study,2000. http://www.cyveillance.com/web/us/forms/request.asp?form_type=download_wp&wp=web_study, abgerufen am 2001-07-11.

[ICE01] The Information and Content Exchange(ICE). http://www.icestandard.org/, abgerufenam 2001-07-11.

[iHar01] iHarvest Corporation: Bridging theGap, 2001. http://corp.iharvest.com/biz/bridge.html, abgerufen am 2001-07-11.

[Korn00] Kornblum, J.:More useless info: 2 billi-on Web pages, USA TODAY, 2000.http://www.usatoday.com/life/cyber/tech/jk071100.htm, abgerufen am 2001-07-11.

[LaGi99] Lawrence, S.; Giles, C.L. In: Nature1999-07-09, S. 107–109.

[Looh01] Loohauis, J.: The hidden ‘deep Web’holds treasures. In: Inquirer 2001-05-31.http://inq.philly.com/content/inquirer/2001/05/31/tech_life/DEEP31.htm, abgerufen am2001-07-11.

[LyVa00] Lyman, P.; Varian, H.: How Much In-formation? Studie, School of Information Ma-

nagement and Systems (SIMS), University ofCalifornia, Berkeley 2000.

[MCF01] Meta Content Framework (MCF).http://www.w3.org/TR/NOTE-MCF-XML/,abgerufen am 2001-07-11.

[Neil00] Neiling, M.: Integration von Internet-Datenbanken. Seminar, Freie Universit�tBerlin 2000. http://www.wiwiss.fu-berlin.de/~mneiling/seminar, abgerufen am 2001-07-11.

[News01] NewsML. http://www.iptc.org/NMLIntro.htm, abgerufen am 2001-07-11.

[NITF01] News Industry Text Format (NITF).http://nitf.org, abgerufen am 2001-07-11.

[OCS01] Open Content Syndication (OCS).http://internetalchemy.org/ocs/, abgerufen am2001-07-11.

[RDF01] Resssource Description Framework(RDF). http://www.w3.org/RDF, abgerufenam 2001-07-11.

[RIXM01] Research Information Exchange Mar-kup Language (RIXML). http://rixml.org, ab-gerufen am 2001-07-11.

[RSS01] RDF Site Summary (RSS). http://www.xmltree.com/rss/index.htm, abgerufenam 2001-07-11.

[SEP01] Staffing Exchange Protocol (SEP).http://hr-xml.org, abgerufen am 2001-07-11.

[Ster00] stern MarkenProfile 8, Stern, 2000.http://www.markenprofile.stern.de/, abgeru-fen am 2001-07-11.

[Warn01]Warnick, W.L. u. a.: Searching the DeepWeb. In: D-Lib Magazine 7 (2001) 1.http://www.dlib.org/dlib/january01/warnick/01warnick.html, abgerufen am 2001-07-11.

[Webl01] Weblens: The Invisible Web.http://www.weblens.org/invisible.html, abge-rufen am 2001-07-11.

[XMLN01] XMLNews. http://www.xmlnews.org/, abgerufen am 2001-07-11.

BINGOOO

515