Upload
david-boer
View
213
Download
0
Embed Size (px)
Citation preview
1
Web-basierte Informationssysteme Web-basierte Informationssysteme
Skizzen zur VL WS 2000/1H. Schweppe
FUB
1.2
Einführung / UmfeldEinführung / Umfeld
Informationsangebot 1000 Patentanmeldungen / Tag 2000 neue Bücher / Tag 500 000 fachwiss. Beiträge in der Chemie / Jahr Ca 150.000.000 Webseiten (1997) , jährliche
Verdopplung ~ 50.000 hydraulische Übertragungselement von
4000 Herstellern Zentrales Problem:
Benötigte ("passende") Information finden Technisch: Suchmaschine Nichttechnische Faktoren wichtig:
u.a.vertrauenswürdig?
1.3
Einführung / UmfeldEinführung / Umfeld
Technisches Umfeld Speichermedien (Kosten, Volumen)
Kosten für Speicherung einer DIN A4 Seite20 GB kosten ca. 400 DM 1 Seite entspricht etwa 5 K Zeichen ~ 5 KB im pdf-Format 200.000 Seiten pro GB ~ 2000 PfgKosten pro Seite 1/100 Pf + Infrastrukturkosten (Controller, Netz Server) grob Faktor 5
1 Blatt DIN A 4 Papier ~ 1,5 Pfg
Papier / elektronischer Speicherung ~ 1 : 30 (!) Datenrate weit unterproportional gestiegen:
50 MB / sec : 10 Gb sequentiell lesen ca. 3 MinutenWahlfreier Zugriff: 10 msec 10 GB wahlfrei in Blöcken à 50 KB: ca. eine Stunde
1.4
Einführung / UmfeldEinführung / Umfeld
Rechnertechnologie Durchsuchen sehr großer Bestände wird möglich
CPU, große HalbleiterspeicherRechnernetze
Unabhängigkeit vom Ort Dokumente neuer Art
Bilder, virtuelle Dokumente, verteilte Dokumente
Ökonomisch Aufbereitung, Bewertung und Verbreitung von
Information hat sich zu neuem Dienstleistungszweig entwickelt ("Wissensgesellschaft")
1.5
Einführung: DB / IR / WebEinführung: DB / IR / Web
Datenbank Modell: Informationsrepräsentation Menge von
Tabellen Alle Werte statisch getypt (DB-Schema !) Externsemantik dadurch festgelegt, einheitliche
Interpretation der Daten Zugriff über normierte Schnittstelle,
Frage – Antwort – Paradigma:
Aq = {x | Q(x) mit Q ist Qualifikationsprädikat von q}Auswertung von Prädikaten in zweiwertiger Logik
q
Aq
DB
1.6
Einführung: DB / IR / WebEinführung: DB / IR / Web
Fallstudie "Bibliothek" Schlagworttabelle, um nach "Inhalten" suchen zu
können.CREATE TABLE keyword (kw varchar(...), bookid: ... REFERENCES book); /* weitere Tabellen book, user, ..... Hier unwesentlich */
SELECT book.title from book b, keyword k WHERE k.kw = "NETWORKS" AND k.bookid = b.id;
Eindeutige Anwortmenge, jeder Treffer "passt" in gleicher Weise zu Anfrage (zweiwertige Logik!)
1.7
Einführung: DB / IR / WebEinführung: DB / IR / WebKritik
Wie gewinnt man Stichwörter? Wortformen ("networks", "networking") Mehrsprachigkeit ("Netze") Verwandte Begriffe ("Rechnernetze") Ober- / Unterbegriffe (LAN)
Nur wenig davon in SQL ausdrückbarZiel:
Gewichtung der Antwortmenge hinsichtlich Relevanz des Objekts bezüglich Anfrage-> Information Retrieval
Beachte: subjektiv!
1.8
Einführung: DB / IR / WebEinführung: DB / IR / Web
Information Retrieval Modell (in erster Näherung): Menge von Wortfolgen
(Texte) D Datenmenge. q Anfrage, Q Menge aller Anfragen Aq = {x | x "passend" zu q}
Was ist "passend" oder "ähnlich"? Formal z.B. s :: D x Q -> [0,1] (normiert auf [0,1]) mit der Eigenschaft s(x,x) = 1 s(x,y) = s(y,x) eventuell zusätzlich: s(x,y) <= s(x,z) + s(z,y) (Dreiecksungleichung, macht aus Ähnlichkeitsmaß ein Abstandsmaß, wobei s(x,x) = 0)
Ähnlichkeit von Objekt und Anfrage definiert Rangfolge, Aq kann vermöge s geordnet werden: Rangfolgebestimmung
1.9
Einführung: DB / IR / WebEinführung: DB / IR / Web
Aufgaben des Information Retrieval Modelle finden, die Ähnlichkeit auszudrücken gestatten
(elementar: Boolesche Auswertung von Anfragen, die nur aus Schlagwörtern bestehen)
Geeignete Ähnlichkeitsmaße s definieren Bewertung von s (relativ zu Nutzer) Effiziente Verfahren zur Auswertung von s auf sehr großen
Datenmengen, z.B. durch Indexierung Erweiterte Aufgaben im Web
Zusammenführen von Ergebnissen Rangfolge? Duplikate
Strukturierte Dokumente (nicht nur Zeichenketten)(Wie) kann Markup helfen, die passenden Dokumente zu finden?
1.10
Einführung: DB / IR / WebEinführung: DB / IR / Web
Web-Technologie Als Web bezeichnen wir alle weltweit miteinander
verbundenen Rechnersysteme Web im engeren Sinne: Web-Server (HTTP) und
Klienten
Client Server
GET /document.html
cache
TCP
1.11
Web Statistik, Juni 1999, Quelle: OCLCWeb Statistik, Juni 1999, Quelle: OCLCNumber of IP addresses in 32-bit address space: 4,294,967,296 Number of IP addresses in the 0.1% random sample: 4,294,967
Web SizeNumber of Web Sites: 4,882,000
(+/- 3%) Number of Unique Web Sites: 3,649,000 (+/- 3%)
Web Site Categorization (Unique Sites)
Number of Public Web Sites: 2,229,000 (+/- 4%)
Number of Private Web Sites: 389,000 (+/- 10%)Number of Provisional Web Sites: 1,031,000
(+/- 6%)
1.12
Web-StatistikWeb-Statistik
Public Web Sites (Unique Only)Number of Web Pages: 288,221,000 (+/- 35%)Number of Files: 500,491,000Number of Adult Sites: 42,000 (+/- 30%)
Web Growth 1997 1998 1999 Web Sites: 1,570,000 2,851000 4,882,000
Unique Sites: 1,230,000 2,035,000 3,649,000Unique Public Sites: 800,000 1,457,000 2,229,000
% Change: '97 to '98 '98 to '99 '97 to '99Web Sites: 82 71 211
1.13
Web Statistik: MultilingualitätWeb Statistik: Multilingualität
Incidence of Languages in Public Sites1998 1999
English 84% 80% German 8 8 Japanese 3 3
French 3 3 Portuguese 2 2 Spanish 2 3 Chinese < 1 2 Italian 1 2 Dutch 1 1
ALL OTHERS < 1 < 1
Anzahl Sprachen insgesamt:1998: 281999: 29
1.14
Datenbankanwendungen im NetzDatenbankanwendungen im Netz
Klassischer Client-Server-Betrieb:
Nicht notwendig mit über HTTP
Client DB-Server
proprietär
z.B. Terminal
z.B. SQL
1.15
Datenbankanwendung im NetzDatenbankanwendung im Netz
Client HTTPServer
TCP
GET URI mit kodiertem Query-Sting
HTML-Dokument mit Ergebnissen der DB-Abfrage
DBServer
Anwendungsprogramm, über CGI-Schnittstelle
gestartet
Zugriff über Web-Browser / HTTP-Server