16
1 Web-basierte Informationssysteme Web-basierte Informationssysteme Skizzen zur VL WS 2000/1 H. Schweppe FUB

Web-basierte Informationssysteme

  • Upload
    hart

  • View
    33

  • Download
    0

Embed Size (px)

DESCRIPTION

Web-basierte Informationssysteme. Skizzen zur VL WS 2000/1 H. Schweppe FUB. Einführung / Umfeld. Informationsangebot 1000 Patentanmeldungen / Tag 2000 neue Bücher / Tag 500 000 fachwiss. Beiträge in der Chemie / Jahr Ca 150.000.000 Webseiten (1997) , jährliche Verdopplung - PowerPoint PPT Presentation

Citation preview

Page 1: Web-basierte Informationssysteme

1

Web-basierte Informationssysteme Web-basierte Informationssysteme

Skizzen zur VL WS 2000/1

H. Schweppe

FUB

Page 2: Web-basierte Informationssysteme

1.2

Einführung / UmfeldEinführung / Umfeld

Informationsangebot 1000 Patentanmeldungen / Tag 2000 neue Bücher / Tag 500 000 fachwiss. Beiträge in der Chemie / Jahr Ca 150.000.000 Webseiten (1997) , jährliche

Verdopplung ~ 50.000 hydraulische Übertragungselement von

4000 Herstellern

Zentrales Problem: Benötigte ("passende") Information finden Technisch: Suchmaschine Nichttechnische Faktoren wichtig:

u.a.vertrauenswürdig?

Page 3: Web-basierte Informationssysteme

1.3

Einführung / UmfeldEinführung / Umfeld

Technisches Umfeld Speichermedien (Kosten, Volumen)

Kosten für Speicherung einer DIN A4 Seite20 GB kosten ca. 400 DM 1 Seite entspricht etwa 5 K Zeichen ~ 5 KB im pdf-Format 200.000 Seiten pro GB ~ 2000 PfgKosten pro Seite 1/100 Pf + Infrastrukturkosten (Controller, Netz Server) grob Faktor 5

1 Blatt DIN A 4 Papier ~ 1,5 Pfg

Papier / elektronischer Speicherung ~ 1 : 30 (!) Datenrate weit unterproportional gestiegen:

50 MB / sec : 10 Gb sequentiell lesen ca. 3 MinutenWahlfreier Zugriff: 10 msec 10 GB wahlfrei in Blöcken à 50 KB: ca. eine Stunde

Page 4: Web-basierte Informationssysteme

1.4

Einführung / UmfeldEinführung / Umfeld

Rechnertechnologie Durchsuchen sehr großer Bestände wird möglich

CPU, große Halbleiterspeicher

Rechnernetze Unabhängigkeit vom Ort Dokumente neuer Art

Bilder, virtuelle Dokumente, verteilte Dokumente

Ökonomisch Aufbereitung, Bewertung und Verbreitung von

Information hat sich zu neuem Dienstleistungszweig entwickelt ("Wissensgesellschaft")

Page 5: Web-basierte Informationssysteme

1.5

Einführung: DB / IR / WebEinführung: DB / IR / Web

Datenbank Modell: Informationsrepräsentation Menge von

Tabellen Alle Werte statisch getypt (DB-Schema !) Externsemantik dadurch festgelegt, einheitliche

Interpretation der Daten Zugriff über normierte Schnittstelle,

Frage – Antwort – Paradigma:

Aq = {x | Q(x) mit Q ist Qualifikationsprädikat von q}Auswertung von Prädikaten in zweiwertiger Logik

q

Aq

DB

Page 6: Web-basierte Informationssysteme

1.6

Einführung: DB / IR / WebEinführung: DB / IR / Web

Fallstudie "Bibliothek" Schlagworttabelle, um nach "Inhalten" suchen zu

können.

CREATE TABLE keyword (kw varchar(...), bookid: ... REFERENCES book); /* weitere Tabellen book, user, ..... Hier unwesentlich */

SELECT book.title from book b, keyword k WHERE k.kw = "NETWORKS" AND k.bookid = b.id;

Eindeutige Anwortmenge, jeder Treffer "passt" in gleicher Weise zu Anfrage (zweiwertige Logik!)

Page 7: Web-basierte Informationssysteme

1.7

Einführung: DB / IR / WebEinführung: DB / IR / Web

Kritik Wie gewinnt man Stichwörter? Wortformen ("networks", "networking") Mehrsprachigkeit ("Netze") Verwandte Begriffe ("Rechnernetze") Ober- / Unterbegriffe (LAN)

Nur wenig davon in SQL ausdrückbarZiel:

Gewichtung der Antwortmenge hinsichtlich Relevanz des Objekts bezüglich Anfrage-> Information Retrieval

Beachte: subjektiv!

Page 8: Web-basierte Informationssysteme

1.8

Einführung: DB / IR / WebEinführung: DB / IR / Web

Information Retrieval Modell (in erster Näherung): Menge von Wortfolgen

(Texte) D Datenmenge. q Anfrage, Q Menge aller Anfragen Aq = {x | x "passend" zu q}

Was ist "passend" oder "ähnlich"? Formal z.B. s :: D x Q -> [0,1] (normiert auf [0,1])

mit der Eigenschaft s(x,x) = 1 s(x,y) = s(y,x) eventuell zusätzlich: s(x,y) <= s(x,z) + s(z,y) (Dreiecksungleichung, macht aus Ähnlichkeitsmaß ein Abstandsmaß, wobei s(x,x) = 0)

Ähnlichkeit von Objekt und Anfrage definiert Rangfolge, Aq kann vermöge s geordnet werden: Rangfolgebestimmung

Page 9: Web-basierte Informationssysteme

1.9

Einführung: DB / IR / WebEinführung: DB / IR / Web

Aufgaben des Information Retrieval Modelle finden, die Ähnlichkeit auszudrücken gestatten

(elementar: Boolesche Auswertung von Anfragen, die nur aus Schlagwörtern bestehen)

Geeignete Ähnlichkeitsmaße s definieren Bewertung von s (relativ zu Nutzer) Effiziente Verfahren zur Auswertung von s auf sehr großen

Datenmengen, z.B. durch Indexierung

Erweiterte Aufgaben im Web Zusammenführen von Ergebnissen

Rangfolge? Duplikate

Strukturierte Dokumente (nicht nur Zeichenketten)(Wie) kann Markup helfen, die passenden Dokumente zu finden?

Page 10: Web-basierte Informationssysteme

1.10

Einführung: DB / IR / WebEinführung: DB / IR / Web

Web-Technologie Als Web bezeichnen wir alle weltweit miteinander

verbundenen Rechnersysteme Web im engeren Sinne: Web-Server (HTTP) und

Klienten

Client Server

GET /document.html

cache

TCP

Page 11: Web-basierte Informationssysteme

1.11

Web Statistik, Juni 1999, Quelle: OCLCWeb Statistik, Juni 1999, Quelle: OCLC

Number of IP addresses in 32-bit address space: 4,294,967,296 Number of IP addresses in the 0.1% random sample: 4,294,967

Web SizeNumber of Web Sites: 4,882,000

(+/- 3%) Number of Unique Web Sites: 3,649,000 (+/- 3%)

Web Site Categorization (Unique Sites)

Number of Public Web Sites: 2,229,000 (+/- 4%)

Number of Private Web Sites: 389,000 (+/- 10%)Number of Provisional Web Sites: 1,031,000

(+/- 6%)

Page 12: Web-basierte Informationssysteme

1.12

Web-StatistikWeb-Statistik

Public Web Sites (Unique Only)Number of Web Pages: 288,221,000 (+/- 35%)Number of Files: 500,491,000Number of Adult Sites: 42,000 (+/- 30%)

Web Growth 1997 1998 1999 Web Sites: 1,570,000 2,851000 4,882,000

Unique Sites: 1,230,000 2,035,000 3,649,000

Unique Public Sites: 800,000 1,457,000 2,229,000

% Change: '97 to '98 '98 to '99 '97 to '99Web Sites: 82 71 211

Page 13: Web-basierte Informationssysteme

1.13

Web Statistik: MultilingualitätWeb Statistik: Multilingualität

Incidence of Languages in Public Sites1998 1999

English 84% 80%

German 8 8

Japanese 3 3 French 3 3

Portuguese 2 2

Spanish 2 3

Chinese < 1 2

Italian 1 2

Dutch 1 1

ALL OTHERS < 1 < 1

Anzahl Sprachen insgesamt:1998: 281999: 29

Page 14: Web-basierte Informationssysteme

1.14

Datenbankanwendungen im NetzDatenbankanwendungen im Netz

Klassischer Client-Server-Betrieb:

Nicht notwendig mit über HTTP

ClientDB-

Serverproprietär

z.B. Terminal

z.B. SQL

Page 15: Web-basierte Informationssysteme

1.15

Datenbankanwendung im NetzDatenbankanwendung im Netz

ClientHTTPServer

TCP

GET URI mit kodiertem Query-Sting

HTML-Dokument mit Ergebnissen der DB-Abfrage

DBServer

Anwendungsprogramm, über CGI-Schnittstelle

gestartet

Zugriff über Web-Browser / HTTP-Server

Page 16: Web-basierte Informationssysteme

1.16

Datenbankanwendung im NetzDatenbankanwendung im Netz

Mehrschichtarchitektur

TCP

z.B. JavaDB

ServerClient

Applica-tion-

Server

Enthält die "Business-Logik"

Kommunikation meist über Fernaufrufe