69
Informationsbeschaffung im Internet 1 Vortrag für die Brandenburgische Arbeitsgemeinschaft für Information (BRAGI) Informationsbeschaffung im Internet Übersicht, Besonderheiten und neuere Entwicklungen Prof. Dr. Günther Neher Fachhochschule Potsdam 11.02.2010

Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

1

Vortrag für dieBrandenburgische Arbeitsgemeinschaft für Information (BRAGI)

Informationsbeschaffung im Internet

Übersicht, Besonderheiten und neuere Entwicklungen

Prof. Dr. Günther NeherFachhochschule Potsdam

11.02.2010

Page 2: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

2

Chronologie der „Suchdienste“

Anfang 70er: Erste Online-Datenbanken zur Recherche von Fachinformationen

• DIALOG (ursprünglich internes IS der Firma Lockheed)• NLM (National Library of Medicine, 1972)• DIMDI (Deutsches Institut für Medizinische Dokumentation und Information, 1974)• Erste Online Bibliothekskataloge (Online Public Access Catalogue, OPACs)

1990: ARCHIE (abgeleitet von „archive“). Dienst zum Durchsuchen von FTP-Archiven. Abfrage via telnet

1991: WAIS (Wide Area Information Server)GOPHER (eigener Internetdienst: Port 70, Gopher-Protokoll: RFC 1436)

Zugang über spezielle Gopher-Clients (heute auch noch via Web-Browser)„Gopherspace“ als „Vorläufer“ des WWW

1992: VERONICAMenü-orientierter Suchdienst für Gopher-Verzeichnisse

„Prä-WWW“

Page 3: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

3

Chronologie der „Suchdienste“

„WWW“ (Quelle: http://www.searchenginejournal.com/search-engine-history/13152/ )

http://www.searchenginejournal.com/search-engine-history/13152/

Page 4: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

4

Typologie der Suchdienste

Allgemeine („universelle“) Suchdienste

• Volltext-Suchmaschinen

• Webkataloge

• Metasuchmaschinen

Spezialisierte Suchdienste / Deep Web

Thematischz.B. Tourismus, Film, Produkte, ...

MedientypAudio, Video, Bild, Software, ...

Informationstyp• Nachrichten• Fakteninformation• Bibliographische Information• Wissenschaftliche Fachinformation• ...

Page 5: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

5

Wichtige Vergleichskriterien zwischen Volltext-Suchmaschinen sind u.a.:

• Umfang/Abdeckung, d.h. die Anzahl der indexierten Webseiten• Aktualität, d.h. zeitlicher Abstand zwischen einer Seitenindexierung• Rankingverfahren, d.h. die Art der Relevanzbewertung

Google: http://www.google.comAltavista: http://www.altavista.comMSN Search: http://search.msn.comFireball: http://www.fireball.de…

Beispiele:

Typologie der Suchdienste: Volltext-Suchmaschinen

Definition:Unter dem Begriff Volltext-Suchmaschine werden Suchdienste verstanden, welche rein maschinell einen Volltextindex von Internetressourcen (Webseiten) erstellen und diesen durchsuchbarin einer Datenbank ablegen.

Keine der existierenden Suchmaschinen deckt die gesamte im WWW verfügbare Information ab !

Page 6: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

6

Typologie der Suchdienste: Volltext-Suchmaschinen

Beispiel: http://www.google.com

Page 7: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

7

Typologie der Suchdienste: Webkataloge

Definition:Webkataloge oder Webverzeichnisse sind i.d.R. manuell erstellte undredaktionell betreute, nach einem bestimmten Klassifikationssystem(Taxonomie) hierarchisch geordnete Sammlungen von Hyperlinks.

Beispiele:

Open Directory Project (ODP): http://dmoz.org

Yahoo!: http://dir.yahoo.com

Allesklar.de: http://www.allesklar.de

aber auch sog. „Subject Gateways“, z.B.

http://www.library.uq.edu.au/internet/subject_gateways1.html

http://infomine.ucr.edu/

Page 8: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

8

Typologie der Suchdienste: Webkataloge

Beispiel: http://dmoz.org

Page 9: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

9

Webkataloge: Funktionsweise (schematisch)

(Bildquelle: Hartmann et al., S.111)

Page 10: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

10

Webkataloge: Klassifikationssystem (Taxonomie)

Problematik:

• Keine einheitliche, verbindliche Systematik• Optimale Einordnung häufig unklar

Page 11: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

11

• Metasuchmaschinen unterhalten keine eigene Indexdatenbank

• Die wesentlichen „Eigenleistungen“ einer Metasuchmaschine bestehen in der „Übersetzung“ einer Suchanfrage in die Syntax verschiedener Suchmaschinenund in der Zusammenführung der Suchergebnisse (Ranking, Dublettenentfernung)

• Metasuchmaschinen machen deshalb Sinn, weil keine einzelne Suchmaschine das gesamte Web abdeckt

• Metasuchmaschinen bieten in der Regel weniger Suchoptionen, als jede einzelneder Suchmaschinen => „kleinster gemeinsamer Nenner“

Typologie der Suchdienste: Metasuchmaschinen

Definition:Unter dem Begriff Meta-Suchmaschine werden hier Suchdienste verstanden, die keinen eigenen Suchindex besitzen, sondern eine Suchanfrage parallel an mehrere „echte“ Suchmaschinen weiterleiten, deren Ergebnisse sammeln und dem Nutzer in aufbereiteter Form präsentieren.

Page 12: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

12

Typologie der Suchdienste: Metasuchmaschinen

Beispiel: http://www.metager.de

Page 13: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

13

Metasuchmaschinen: Funktionsweise (schematisch)

1

2

34

5

6

(nach: Hartmann et al., S.73)

Metasuchmaschinen besitzen keine eigene Indexdatenbank !„Übersetzen“ und verteilen die Suchanfrage, aggregieren die Suchergebnisse

Page 14: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

14

Beispiele:

Metager: http://www.metager.de (deutschsprachig)

WebCrawler: http://www.metacrawler.com/

Vorteile:• Größere Ressourcenabdeckung

• Geringeres Risiko für „Web-Spamming“

Nachteile:• i.a. eingeschränkte Suchoptionen(„kleinster gemeinsamer Nenner“)

• evtl. längere Wartezeiten

Suchdienst 1

Suchdienst 3 Suchdienst 2

ÜberlappungTreffermenge 1

Treffermenge 3 Treffermenge 2

Typologie der Suchdienste: Metasuchmaschinen

Page 15: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

15

Volltext-Suchmaschinen: Umfang/Abdeckung

(Quelle: http://www.searchengineshowdown.com )

Relative Größe der Datenbasis „Überlapp“ bei den Suchergebnissen

(Quelle: http://www.searchengineshowdown.com )

Keine Suchmaschine findet alles, unterschiedliche Suchmaschinenliefern unterschiedliche Ergebnisse !

Page 16: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

16

Praktisches Experiment: Suchmaschinenvergleich

Zielsetzung: Kennenlernen der Abdeckungsproblematik (Vollständigkeit) und Bewertung (Ranking)

Aufgabe:Suchen Sie bei folgenden Suchdiensten jeweils nacheinander mit einem Suchbegriff Ihrer Wahl

• Yahoo: http://www.yahoo.com• Bing: http://www.bing.com• Google: http://www.google.com

Page 17: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

17

Funktionsweisevon (Volltext)Suchmaschinen

Page 18: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

18

Suchmaschinen: Funktionsweise

Indexdatenbank/Invertierter Index

(unvollständige und i.d.R. nicht aktuelle „Kopie“ des WWW)

Page 19: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

19

(Bildquelle: Hartmann et al., S.63)

Web-Roboter(Robot, Crawler, Spider)

• Ist ein Computerprogramm

• Basiert wesentlich auf derHyperlink-Struktur des WWW

• Sammelt Dokumente auf Basiseiner URL-Liste

• Extrahiert ggf. neue URLs ausden gesammelten Dokumentenund fügt diese der URL-Listehinzu.

• Kann regelbasiert bestimmteDokumentformate übergehenoder gezielt auswählen

Suchmaschinen: Komponenten

Page 20: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

20

http://www.touchgraph.com/TGGoogleBrowser.html

http://www.webconfs.com/search-engine-spider-simulator.php

Suchmaschinen: Komponente „Crawler“

Demo:

Page 21: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

21

Suchmaschinen: Komponente „Indexer“

(Bildquelle: http://developer.apple.com/DOCUMENTATION/UserExperience/Conceptual/SearchKitConcepts/searchKit_basics/searchKit_basics.html )

„Invertierter Index“

Page 22: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

22

• Jedem Indexterm ist eine (evtl. gewichtete) Liste von Dokumentreferenzen zugeordnet

• Ermöglicht ein extrem schnelles Auffinden von Dokumenten, die den Indexterm enthalten

(Bildquelle: Hartmann et al., S.65)

Suchmaschinen: Komponente „Indexer“

„Invertierter Index“

Page 23: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

23

Praktisches Experiment: Was Suchmaschinen vom Web "sehen"

Benutzen Sie für dieses Experiment die Webrobot-Simulation

http://www.webconfs.com/search-engine-spider-simulator.php

Zielsetzung:

Untersuchen Sie, was ein Webrobot von folgenden Websites "mitnimmt" (Sehen Sie sich die Seiten jeweils zunächst im Browser an):

• http://www.fh-potsdam.de• http://www.bundestag.de• http://kvk.uni-karlsruhe.de

Was würde ein Web-Robot von der URL http://o2e.fh-potsdam.de/~archiv5

sehen ?

Page 24: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

24

Als Ergebnis einer Suchanfrage wird eine geordnete Liste von Dokumentreferenzen angezeigt.

Die Reihenfolge der Dokumentreferenzen (Ranking) entspricht der geschätzten Relevanz der Dokumente in Bezug auf die Suchanfrage aus „Sicht“ der Suchmaschine

Die Relevanz wird (häufig nach geheim gehaltenen Verfahren) mathematisch berechnet

?

(Bildquelle: Hartmann et al., S.32)

Suchmaschinen: Komponente „Query Processor“

Aspekt: Ranking

Page 25: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

25

Suchmaschinen: Relevanzberechnung (Ranking)

Plausible (und mathematisch berechenbare) Relevanzkriterien

(Quelle: Hartmann et al., S.37ff)

Page 26: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

26

Suchmaschinen: Relevanzberechnung (Ranking)

Problematik:

Die vorhergehenden 6 Rankingkriterien basieren auf dem Textinhalt des jeweiligen Einzeldokumentes und sind daher relativ einfach vom Autor der Seite manipulierbar

SEO : „Search Engine Optimization“

„Web-Spamming“

Lösungsansatz: PageRank-Verfahren von Google

Angelehnt an das Prinzip des „Citation-Index“ bei wissenschaftlichen Publikationen.

Vereinfachtes Prinzip:Je mehr Webseiten „von aussen“ über einen Hyperlink auf ein Dokument verweisen,desto höher sein Rang

S. Brin et al.: "The PageRank Citation Ranking: Bringing Order to the Web"

Page 27: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

27

Weiterführend: Funktionsweise von Suchdiensten

Patentschriften von Suchdienstanbietern !

http://ep.espacenet.com/advancedSearch

>> Demo: ranking, google

Page 28: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

28

Besonderheiten von(Volltext) Suchmaschinen

Page 29: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

29

Die sog. Phrasensuche erlaubt die Suche nach Mehrwortgruppen, d.h. dieSuche nach Wörtern, die genau in der angegebenen Reihenfolge im Textvorkommen (im Gegensatz zur Booleschen AND-Verknüpfung).

Die Phrasensuche ist eine sehr wichtige und nützliche Suchoption bei derSuche im Web, speziell bei sog. „Known-Item-Searches“

Beispiel einer „Known-Item“-Suche

Gesucht wird ein Dokument, von dem ein Zitat bekannt ist:"Dann wird jede Seite nach weiterführenden Verweisen (Hyperlinks) untersucht"

(Zitat aus Hartmann et al. „Informationsbeschaffung im Internet“)

Suchoptionen: Phrasensuche

Suche bei Google

Page 30: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

30

Suchoptionen: Metadaten

(Bildquelle: Hartmann et al. S. 81)

„Daten über Daten“

Page 31: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

31

Problematik:Zu Webdokumenten existieren i.d.R. keine Metadaten im Sinne einer bibliographischen Erschließung

Dublin-Core hat sich aus verschiedenen Gründen nicht breit genug durchgesetzt

Aber: Webdokumente besitzen formale Eigenschaften, die sich Suchmaschinen als „formale Metadaten“ zur Erzeugung von Teilkollektionen nutzbar machen können:

• Dokumentformat (Dateityp)• Sprache• URL• letztes Änderungsdatum• ...

Diese formalen Metadaten können teilweise sehr effektiv zurInformationssuche ausgenutzt werden

Fortgeschrittene Suchoptionen: Formale Metadaten

Page 32: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

32

Fortgeschrittene Suchoptionen: Formale Metadaten

http://www.google.de/intl/de/help/refinesearch.html

http://www.google.de/help/operators.html

Hier gilt ganz besonders: Hilfeseiten des jeweiligen Suchdienstes studieren !

Beispiel: Google

Page 33: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

33

Fortgeschrittene Suchoptionen: Formatkategorien

Page 34: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

34

Suchhilfen/Benutzerhilfen bei Suchmaschinen

Die Datenbestände von (Volltext)-Suchmaschinen bestehen im wesentlichen aus einer Indexdatenbank ohne inhaltsbezogene Metainformationen.

„Benutzerhilfen“ können i.d.R. nur auf Basis einer bereits vorliegenden (ersten) Treffermenge Ad-Hoc erzeugt werden, z.B.

• Korrekturvorschläge für Tippfehler

• Vorschlag von Alternativbegriffen

• Ähnliche Dokumente („Similar Pages“, „More like this“)

• Anzeige „semantischer“ Verknüpfungen

• Ad-Hoc-Kategorisierung („Clustering“)

Trend: Ständige Erweiterung der Benutzerhilfen, damit auchungeübte Nutzer immer bessere Suchergebnisse erzielen

Page 35: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

„Deep Web“ /Invisible Web

35

Page 36: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

Deep Web: Grundlagen

Definition

• Unter dem Begriff „Deep Web“ versteht man diejenigen Informations-ressourcen, die zwar prinzipiell über das WWW zugänglich sind, die aber von allgemeinen Suchmaschinen, wie z.B. Google nicht indexiert sind und daher über eine Suchanfrage bei diesen nicht gefunden werden können.

• Synonym zu dem Begriff „Deep Web“ werden häufig die Begriffe„Invisible Web“ oder auch „Hidden Web“ verwendet.

• Diejenigen Informationsressourcen im WWW, die von von allgemeinen Suchmaschinen, wie z.B. Google indexiert sind und daher über eine Suchanfrage bei diesen gefunden werden können, bezeichnet man als „Surface Web“ oder auch „Visible Web“ .

„THE PARADOX OF THE INVISIBLE WEB is that it's easy to understand why it exists, but it's very hard to actually define in concrete, specific terms. In a nutshell, the Invisible Web consists of content that's been excluded from general-purpose search engines and Web directories such as Lycos and LookSmart--and yes, even Google. There's nothing inherently "invisible" about this content. But since this content is not easily located with the information-seeking tools used by most Web users, it's effectively invisible because it's so difficult to find unless you know exactly where to look.“(C.Sherman in: Library Trends,2003)

36

Page 37: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

37

Deep Web: Grundlagen

http://www.brightplanet.com/images/stories/pdf/deepwebwhitepaper.pdf

Verteilung von Deep Web Ressourcen nach Typ (Abschätzung, 2001)

Page 38: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

Deep Web: Beispiele: Datenbanken: Esp@cenet

Kostenfrei: Bereich Patentrecherche: Escp@cenet

http://ep.espacenet.com/?locale=de_EP

38

Page 39: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

http://www.scirus.com/

Deep Web: Beispiele: Hybrid: Scirus, Vascoda, Google Scholar

Teilweise Kostenpflichtig: Bereich Wissenschaft/Technik

„... is the most comprehensive scientific research tool on the web. With over 450 million scientific items indexed at last count, it allows researchers to search for not only journal content but also scientists' homepages, courseware, pre-print server material, patents and institutional repository and website information. ...“

39

Analog: http://www.vascoda.dehttp://scholar.google.de

Page 40: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

40

Deep Web: Ressourcen finden: Verzeichnisse

http://aip.completeplanet.com

http://infomine.ucr.edu/

Page 41: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

41

Deep Web: Ressourcen finden: Fachdatenbanken

http://rzblx10.uni-regensburg.de/dbinfo/http://rzblx10.uni-regensburg.de/dbinfo/fachliste.php?bib_id=fhpo

Page 42: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

42

InformationsbeschaffungNeuere Entwicklungen / Trends

Page 43: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

43

Neuere Entwicklungen/Trends: Einstieg

Patente werden i.d.R. angemeldet BEVOR ein Produkt auf den Markt kommt.Patentrecherche kann daher benutzt werden, um neue Entwicklungen/Trendszu erkennen

http://ep.espacenet.com/?locale=de_ep

Besonderheit: Nach SEHR neuen Patentanmeldungen suchen, z.B. „Google 2009“

Page 44: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

44

Vermutung:In absehbarer Zeit automatisches Verschlagworten („Taggen“) von Bilddateien bei Google => Bessere Suchfunktion für Biulder (allg. Non-Text-Dokumente)

Trenderkennung durch Patentrecherche: Beispiele

Page 45: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

45

Vermutung: In absehbarer Zeit Bewertungsoption bei Google

Trenderkennung durch Patentrecherche: Beispiele

Page 46: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

46

Trends: Benutzerhilfen: Ad-Hoc-Kategorisierung (Clustering)

http://clusty.com

Page 47: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

47

http://fabdax.fh-potsdam.de/infodata

Trends: Benutzerhilfen: Ad-Hoc-Kategorisierung (Clustering)

Page 48: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

48

Trends: Benutzerhilfen: Clustering und Kontextinformationen

http://www.eyeplorer.com/eyePlorer/

Page 49: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

BASE: Bielefeld Academic Search Enginehttp://base.ub.uni-bielefeld.de/index.html

49

Trends: Integration von Informationsquellen

(Quelle: BASE)

Page 50: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

50

Neuere Entwicklung: „Berechenbares Wissen“: WolframAlpha

http://www.wolframalpha.com/

Page 51: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

51

http://www.housingmaps.com/

Beispiel:

Integrationvon Immobilieninformation (craigslist) und Geo-Informationen (google maps)

Trends: Integration von Informationsquellen: Mashups

Page 52: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

52

Demo: MashupsGoogle Maps/Flickr: Geographisch zugeordnete Schnappschüsse ☺

Ergebnis: http://fabday.fh-potsdam.de/~neher/mashups/geo/md12-gm-demo5.html

Page 53: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

53

InformationsbeschaffungNeuere Entwicklungen / Trends

„Semantic Web“

Page 54: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

54

"Die zentrale Anforderung an die nächste Generation von Wissensmanagement-Systemen ist die Möglichkeit, Informationen geeignet zu kombinieren, um damit implizites Wissen ableiten und somit neues Wissen generieren zu können.

Semantik kann diese Anforderungen erfüllen und bildet somit die Grundlage für eine neue Landschaft an Anwendungen, welche die Informationstechnologie in eine Wissenstechnologie transformiert."

[Rudi Studer, AIFB Karlsruhe]

Semantic Web: Vision

The Semantic Web is an extension of the current Web in which information is given well-defined meaning, better enablingcomputers and people to work in cooperations.

[Berners-Lee et al. 2001]

In the Semantic Web, it is not the Semantic which is new, it is the Web which is new.

[Chris Welty, IBM]

Page 55: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

(2009) Prof. Dr. Günther Neher 55

"semantic web" inurl:uni- filetype:ppt

Demo: „Semantische Suche“ mit

Suche nach: Lehrmaterialien zum Thema „semantic web“

Funktioniert einigermaßen, dank Faustregel („Heuristik“):

• Implizite Semantik in rein formalen Parametern (hier: Dateityp, URL)

Kenntnis dieser Heuristik beim Nutzer erforderlich !

Bewusste Simulation von Semantik !

Semantic Web: Einstieg

Beispielszenario: Tourismus (Projekt GETESS, 1999)

http://www.getess.de/ms_berichte/veroeffentlichung/iuk99_final.pdf

Wie realisierbar mit Google & Co ??

Urlaub AND Küste AND Rostock AND Wismar ?

Page 56: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

56

Beispiel: Informationsbeschaffung im heutigen WWW

<html><body>

Bob ist der Vater von Lisa und Hans.<br>Hans hat 2 Kinder, Ruth und Eva.<br>Lisa hat einen Sohn.<br>Der Sohn von Lisa heisst wie Ihr Vater, Bob<br>

</body></html>

Fiktive Webseite von Google indexiert

Fiktiver Informationsbedarf:

Wieviel Enkel hat Bob ?

Page 57: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

57

Semantic Web: Vision

<g:person id="ID_1"><g:hasChild id="ID_2">

<g:person id="ID_2"><g:hasChild id="ID_4">

<g:person id="ID_4"><g:name>Bob</g:name>

</g:person></g:hasChild><g:name>Lisa</g:name>

</g:person></g:hasChild>

…<xsl:text> Bob hat </xsl:text><xsl:value-of select="count( g:person/g:hasChild/g:person/g:hasChild )"/><xsl:text> Enkel.</xsl:text>…

Dies ist NICHT reale Semantic Web-Technologie, sondern eine Simulation mit XML

>> Demo

Page 58: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

58

Trends: „Semantic Web/Linked Data“

http://www.swib09.de/

Page 59: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

59

Google-Beispiele:

• Ausfall• Jaguar• Archiv• Dokumentation• Bibliothek• Klausur

Grundlagen: Semantik - Problemstellungen

„der neue Jaguar“

„der junge Jaguar“

Problematik der semantischen Mehrdeutigkeit („Ambiguity“)bei Beschränkung auf die Begriffsebene (Zeichenkette)

Page 60: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

60

Google-Beispiel:

Grundlagen: Semantik - Problemstellungen

Problematik der semantischen Unvollständigkeit („Synonymy“)bei Beschränkung auf die Begriffsebene (Zeichenkette)

1.870.000

Anschrift

OR

Adresse8.980.000

8.420.000

• Anschrift

• Adresse

Page 61: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

61

Grundlagen: Semantik - Lösungsansätze

Konstruktion einer übergeordneten Ebene Metadaten

Etablierte Methode:

„Erschließung“

Page 62: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

62

Basiskonzept: Namensräume

Hintergrund: Semiotisches Dreieck

Bedeutung: Eindeutige Festlegung von Vokabular auf Basis von URIs

URI !!

http://www.w3.org/2006/Talks/0404-mit-tbl/

Page 63: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

63

http://www.ivan-herman.net/foaf.rdf

Beispiele für XML-Namensräume

Page 64: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

64

Grundlagen: RDF im Semantic Web Schichtenmodell

Bildquelle: http://www.w3.org/2006/Talks/0811-sb-W3Cemergingtech/SemWebStack-tbl-2006a.png

Page 65: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

65

http://events.linkeddata.org/iswc2008tutorial/how-to-publish-linked-data-iswc2008-slides.pdf

Stetige Zunahme von RDF-Ressourcen

http://linkeddata.org/

Page 66: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

66

Simple Knowledge Organization Systems (SKOS)

http://www.w3.org/2004/02/skos/

RDF-basiertes Vokabular zur Repräsentation von Thesauri, Klassifikationen, etc.

Page 67: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

67

SKOS – Simple Knowledge Organization Systems

http://eprints.rclis.org/archive/00007480/01/SKOSSchlagwortSemanticWeb.pdf

Repräsentation von kontrolliertenVokabularen in RDF

http://www.w3.org/2004/02/skos/

http://www.gbv.de/vgm/info/biblio/01VZG/06Publikationen/2007/pdf/pdf_2837.pdf

Page 68: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

68

Beispiel: Infodata-Datensätze mit Infodata-SKOS-Thesaurus

>> Demo

http://o2e.fh-potsdam.de/infodata/infodata.rdf (nur Firefox mit Tabulator-Plugin) http://o2e.fh-potsdam.de/infodatathes/concepts

Page 69: Informationsbeschaffung im Internet Übersicht ...fiz1.fh-potsdam.de/volltext/fhpotsdam/10330.pdf · Informationsbeschaffung im Internet 1. Vortrag für die. Brandenburgische Arbeitsgemeinschaft

Informationsbeschaffung im Internet

69

Danke für Ihre Aufmerksamkeit

</ENDE>