61
Georg Rehm, M.A. Angewandte Sprachwissenschaft und Computerlinguistik Justus-Liebig-Universität Gießen [email protected] http://www.uni-giessen.de/~g91063/ Hypertextsorten Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Embed Size (px)

DESCRIPTION

Georg Rehm. Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web. Tagung der Computerlinguistik-Studierenden (TaCoS 2003), Universität Gießen, Germany, June 2003. June, 2003. Invited talk.

Citation preview

Page 1: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm, M.A.

Angewandte Sprachwissenschaft und Computerlinguistik Justus-Liebig-Universität Gießen

[email protected] http://www.uni-giessen.de/~g91063/

Hypertextsorten

Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Page 2: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Zielsetzung

Page 3: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Status Quo

Aus Sicht des (unerfahrenen) Benutzers:

•  DWIM-Prinzip („Do what I mean!�) •  Spezifizierung einer Suchanfrage ist schwierig •  Es ist unklar, nach welchen Kriterien die Maschine sucht

Page 4: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Das Ziel

!

Abstraktion über Inhalt bzw. Thema:

Strukturelle Klassifikation bzw. Hypertextsorten-Klassifikation

Page 5: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Einführung

Page 6: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Textsorten

!  Textlinguistik: Textsorten (Brief, Rezept, ...), d.h. unterschiedliche Typen von Texten

!  Klassifikationskriterien (u.a.): "  Inhalt – Thema "  Form – Aufbau, Struktur, Gliederung "  Funktion – Zweck

„[Textsorten sind] komplexe Muster sprachlicher Kom- munikation [...], die innerhalb der Sprachgemeinschaft im Laufe der historisch-gesellschaftlichen Entwicklung aufgrund kommunikativer Bedürfnisse entstanden sind.� Brinker (1985)

Zentrale Hypothese:

Im World Wide Web existieren Hypertextsorten #  Nach nur wenigen Jahren (!) kanonisierte,

kkkkkkkkkkkkkkkkkkkkkfunktionsgebundene, hypertextuelle Strukturen

Page 7: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Textsorten Hypertextsorten

Buch

Lexikon

Wörterbuch

Sammelband

Tageszeitung

Memo

Brief

Geschäftsbrief

Mahnung

Liebesbrief

FAQ

Universitäre Einstiegsseite Suchmaschine

eCommerce

Instituts-Portal

Lehrveranstaltungen

Pers. Homepage Pers. Homepage

Pers. Homepage

Mitarbeiterliste

– Lehrender –

– Student – – Sekretärin –

Page 8: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Textsorten-Klassifikation

Korpus Methoden Genres Präzision

Karlgren & Cutting (1994), Recognizing Text

Genres with Simple Metrics Using Discri-

minant Functions

Jeweils 500 Texte aus dem Brown

Corpus (tagged)

Diskriminanten-Analyse – 20

Parameter (noun, it, adv., word etc.

counts)

2.  Informative, Imaginative

4.  Press, Fiction, Misc., Non-Fiction

2.  ca. 96% 4.  ca. 73%

Kessler, Nunberg & Schütze (1997),

Automatic Detection of Text

Genre

ca. 500 Texte aus dem Brown

Corpus (tagged)

Statististik/KNNs, 55 Merkmale

(Interpunktion, Affixe, Passiv,

etc.)

6.  Reportage, Editorial, Sci-Tech, Legal, Non-Fiction, Fiction

ca. 90% (für „reportage� und „fiction�)

Stamatatos et al. (2000), Text

Genre Detection Using Common

Word Frequencies

Wall Street Journal Corpus

(untagged)

Diskriminanten-Analyse – Wort-häufigkeiten und Interpunktionsz.

4.  Editorial, Let-ter to the Editor, Reportage, Spot news

ca. 97%

Fazit •  Einfache Methoden liefern für wenige Textsorten sehr gute Resultate •  In diesen Ansätzen ausschließlich: ASCII-Texte (!) •  Wie kann man sehr viele Hypertextsorten möglichst präzise detektieren?

Page 9: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Hypertextsorten-Klassifikation

Genres Methoden Merkmale Präzision

Matsuda & Fuku-shima (1999), Task-Oriented

World Wide Web Retrieval by

Document Type Classification

9: prod. catalogue, online shop, advertise-

ment for help, CfP, links, FAQ, gloss-ary, home page, bulletin board

Gewichtetes Pattern-

Matching in HTML-

Elementen

keyword, link, URL, structure, image, OCR,

plugin

avg. precision of document-type search: 88,9%

[avg. precision of keyword-based search: 31,2%]

Karlgren et al. (1998), Iterative Information Re-trieval Using Fast Clustering and Usage-Specific

Genres

11: Informal/Pri-vate, Public/Com.,

Indices, Journ. Material, Reports, Text, FAQ, Link Coll., Listings/-

Tables, Discussio-ns, Error Messages

Clustering der Merkmale;

Konstruktion von if-then-

Regeln

insgesamt 40 Merkmale, z.B. Vorkommen von

Wörtern und HTML-Elementen

Zwischen 30% und 90%, je nach Genre

!

Fazit •  Einfache Methoden liefern für wenige Hypertext- sorten sehr gute Resultate •  Sind diese Ergebnisse auf sehr viele, tw. recht ähnliche Hypertextsorten übertragbar? •  Auswahl und Granularität der gewählten Hyper- textsorten ad hoc, nicht textlinguistisch motiviert!

Page 10: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Hypertextsorten: Beispiele !  Eine sehr interessante Hypertextsorte:

Persönliche Homepage !  Mittlerweile: empirisch nachweisbare,

subgenerische Varianten, u.a.: "  Persönliche Homepage eines Studierenden "  Persönliche Homepage eines administrativen

oder technischen Mitarbeiters "  Persönliche Homepage eines Wissenschaftlers

Beispiele aus: •  vier verschiedenen Universitäten und •  vier unterschiedlichen Disziplinen

Page 11: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Hypertextsorten: Beispiele

Page 12: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Projektverlauf – Roadmap I.  Empirischer, Korpus-basierter Ansatz:

"  Auswahl einer geeigneten Untersuchungsdomäne "  Korpus-Datenbank-System:

1.  Datensammlung 2.  Implementation eines Web-basierten Front-Ends 3.  (semi-automatische) Analyse von Stichproben 4.  Erstellung einer Taxonomie von Hypertextsorten

II.  Maschinelle Erkennung von Hypertextsorten: "  Sammlung von Detektionsmerkmalen "  Generischer Aufbau von Hypertextsorten "  Klassifikations-Methoden und -Ansätze "  Generische Informationsextraktion "  Design und Implementierung der System-Architektur

Page 13: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

I.  Empirischer, Korpus-basierter Ansatz "  Untersuchungsdomäne "  Korpus-Datenbank-System:

•  Datensammlung •  Das Web-basierte Korpus-Front-End •  Stichprobenanalyse •  Eine Taxonomie von Hypertextsorten

II.  Maschinelle Erkennung von Hypertextsorten "  Detektionsmerkmale "  Generischer Aufbau von Hypertextsorten "  Klassifikations-Methoden und -Ansätze "  Design der System-Architektur

Page 14: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Untersuchungsdomäne !  Arbeiten aus dem „digital genre�-Bereich:

"  Analyse weltweiter Stichproben ohne jegliche Einschränkungen "  Extrem grobe und wenig hilfreiche Ergebnisse

!  Empirischer Ansatz erfordert: "  Korpus von HTML-Dokumenten als sicheren und großen Vorrat "  HTML-Dokumente sind „flüchtig��

!  Untersuchungsdomäne – Datensammlung: "  Deutschsprachige Dokumente der "  Webserver deutscher Hochschulen:

•  Dokumente sind stark strukturiert •  Kaum binäre Dateitypen als Vermittler von Text •  Bzgl. Inhalt und Form überschaubar

(vs. kommerziellen, künstlerischen, Hobby-Angeboten)

Page 15: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

*.uni-giessen.de

Hostnames:

Ausnahmen

beschränken

Crawler (rekursiver Transfer) Datei-Suffixe:

Ausnahmen MIME-Typen:

HTML, XML etc.

Datei < 500kB? HTTP-Port = 80?

HTML-Dokument deutschsprachig? UNIX- Datei- system

ja, speichern

Tilgung von Duplikaten

SQL- Daten- bank

Verknüpfung

Alle HTTP-Header

Statistik liefert Daten

generiert

Verknüpfungen

Page 16: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Universitäten 100 Allgemeine Universitäten (vollständig) 62

Technische Hochschulen (vollständig) 12

Musik- und Kunsthochschulen (partiell) 5

Wirtschaftshochschulen (partiell) 5

Sonstige Hochschulen (partiell) 16

Traversierte Webserver insgesamt / auf Port 80 operierend 14.968 / 13.885

Anzahl per HTTP erreichbarer Dateien 16.196.511

Anzahl HTML-Dokumente gesamt 8.465.105

Gesamtumfang aller entfernten Webserver 701.464,29 MB

Gesamtumfang der Hypnotic-Korpusdatenbank 40.914,99 MB

Laufende Wortformen (gesamt; nur text/html) 1.138.794.715

Laufende Wortformen (eindeutig; nur text/html) 12.120.162

Gesamtanzahl Dateien im Korpus 4.294.417 Dateien vom Medientyp text/html 3.956.692

Dateien vom Medientyp text/plain 270.400

Dateien vom Medientyp text/css 35.651

Dateien vom Medientyp text/xml 25.871

Dateien vom Medientyp text/sgml 956

Dateien vom Medientyp message/news 490

Dateien vom Medientyp message/rfc822 436

Page 17: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Die durchschnittliche Webseite ... !  ... ist 594,11 (!) Tage alt.

"  96,5%: >10 Tage; 70%: >210 Tage; 35%: >700 Tage "  JPEG-Dateien sind ∅ 488, PDF-Dateien nur ∅ 375 Tage alt

!  ... ist 7.024 Bytes groß. "  Etwa 91% aller Dokumente: 1 Byte–16 Kilobyte

!  ... enthält 120,57 Elemente und 236,04 Attribute. "  body (98%), html (97%), head (97%), title (96%), a (87%),

p (81%), br (73%), img (67%), meta (66%), table (64%). !  ... enthält 13,53 Hyperlinks.

"  Etwa 56% aller Dokumente enthalten bis zu 10 Links. "  90% aller Links zeigen auf Webseiten, 5% auf eMail-Adressen, 5%

zeigen auf JavaScript-Dateien. "  Top-Level-Domänen in entfernten Links: .de (86,7%), .com

(5,1%), .org (1,9%), .edu (1,4%), .net (0,7%), .uk (0,6%) !  Nur 46% aller HTML-Dokumente der Domäne deutschsprachig!

Page 18: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referen-

zierung von Dokumenten

Page 19: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referen-

zierung von Dokumenten !  Web-Oberfläche (PHP)

ermöglicht verteilten Zugriff: "  Navigation & Suche im

Dokumentbestand

Auswahl einer Universität

Page 20: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referen-

zierung von Dokumenten !  Web-Oberfläche (PHP)

ermöglicht verteilten Zugriff: "  Navigation & Suche im

Dokumentbestand

Auflistung der Server einer Universität

Page 21: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referen-

zierung von Dokumenten !  Web-Oberfläche (PHP)

ermöglicht verteilten Zugriff: "  Navigation & Suche im

Dokumentbestand

Auflistung der Dokumente eines Servers

Page 22: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referen-

zierung von Dokumenten !  Web-Oberfläche (PHP)

ermöglicht verteilten Zugriff: "  Navigation & Suche im

Dokumentbestand

Ansicht eines Dokuments

Page 23: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referen-

zierung von Dokumenten !  Web-Oberfläche (PHP)

ermöglicht verteilten Zugriff: "  Navigation & Suche im

Dokumentbestand "  Zufällige Generierung von

Stichproben

Generierung einer Stichprobe

Page 24: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referen-

zierung von Dokumenten !  Web-Oberfläche (PHP)

ermöglicht verteilten Zugriff: "  Navigation & Suche im

Dokumentbestand "  Zufällige Generierung von

Stichproben "  Benutzerabhängige und DB-

getriebene Unterstützung bei der Stichprobenanalyse

Die Dokumente einer Stichprobe

Page 25: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referen-

zierung von Dokumenten !  Web-Oberfläche (PHP)

ermöglicht verteilten Zugriff: "  Navigation & Suche im

Dokumentbestand "  Zufällige Generierung von

Stichproben "  Benutzerabhängige und DB-

getriebene Unterstützung bei der Stichprobenanalyse

DB-gestützte Dokumentanalyse

Page 26: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referen-

zierung von Dokumenten !  Web-Oberfläche (PHP)

ermöglicht verteilten Zugriff: "  Navigation & Suche im

Dokumentbestand "  Zufällige Generierung von

Stichproben "  Benutzerabhängige und DB-

getriebene Unterstützung bei der Stichprobenanalyse

!  Einsatz von Open Source- Werkzeugen

!  Spätere Veröffentlichung des Systems als Open Source

Analyseergebnisse

Page 27: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Hypertextsorten und Ontologien

!  Viele Textsorten können hierarchisch angeordnet werden. !  Dies trifft auch auf Hypertextsorten zu – in mehrfacher

Hinsicht: "  Hypertextsorten-Ebene → Hypertextsorten-Ontologie "  Hyperlink-Ebene → Struktur-Ontologie "  Thematische Ebene → Themen-Ontologie

!  Hypertextsorten-Ebene ist zentral für dieses Projekt: "  Wie sind Hypertextsorten generisch strukturiert? "  Wie werden diese Strukturinformationen repräsentiert? "  Wie kann man korrespondierende Detektionsmerkmale in diese

Repräsentation integrieren?

Page 28: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Hypertextsorten-Module !  Hypertextsorten werden aus Modulen gebildet.

"  Hypertextsorten sind nicht monolithisch. !  Diese Module sind:

"  obligatorisch vs. optional "  optisch und/oder strukturell voneinander separiert

!  Persönliche Homepage eines Wissenschaftlers: "  Beispiel-Module:

-  Name (der beschriebenen Person bzw. des Autors) -  Kontaktinformationen -  Publikationen -  Projekte -  Lehrveranstaltungen -  ...

Page 29: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Hypertextsorten-Module: Beispiele

Page 30: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Hypertextsorte

XML Schema-Repräsentationen

Optionale Hypertextsorten-Module

Obligatorische Hypertextsorten-Module

bestehen aus

definieren

können fun- gieren als

Spezifische Eigenschaften: <Inhalt, Form, Funktion>

Default-Eigenschaften:

<Inhalt, Form, Funktion>

kann modifizieren

referenzieren

Hypertextsorten- Ontologie

Hypertextsortenmodule

werden je HTS gruppiert in

Atomare Module bzw. Merkmale

Komplexe Module

RDF-Beschreibungen von Merkmalen und Modulen

spezifizieren

Hypertextsorten- Modul-Ontologie

Page 31: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Modellierung von Hypertextsorten !  Modellierung durch Stichproben-Analysen

"  Semiautomatische Durchführung mit Hilfe des Front-Ends der Korpusdatenbank:

•  Automatische Generierung von Samples •  Semiautomatische Analyse von Samples •  Sukzessive Rekonfiguration modularer Einheiten

!  Beispiel: "  Persönliche Homepage eines Wissenschaftlers "  Stichprobe von 100 Dokumenten

Page 32: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Hypertextsorten-Spezifikation Ebene Bezeichnung Status Vorkommen Häufigkeit

Atomares Modul Explizite Begrüßung generell optional 14

Komplexes Modul Identifikation generell obligatorisch –

Komplexes Modul Eigenständige Affiliation generell obligatorisch –

Atomares Modul Alternative Sprachversion generell optional 75

Komplexes Modul Kontakt-Informationen generell obligatorisch –

Komplexes Modul Kontakt-Informationen (Sekretariat) spezifisch optional –

Komplexes Modul Kontakt-Informationen (Mitarbeiter) spezifisch optional –

Komplexes Modul Universitäres Profil spezifisch obligatorisch –

Komplexes Modul Wissenschaftliches Profil spezifisch obligatorisch –

Atomares Modul Lebenslauf, C.V., biographische Angaben generell obligatorisch 60

Atomares Modul Interessante Links generell optional 12

Komplexes Modul Relevante Links generell optional –

Atomares Modul Angabe der letzten Änderung / Stand universal obligatorisch 42

Atomares Modul Counter, Zugriffszähler universal optional 11

Atomares Modul Gästebuch universal optional 1

Page 33: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Hypertextsorten-Spezifikation Ebene Bezeichnung Status Vorkommen Häufigkeit

Atomares Modul Explizite Begrüßung generell optional 14

Komplexes Modul Identifikation generell obligatorisch –

Merkmal Name des Homepage-Besitzers generell obligatorisch 100

Merkmal ... begleitet von Titelangabe spezifisch obligatorisch 69

Merkmal ... begleitet von Tätigkeitsangabe generell optional 27

Merkmal ... begleitet von Affiliation generell obligatorisch 34

Merkmal ... begleitet von Photos des Autors generell obligatorisch 54

Komplexes Modul Eigenständige Affiliation generell obligatorisch –

Merkmal Name der Universität im Klartext generell obligatorisch 75

Merkmal Logo der Universität generell optional 16

Page 34: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Hypertextsorten-Spezifikation Ebene Bezeichnung Status Vorkommen Häufigkeit

Komplexes Modul Kontakt-Informationen generell obligatorisch –

Merkmal Straßenadresse (Univ., Straße, PLZ, ...) generell obligatorisch 90

Merkmal Explizite Postadresse generell optional 8

Merkmal Telefonnummer generell obligatorisch 86

Merkmal Telefonnummer (Sekretariat) generell optional 7

Merkmal Faxnummer generell obligatorisch 66

Merkmal Email-Adresse generell obligatorisch 98

Merkmal Angabe der URL dieser Homepage generell optional 4

Merkmal Zimmernummer generell obligatorisch 30

Merkmal SMS senden generell optional 1

Merkmal PGP Public Key bzw. PGP Fingerprint generell optional 2

Merkmal X.500 Eintrag generell optional 2

Merkmal Informationen zur Anreise generell optional 2

Merkmal Sprechstunden spezifisch optional 2

... ... ... ... ...

Page 35: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Hypertextsorten-Spezifikation Ebene Bezeichnung Status Vorkommen Häufigkeit

Komplexes Modul Universitäres Profil spezifisch obligatorisch –

Merkmal Angaben zu Lehrveranstaltungen spezifisch obligatorisch 49

Merkmal Universitäre Funktionen (z.B. Gremien) spezifisch optional 7

Merkmal Allgemeine Studienhinweise spezifisch optional 3

Merkmal Angebotene Abschlussarbeiten spezifisch optional 2

Komplexes Modul Wissenschaftliches Profil spezifisch obligatorisch –

Merkmal Publikationsliste spezifisch obligatorisch 71

Merkmal Forschungsinteressen spezifisch obligatorisch 50

Merkmal Forschungsprojekte spezifisch optional 22

Merkmal Prominent platzierte Bücher/Zeitschriften spezifisch optional 6

Merkmal Liste von Vorträgen und Präsentationen spezifisch optional 5

Merkmal Mitgliedschaften in Fachverbänden spezifisch optional 4

Merkmal Technologietransfer spezifisch optional 1

Page 36: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Hypertextsorten-Definition !  Modul-Reihenfolge entspricht kanonischer Sequenz !  In dieser Stichprobe Bestimmung obligatorisch vs.

optional ab 30 Vorkommen !  Status von Modulen und Merkmalen:

"  Kennzeichnet mögliche Vorkommen eben diesen Merkmals in höher angeordneten Hypertextsorten

"  Beispiel: Das Modul „Kontakt-Informationen� •  In persönliche Homepage eines Wissenschaftlers generell

–  Auch in z.B. persönliche Homepage eines Studierenden •  Das hierin enthaltene Merkmal „Sprechstunden� ist spezifisch •  Module wie „Zugriffszähler� oder „Gästebuch� sind universal

"  Zweck: Modellierung der persönlichen Homepage eines Wissenschaftlers als subgenerische Varietät der persönlichen Homepage

Page 37: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Hypertextsorten: NL-Definition !  Persönliche Homepage eines Wissenschaftlers:

"  Präsentation einer Person in digitaler, hypertextueller Form, verfasst von einem Autor, der an einer Universität oder einer vergleichbaren Institution arbeitet. Die Präsentation

•  stellt die Person heraus (durch einen Namen und ein Photo) und macht eindeutige Angaben zur Affiliation,

•  stellt vergangene und aktuelle Forschungsaktivitäten und •  die Berufserfahrung dar, indem das

–  Universitäre Profil (Angaben zu Lehrveranstaltungen) und das –  Wissenschaftliche Profil (Publikationsliste und

Forschungsinteressen) der Person aufgeführt werden. •  enthält Kontakt-Informationen (mindestens Straßenadresse,

Telefonnummer, Email-Adresse und die Raumnummer), evtl. auch dezidiert für das Sekretariat und Mitarbeiter.

"  Funktion dieser Hypertextsorte: (i) Etablierung eines eigenständigen wissenschaftlichen Profils; Distribution von (ii) Materialien für Lehrveranstaltungen sowie (iii) Publikationen, aktuellen Forschungsinteressen und Kontakt-Informationen.

gekürzt

Page 38: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Zwischenstand !  Bislang wurden thematisiert:

"  Erzeugung eines Web-Schnappschusses einer bestimmten Domäne, Korpus und Zugriffswerkzeuge

"  Hypertextsorten "  Ihre Konstituierung aus Hypertextsorten-Modulen "  Module können sich aus einzelnen Merkmalen

zusammensetzen, die auf zwei Ebenen typisiert sind !  Es stehen noch aus:

"  Aufbau von Hypertextsorten-Ontologien "  Maschinelle Klassifikation von Hypertextsorten "  Der zentrale Vorteil dieses Ansatzes

Page 39: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Hypertextsorten-Ontologie

!  Stichproben-Analysen: 1.  Erste Stichprobe (200 Dokumente) ergab:

•  initiale Liste von Hypertextsorten, •  extremen Bedarf für eine hierarchische Anordnung!

2.  Zwei weitere Stichproben: a.  top-down:

•  727 Dokumente der obersten Verlinkungsebene der Einstiegsseiten der ersten 35 Universitäten im Korpus

b.  bottom-up: •  2000 zufällig ausgewählte „tiefe� Dokumente •  Diese Analyse steht noch aus

Page 40: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Hypnotic-Hypertextsorten-Ontologie Version 0.4

Nur einige der noch offenen Fragen: •  Welche unterschiedlichen Knoten-Typen existieren? •  Welche dieser Typen treten in der Realität auf („Text�)? •  Wie können isolierte Knoten („Linkliste�) sinnvoller in die Ontologie integriert werden? •  Welche unterschiedlichen Kanten-Typen existieren? •  Ist eine Hyperlink-Typologie sinnvoll integrierbar? •  XML als vereinheitlichendes Repräsentationsformat?

Page 41: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Grobe Verteilung im 200er Sample !  Administrative Informationen (14)

"  Studienordnung (2) "  Lehrveranstaltungsbezogene

Informationen (2) •  Grundlegende Informationen zu

einem Kurs (9) •  Kommentar (7) •  Übungsaufgabe (5) •  Lösungen von Aufgaben (1) •  Liste von Veranstaltungen (2) •  LV-Materialien (2)

"  Informationen zu Stipendium (1) "  Stellenangebot (1)

!  Universitäre Informationen (5) "  Wegbeschreibung/Lageplan (3) "  Beschreibung eines universitären

Informationsangebots (1)

!  Institut/Lehrstuhl/Arbeitsbereich (15) "  Einstiegsseite (4)

•  Konferenz (5) •  Beschreibung einer

Arbeitsgruppe (2) •  Programmüberblick (1) •  Anmeldeformular (1)

"  Liste der Mitarbeiter (4) •  Persönliche Homepage (14)

•  Wissenschaftler (4) •  Hilfskraft (3) •  Virtuelle Visitenkarte (1)

"  Beschreibung eines Forschungsschwerpunkts (3)

•  Bibliographie (9) •  eines Autors (3) •  eines Instituts (3) •  thematisch sortiert (2)

•  Forschungsprojekt (9) •  Beschreibung (7) •  Arbeitsplan (19)

"  Kurze Darstellung der Institution (1) "  Organisationsplan (1)

•  84 Hypertextsorten sind enthalten. •  11 Dokumenten konnte aus technischen Gründen keine Hypertextsorte zugeordnet werden. •  4 Hypertextsorten konnten nicht sinnvoll in die Taxonomie integriert werden.

Page 42: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Detektionsmerkmale !  Werden eingesetzt zur

!  Klassifikation von Dokumentinstanzen in Hypertextsorten !  Genauer gesagt: Zur Zuweisung von Hypertextsorten-

Modulen an Dokumentfragmente !  Ansätze zur Textsorten-Klassifikation:

!  Analyse von „flat ASCII�-Text !  Fast ausschließlich sprachliche Merkmale

!  HTML bietet „mehr�: !  Die ∅-Webseite enthält 120,57 Elemente, 236,04 Attribute

und 13,53 Hyperlinks → Hohes Maß an Strukturiertheit! !  Derzeit ca. 120 Merkmale, eingeteilt in fünf Klassen:

1.  Dokumentübergreifende Merkmale 2.  Metadaten 3.  Sprachliche und strukturelle Cues 4.  Sprachliche Konzeption 5.  HTML-Struktur

Page 43: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Sprachliche und strukturelle Merkmale

Titel Vorname Nachname

Universität ... → Institut ... → Arbeitsbereich ...

Straße Hausnr. PLZ Stadt

Kontaktinformationen: Raum Nr., E-Mail, Tel.-, Faxnr.

Sprechstunde Tag Uhrzeit

Automatische Erkennung mittels: •  regulärer Ausdrücke (für Telefonnummern etc.) •  named entity-Tagger (für Personen- und Stadtnamen) •  hochfrequenter Schlüsselwörter einer Hypertextsorte •  ...

Erkennung dieser Cues schränkt Suche ein auf: •  Persönliche Homepage eines Wissenschaftlers •  Virtuelle Visitenkarte

Page 44: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

!  Koch & Oesterreicher (1994): "  mediale Mündlichkeit/Schriftlichkeit "  konzeptionelle Mündlichkeit/Schriftlichkeit

!  Beispiele: "  Wissenschaftlicher Vortrag:

• medial mündlich •  konzeptionell schriftlich

"  Wissenschaftlicher Artikel: • medial schriftlich •  konzeptionell schriftlich

"  Gespräch unter Freunden: • medial mündlich •  konzeptionell mündlich

Merkmal: Sprachliche Konzeption

Kontinuum: von ... bis

dichotomisch: entweder – oder

Page 45: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Merkmal: Sprachliche Konzeption !  CMC: E-Mail, Chat, Usenet → konzeptionelle Mündlichkeit !  Berichtete Merkmale:

!  Umgangssprachliche Formen (z.B. bei Begrüßungen und Verabschiedungen)

!  Hochfrequent: ich, man, du, ein-fach, mal, ziemlich, irgendwie

!  Regionalismen, Dialektismen !  Ausgeprägte Dialogizität

!  Einfache Syntax und Lexik !  Freie, assoziative Themen-

entwicklung !  Spontane Äußerungen !  ...

!  Smileys: :-) !  Isolierte Verbstämme:

*lach*, *grins*, ... !  Spezifische Abkürzungen:

*rotfl* !  Iterationen: Tschüßiiiii

!  Emphasen: ist _eingeschränkt_ !  Slangausdrücke: IMHO ... !  Bigraphen (gruen), Assimilationen

(gibt�s), Auslassungspunkte (...), reduplizierte Inter-punktionszeichen (!!!!!!) etc.

Diese Merkmale sind mit Hilfe von regulären Ausdrücken und

verschiedenen Listen (von Smileys, speziellen Akronymen etc.) automatisch detektierbar!

Page 46: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Merkmal: Sprachliche Konzeption

Persönliche Homepage von Prof. Dr. Henning Lobin

Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU

Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)

Kontinuum der sprachlichen Konzeption

schriftlich mündlich

Page 47: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Merkmal: Sprachliche Konzeption

Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU

Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)

Kontinuum der sprachlichen Konzeption

schriftlich mündlich

Persönliche Homepage von Prof. Dr. Henning Lobin

Page 48: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Merkmal: Sprachliche Konzeption

Persönliche Homepage von Prof. Dr. Henning Lobin

Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)

Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU

Kontinuum der sprachlichen Konzeption

schriftlich mündlich

Page 49: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Merkmal: Sprachliche Konzeption

Persönliche Homepage von Prof. Dr. Henning Lobin

Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU

Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)

Kontinuum der sprachlichen Konzeption

schriftlich mündlich

! Einschränkung der potentiellen Hypertextsorte auf: studentische Homepages, Gästebücher, Chat-Protokolle, Web-basierte Mailing-Listen-Archive, Usenet-Artikel etc.

Page 50: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Das eigentliche Ziel !  XML Schema als Repräsentationsformat der

Hypertextsorten-Ontologie !  Resultate des Analyse-Systems sollen sein:

"  Klassifikation eines HTML-Dokuments in eine Hypertextsorte

"  Basierend auf dieser Information: •  Konvertierung der Webseite in eine XML-Instanz •  Explizite Annotation der HTS-Module

!  Anders gesagt: "  Hypertextsorten-getriebene Konvertierung arbiträrer

HTML-Dokumente der Untersuchungsdomäne in korrespondierende XML-Formate

Page 51: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Dokument- ansicht

Sample- Generierung

Sample- Analyse

Struktur- Visualisierung

Apache Webserver

PHP, Perl, verschiedene Tools

Analyse Features

Stich- proben

Server- Daten

Meta- daten

HTTP- Header

User- Daten

Hyp

notic

-Kor

pusd

aten

bank

HTML- Dateien

Konvertierung: HTML → XHTML

HTS-Klassifikation Strukturanalyse

Zuweisung von Hypertextsorten-Modulen XML- Dateien

HTS- Ontologie

HTS- Module

Themen- Ontologie

Struktur- Ontologie

Analyse- DTD

RDF, DTD, XML Schema

Page 52: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Konvertierung HTML → XHTML !  HTML-Dokumente im Web enthalten sehr viel

fehlerhaftes Markup "  Erschwert maschinelle Verarbeitung erheblich

!  XHTML: Neuformlierung von HTML mit XML "  XHTML-Dokumente sind auch XML-Dokumente

!  Wohlgeformte XHTML-Dokumente können mit XML-Werkzeugen verarbeitet werden:

"  XML Parser, XPath, DOM, XSLT etc. !  Konvertierung erfolgt mit gepatchtem Tidy und dem

Perl-Modul HTML::TreeBuilder !  Test mit 10.000 Dokumenten:

"  Konvertierung in 98,7% aller Fälle erfolgreich •  Bis auf 5 der 9872 automatisch erzeugten XML-Dokumente

sind alle von einem (nicht validierenden) XML-Parser ohne Fehlermeldung prozessierbar

Page 53: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Strukturanalyse !  Perl-Skript (work in progress), benutzt das Modul

XML::LibXML, also DOM Level 2 und XPath "  DOM: Document Object Model, ermöglicht baum-basierte

Verarbeitung von XML-Instanzen

Page 54: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web
Page 55: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

DOM-Struktur einer XML-Instanz erheblich gekürzt und abstrahiert

Page 56: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Strukturanalyse !  Perl-Skript (work in progress), benutzt das Modul

XML::LibXML, also DOM Level 2 und XPath "  DOM: Document Object Model, ermöglicht baum-basierte

Verarbeitung von XML-Instanzen !  Verschachtelte rekursive Funktionen beginnen beim

Wurzelelement des Dokumens (<html>): "  Berechnung verschiedener Merkmale einzelner Teilbäume,

der in ihnen enthaltenen Teilbäume etc.: •  Anzahl Kindelemente, Anteil Elemente/Attribute, Anzahl Wörter •  Hyperlink-Analyse (external, samedomain, internal) •  Analyse von eingebetteten Graphiken

–  Ermittlung der Abmessungen der Graphiken –  Erkennung von Werbebannern –  Erkennung horizontaler Separatoren

•  Analyse von Listen-Strukturen •  ...

Page 57: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Strukturanalyse !  Die Analyse-Heuristiken legen ihre Resultate unmittelbar

in dem XHTML-Dokument ab: "  Deklaration eines eigenen Namespace (hypnotic:) im

Wurzelelement (Default bleibt jedoch XHTML 1.0) •  Namespace → Analyse-DTD der Systemarchitektur

"  Elemente: Makrostrukturelle Analyseresultate "  Attribute: Teilbaum- und Element-bezogene Analyseresultate "  Ermöglicht: Meta-Ansicht bzw. Dokument-Partitionierung "  Beispiel:

•  Horizontale Linien sind eigentlich durch <hr> zu realisieren •  Häufig werden hierfür auch Graphiken benutzt •  Strukturanalyse markiert:

<img src="..." hypnotic:TagGroup="separator"> "  Vergrößert ein Dokument derzeit um den Faktor 20

!  Bislang erst Spitze des Eisberges implementiert – sehr viele Funktionen stehen noch aus

Page 58: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Informationsextraktion !  Wrapping: Mittlerweile triviale Anwendung

"  Informationsextraktion aus genau einem HTML-Dokument-Typ

!  Hypnotic verfolgt: "  Hypertextsorten-getriebene Informationsextraktion "  Kann für einige HTS-Module auf der bloßen

Strukturanalyse basieren: • Definition des Moduls: „Interessante Links�

–  Listenartige Präsentation von mindestens zwei externen Hyperlinks

–  Evtl. flankiert von kurzer Erläuterung des Link-Ziels – Mindestens ein Hyperlink pro logischem Abschnitt

der Liste

Page 59: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Informationsextraktion !  Definition ist unmittelbar in XPath-Ausdruck überführbar:

//* [@hypnotic:TagGroup="list"] [@hypnotic:NumberOfListItems > 1] [@hypnotic:TotalLinkCount >= number(@hypnotic:NumberOfListItems)] [//* [@hypnotic:LinkType]] [(not(.//*[ @hypnotic:LinkType and @hypnotic:LinkType != "external"]))]

!  Finde alle Knoten: "  Die vom Typ „Liste� sind, "  mehr als ein List-Item enthalten, "  ausschließlich externe Hyperlinks beinhalten und "  mindestens so viele externe Hyperlinks wie List-Items umfassen.

!  Falls alle Prädikate wahr sind, kann der Kontext-Knoten als hypnotic:WebGenreModule="Interesting Links" analysiert werden

Aber:

Dieses Element bezieht sich nun nicht mehr auf die Analyse-DTD, sondern auf die XML Schema-Formalisierung einer Hypertextsorte!

Page 60: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Ausschnitt: XML-basierte Repräsen- tation der Informationen des Hyper-

textsorten-Moduls Kontaktinformation

!

Informationsextraktion

Page 61: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Georg Rehm TaCoS 2003

Ausblick !  Stichprobenauswertung (bottom-up) zur

Komplettierung der Hypertextsorten-Ontologie

!  Entwicklung des XML-Repräsentationsformats für die Hypertextsorten-Ontologie

!  Entwicklung des RDF-Repräsentationsformats für die Hypertextsorten-Modul-Ontologie

!  Implementation des Klassifikationssystems

!  Evaluation des Systems mit realen Such-Fragestellungen