View
619
Download
0
Category
Preview:
DESCRIPTION
Georg Rehm. Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web. Tagung der Computerlinguistik-Studierenden (TaCoS 2003), Universität Gießen, Germany, June 2003. June, 2003. Invited talk.
Citation preview
Georg Rehm, M.A.
Angewandte Sprachwissenschaft und Computerlinguistik Justus-Liebig-Universität Gießen
Georg.Rehm@uni-giessen.de http://www.uni-giessen.de/~g91063/
Hypertextsorten
Neuartige Möglichkeiten der Informationsrecherche im World Wide Web
Zielsetzung
Status Quo
Aus Sicht des (unerfahrenen) Benutzers:
• DWIM-Prinzip („Do what I mean!�) • Spezifizierung einer Suchanfrage ist schwierig • Es ist unklar, nach welchen Kriterien die Maschine sucht
Das Ziel
!
Abstraktion über Inhalt bzw. Thema:
Strukturelle Klassifikation bzw. Hypertextsorten-Klassifikation
Einführung
Georg Rehm TaCoS 2003
Textsorten
! Textlinguistik: Textsorten (Brief, Rezept, ...), d.h. unterschiedliche Typen von Texten
! Klassifikationskriterien (u.a.): " Inhalt – Thema " Form – Aufbau, Struktur, Gliederung " Funktion – Zweck
„[Textsorten sind] komplexe Muster sprachlicher Kom- munikation [...], die innerhalb der Sprachgemeinschaft im Laufe der historisch-gesellschaftlichen Entwicklung aufgrund kommunikativer Bedürfnisse entstanden sind.� Brinker (1985)
Zentrale Hypothese:
Im World Wide Web existieren Hypertextsorten # Nach nur wenigen Jahren (!) kanonisierte,
kkkkkkkkkkkkkkkkkkkkkfunktionsgebundene, hypertextuelle Strukturen
Textsorten Hypertextsorten
Buch
Lexikon
Wörterbuch
Sammelband
Tageszeitung
Memo
Brief
Geschäftsbrief
Mahnung
Liebesbrief
FAQ
Universitäre Einstiegsseite Suchmaschine
eCommerce
Instituts-Portal
Lehrveranstaltungen
Pers. Homepage Pers. Homepage
Pers. Homepage
Mitarbeiterliste
– Lehrender –
– Student – – Sekretärin –
Textsorten-Klassifikation
Korpus Methoden Genres Präzision
Karlgren & Cutting (1994), Recognizing Text
Genres with Simple Metrics Using Discri-
minant Functions
Jeweils 500 Texte aus dem Brown
Corpus (tagged)
Diskriminanten-Analyse – 20
Parameter (noun, it, adv., word etc.
counts)
2. Informative, Imaginative
4. Press, Fiction, Misc., Non-Fiction
2. ca. 96% 4. ca. 73%
Kessler, Nunberg & Schütze (1997),
Automatic Detection of Text
Genre
ca. 500 Texte aus dem Brown
Corpus (tagged)
Statististik/KNNs, 55 Merkmale
(Interpunktion, Affixe, Passiv,
etc.)
6. Reportage, Editorial, Sci-Tech, Legal, Non-Fiction, Fiction
ca. 90% (für „reportage� und „fiction�)
Stamatatos et al. (2000), Text
Genre Detection Using Common
Word Frequencies
Wall Street Journal Corpus
(untagged)
Diskriminanten-Analyse – Wort-häufigkeiten und Interpunktionsz.
4. Editorial, Let-ter to the Editor, Reportage, Spot news
ca. 97%
Fazit • Einfache Methoden liefern für wenige Textsorten sehr gute Resultate • In diesen Ansätzen ausschließlich: ASCII-Texte (!) • Wie kann man sehr viele Hypertextsorten möglichst präzise detektieren?
Hypertextsorten-Klassifikation
Genres Methoden Merkmale Präzision
Matsuda & Fuku-shima (1999), Task-Oriented
World Wide Web Retrieval by
Document Type Classification
9: prod. catalogue, online shop, advertise-
ment for help, CfP, links, FAQ, gloss-ary, home page, bulletin board
Gewichtetes Pattern-
Matching in HTML-
Elementen
keyword, link, URL, structure, image, OCR,
plugin
avg. precision of document-type search: 88,9%
[avg. precision of keyword-based search: 31,2%]
Karlgren et al. (1998), Iterative Information Re-trieval Using Fast Clustering and Usage-Specific
Genres
11: Informal/Pri-vate, Public/Com.,
Indices, Journ. Material, Reports, Text, FAQ, Link Coll., Listings/-
Tables, Discussio-ns, Error Messages
Clustering der Merkmale;
Konstruktion von if-then-
Regeln
insgesamt 40 Merkmale, z.B. Vorkommen von
Wörtern und HTML-Elementen
Zwischen 30% und 90%, je nach Genre
!
Fazit • Einfache Methoden liefern für wenige Hypertext- sorten sehr gute Resultate • Sind diese Ergebnisse auf sehr viele, tw. recht ähnliche Hypertextsorten übertragbar? • Auswahl und Granularität der gewählten Hyper- textsorten ad hoc, nicht textlinguistisch motiviert!
Georg Rehm TaCoS 2003
Hypertextsorten: Beispiele ! Eine sehr interessante Hypertextsorte:
Persönliche Homepage ! Mittlerweile: empirisch nachweisbare,
subgenerische Varianten, u.a.: " Persönliche Homepage eines Studierenden " Persönliche Homepage eines administrativen
oder technischen Mitarbeiters " Persönliche Homepage eines Wissenschaftlers
Beispiele aus: • vier verschiedenen Universitäten und • vier unterschiedlichen Disziplinen
Hypertextsorten: Beispiele
Georg Rehm TaCoS 2003
Projektverlauf – Roadmap I. Empirischer, Korpus-basierter Ansatz:
" Auswahl einer geeigneten Untersuchungsdomäne " Korpus-Datenbank-System:
1. Datensammlung 2. Implementation eines Web-basierten Front-Ends 3. (semi-automatische) Analyse von Stichproben 4. Erstellung einer Taxonomie von Hypertextsorten
II. Maschinelle Erkennung von Hypertextsorten: " Sammlung von Detektionsmerkmalen " Generischer Aufbau von Hypertextsorten " Klassifikations-Methoden und -Ansätze " Generische Informationsextraktion " Design und Implementierung der System-Architektur
I. Empirischer, Korpus-basierter Ansatz " Untersuchungsdomäne " Korpus-Datenbank-System:
• Datensammlung • Das Web-basierte Korpus-Front-End • Stichprobenanalyse • Eine Taxonomie von Hypertextsorten
II. Maschinelle Erkennung von Hypertextsorten " Detektionsmerkmale " Generischer Aufbau von Hypertextsorten " Klassifikations-Methoden und -Ansätze " Design der System-Architektur
Georg Rehm TaCoS 2003
Untersuchungsdomäne ! Arbeiten aus dem „digital genre�-Bereich:
" Analyse weltweiter Stichproben ohne jegliche Einschränkungen " Extrem grobe und wenig hilfreiche Ergebnisse
! Empirischer Ansatz erfordert: " Korpus von HTML-Dokumenten als sicheren und großen Vorrat " HTML-Dokumente sind „flüchtig��
! Untersuchungsdomäne – Datensammlung: " Deutschsprachige Dokumente der " Webserver deutscher Hochschulen:
• Dokumente sind stark strukturiert • Kaum binäre Dateitypen als Vermittler von Text • Bzgl. Inhalt und Form überschaubar
(vs. kommerziellen, künstlerischen, Hobby-Angeboten)
*.uni-giessen.de
Hostnames:
Ausnahmen
beschränken
Crawler (rekursiver Transfer) Datei-Suffixe:
Ausnahmen MIME-Typen:
HTML, XML etc.
Datei < 500kB? HTTP-Port = 80?
HTML-Dokument deutschsprachig? UNIX- Datei- system
ja, speichern
Tilgung von Duplikaten
SQL- Daten- bank
Verknüpfung
Alle HTTP-Header
Statistik liefert Daten
generiert
Verknüpfungen
Georg Rehm TaCoS 2003
Universitäten 100 Allgemeine Universitäten (vollständig) 62
Technische Hochschulen (vollständig) 12
Musik- und Kunsthochschulen (partiell) 5
Wirtschaftshochschulen (partiell) 5
Sonstige Hochschulen (partiell) 16
Traversierte Webserver insgesamt / auf Port 80 operierend 14.968 / 13.885
Anzahl per HTTP erreichbarer Dateien 16.196.511
Anzahl HTML-Dokumente gesamt 8.465.105
Gesamtumfang aller entfernten Webserver 701.464,29 MB
Gesamtumfang der Hypnotic-Korpusdatenbank 40.914,99 MB
Laufende Wortformen (gesamt; nur text/html) 1.138.794.715
Laufende Wortformen (eindeutig; nur text/html) 12.120.162
Gesamtanzahl Dateien im Korpus 4.294.417 Dateien vom Medientyp text/html 3.956.692
Dateien vom Medientyp text/plain 270.400
Dateien vom Medientyp text/css 35.651
Dateien vom Medientyp text/xml 25.871
Dateien vom Medientyp text/sgml 956
Dateien vom Medientyp message/news 490
Dateien vom Medientyp message/rfc822 436
Georg Rehm TaCoS 2003
Die durchschnittliche Webseite ... ! ... ist 594,11 (!) Tage alt.
" 96,5%: >10 Tage; 70%: >210 Tage; 35%: >700 Tage " JPEG-Dateien sind ∅ 488, PDF-Dateien nur ∅ 375 Tage alt
! ... ist 7.024 Bytes groß. " Etwa 91% aller Dokumente: 1 Byte–16 Kilobyte
! ... enthält 120,57 Elemente und 236,04 Attribute. " body (98%), html (97%), head (97%), title (96%), a (87%),
p (81%), br (73%), img (67%), meta (66%), table (64%). ! ... enthält 13,53 Hyperlinks.
" Etwa 56% aller Dokumente enthalten bis zu 10 Links. " 90% aller Links zeigen auf Webseiten, 5% auf eMail-Adressen, 5%
zeigen auf JavaScript-Dateien. " Top-Level-Domänen in entfernten Links: .de (86,7%), .com
(5,1%), .org (1,9%), .edu (1,4%), .net (0,7%), .uk (0,6%) ! Nur 46% aller HTML-Dokumente der Domäne deutschsprachig!
Georg Rehm TaCoS 2003
Hypnotic-Korpus-Front-End ! SQL-Datenbank zur Referen-
zierung von Dokumenten
Georg Rehm TaCoS 2003
Hypnotic-Korpus-Front-End ! SQL-Datenbank zur Referen-
zierung von Dokumenten ! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff: " Navigation & Suche im
Dokumentbestand
Auswahl einer Universität
Georg Rehm TaCoS 2003
Hypnotic-Korpus-Front-End ! SQL-Datenbank zur Referen-
zierung von Dokumenten ! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff: " Navigation & Suche im
Dokumentbestand
Auflistung der Server einer Universität
Georg Rehm TaCoS 2003
Hypnotic-Korpus-Front-End ! SQL-Datenbank zur Referen-
zierung von Dokumenten ! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff: " Navigation & Suche im
Dokumentbestand
Auflistung der Dokumente eines Servers
Georg Rehm TaCoS 2003
Hypnotic-Korpus-Front-End ! SQL-Datenbank zur Referen-
zierung von Dokumenten ! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff: " Navigation & Suche im
Dokumentbestand
Ansicht eines Dokuments
Georg Rehm TaCoS 2003
Hypnotic-Korpus-Front-End ! SQL-Datenbank zur Referen-
zierung von Dokumenten ! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff: " Navigation & Suche im
Dokumentbestand " Zufällige Generierung von
Stichproben
Generierung einer Stichprobe
Georg Rehm TaCoS 2003
Hypnotic-Korpus-Front-End ! SQL-Datenbank zur Referen-
zierung von Dokumenten ! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff: " Navigation & Suche im
Dokumentbestand " Zufällige Generierung von
Stichproben " Benutzerabhängige und DB-
getriebene Unterstützung bei der Stichprobenanalyse
Die Dokumente einer Stichprobe
Georg Rehm TaCoS 2003
Hypnotic-Korpus-Front-End ! SQL-Datenbank zur Referen-
zierung von Dokumenten ! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff: " Navigation & Suche im
Dokumentbestand " Zufällige Generierung von
Stichproben " Benutzerabhängige und DB-
getriebene Unterstützung bei der Stichprobenanalyse
DB-gestützte Dokumentanalyse
Georg Rehm TaCoS 2003
Hypnotic-Korpus-Front-End ! SQL-Datenbank zur Referen-
zierung von Dokumenten ! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff: " Navigation & Suche im
Dokumentbestand " Zufällige Generierung von
Stichproben " Benutzerabhängige und DB-
getriebene Unterstützung bei der Stichprobenanalyse
! Einsatz von Open Source- Werkzeugen
! Spätere Veröffentlichung des Systems als Open Source
Analyseergebnisse
Georg Rehm TaCoS 2003
Hypertextsorten und Ontologien
! Viele Textsorten können hierarchisch angeordnet werden. ! Dies trifft auch auf Hypertextsorten zu – in mehrfacher
Hinsicht: " Hypertextsorten-Ebene → Hypertextsorten-Ontologie " Hyperlink-Ebene → Struktur-Ontologie " Thematische Ebene → Themen-Ontologie
! Hypertextsorten-Ebene ist zentral für dieses Projekt: " Wie sind Hypertextsorten generisch strukturiert? " Wie werden diese Strukturinformationen repräsentiert? " Wie kann man korrespondierende Detektionsmerkmale in diese
Repräsentation integrieren?
Georg Rehm TaCoS 2003
Hypertextsorten-Module ! Hypertextsorten werden aus Modulen gebildet.
" Hypertextsorten sind nicht monolithisch. ! Diese Module sind:
" obligatorisch vs. optional " optisch und/oder strukturell voneinander separiert
! Persönliche Homepage eines Wissenschaftlers: " Beispiel-Module:
- Name (der beschriebenen Person bzw. des Autors) - Kontaktinformationen - Publikationen - Projekte - Lehrveranstaltungen - ...
Hypertextsorten-Module: Beispiele
Hypertextsorte
XML Schema-Repräsentationen
Optionale Hypertextsorten-Module
Obligatorische Hypertextsorten-Module
bestehen aus
definieren
können fun- gieren als
Spezifische Eigenschaften: <Inhalt, Form, Funktion>
Default-Eigenschaften:
<Inhalt, Form, Funktion>
kann modifizieren
referenzieren
Hypertextsorten- Ontologie
Hypertextsortenmodule
werden je HTS gruppiert in
Atomare Module bzw. Merkmale
Komplexe Module
RDF-Beschreibungen von Merkmalen und Modulen
spezifizieren
Hypertextsorten- Modul-Ontologie
Georg Rehm TaCoS 2003
Modellierung von Hypertextsorten ! Modellierung durch Stichproben-Analysen
" Semiautomatische Durchführung mit Hilfe des Front-Ends der Korpusdatenbank:
• Automatische Generierung von Samples • Semiautomatische Analyse von Samples • Sukzessive Rekonfiguration modularer Einheiten
! Beispiel: " Persönliche Homepage eines Wissenschaftlers " Stichprobe von 100 Dokumenten
Georg Rehm TaCoS 2003
Hypertextsorten-Spezifikation Ebene Bezeichnung Status Vorkommen Häufigkeit
Atomares Modul Explizite Begrüßung generell optional 14
Komplexes Modul Identifikation generell obligatorisch –
Komplexes Modul Eigenständige Affiliation generell obligatorisch –
Atomares Modul Alternative Sprachversion generell optional 75
Komplexes Modul Kontakt-Informationen generell obligatorisch –
Komplexes Modul Kontakt-Informationen (Sekretariat) spezifisch optional –
Komplexes Modul Kontakt-Informationen (Mitarbeiter) spezifisch optional –
Komplexes Modul Universitäres Profil spezifisch obligatorisch –
Komplexes Modul Wissenschaftliches Profil spezifisch obligatorisch –
Atomares Modul Lebenslauf, C.V., biographische Angaben generell obligatorisch 60
Atomares Modul Interessante Links generell optional 12
Komplexes Modul Relevante Links generell optional –
Atomares Modul Angabe der letzten Änderung / Stand universal obligatorisch 42
Atomares Modul Counter, Zugriffszähler universal optional 11
Atomares Modul Gästebuch universal optional 1
Georg Rehm TaCoS 2003
Hypertextsorten-Spezifikation Ebene Bezeichnung Status Vorkommen Häufigkeit
Atomares Modul Explizite Begrüßung generell optional 14
Komplexes Modul Identifikation generell obligatorisch –
Merkmal Name des Homepage-Besitzers generell obligatorisch 100
Merkmal ... begleitet von Titelangabe spezifisch obligatorisch 69
Merkmal ... begleitet von Tätigkeitsangabe generell optional 27
Merkmal ... begleitet von Affiliation generell obligatorisch 34
Merkmal ... begleitet von Photos des Autors generell obligatorisch 54
Komplexes Modul Eigenständige Affiliation generell obligatorisch –
Merkmal Name der Universität im Klartext generell obligatorisch 75
Merkmal Logo der Universität generell optional 16
Georg Rehm TaCoS 2003
Hypertextsorten-Spezifikation Ebene Bezeichnung Status Vorkommen Häufigkeit
Komplexes Modul Kontakt-Informationen generell obligatorisch –
Merkmal Straßenadresse (Univ., Straße, PLZ, ...) generell obligatorisch 90
Merkmal Explizite Postadresse generell optional 8
Merkmal Telefonnummer generell obligatorisch 86
Merkmal Telefonnummer (Sekretariat) generell optional 7
Merkmal Faxnummer generell obligatorisch 66
Merkmal Email-Adresse generell obligatorisch 98
Merkmal Angabe der URL dieser Homepage generell optional 4
Merkmal Zimmernummer generell obligatorisch 30
Merkmal SMS senden generell optional 1
Merkmal PGP Public Key bzw. PGP Fingerprint generell optional 2
Merkmal X.500 Eintrag generell optional 2
Merkmal Informationen zur Anreise generell optional 2
Merkmal Sprechstunden spezifisch optional 2
... ... ... ... ...
Georg Rehm TaCoS 2003
Hypertextsorten-Spezifikation Ebene Bezeichnung Status Vorkommen Häufigkeit
Komplexes Modul Universitäres Profil spezifisch obligatorisch –
Merkmal Angaben zu Lehrveranstaltungen spezifisch obligatorisch 49
Merkmal Universitäre Funktionen (z.B. Gremien) spezifisch optional 7
Merkmal Allgemeine Studienhinweise spezifisch optional 3
Merkmal Angebotene Abschlussarbeiten spezifisch optional 2
Komplexes Modul Wissenschaftliches Profil spezifisch obligatorisch –
Merkmal Publikationsliste spezifisch obligatorisch 71
Merkmal Forschungsinteressen spezifisch obligatorisch 50
Merkmal Forschungsprojekte spezifisch optional 22
Merkmal Prominent platzierte Bücher/Zeitschriften spezifisch optional 6
Merkmal Liste von Vorträgen und Präsentationen spezifisch optional 5
Merkmal Mitgliedschaften in Fachverbänden spezifisch optional 4
Merkmal Technologietransfer spezifisch optional 1
Georg Rehm TaCoS 2003
Hypertextsorten-Definition ! Modul-Reihenfolge entspricht kanonischer Sequenz ! In dieser Stichprobe Bestimmung obligatorisch vs.
optional ab 30 Vorkommen ! Status von Modulen und Merkmalen:
" Kennzeichnet mögliche Vorkommen eben diesen Merkmals in höher angeordneten Hypertextsorten
" Beispiel: Das Modul „Kontakt-Informationen� • In persönliche Homepage eines Wissenschaftlers generell
– Auch in z.B. persönliche Homepage eines Studierenden • Das hierin enthaltene Merkmal „Sprechstunden� ist spezifisch • Module wie „Zugriffszähler� oder „Gästebuch� sind universal
" Zweck: Modellierung der persönlichen Homepage eines Wissenschaftlers als subgenerische Varietät der persönlichen Homepage
Georg Rehm TaCoS 2003
Hypertextsorten: NL-Definition ! Persönliche Homepage eines Wissenschaftlers:
" Präsentation einer Person in digitaler, hypertextueller Form, verfasst von einem Autor, der an einer Universität oder einer vergleichbaren Institution arbeitet. Die Präsentation
• stellt die Person heraus (durch einen Namen und ein Photo) und macht eindeutige Angaben zur Affiliation,
• stellt vergangene und aktuelle Forschungsaktivitäten und • die Berufserfahrung dar, indem das
– Universitäre Profil (Angaben zu Lehrveranstaltungen) und das – Wissenschaftliche Profil (Publikationsliste und
Forschungsinteressen) der Person aufgeführt werden. • enthält Kontakt-Informationen (mindestens Straßenadresse,
Telefonnummer, Email-Adresse und die Raumnummer), evtl. auch dezidiert für das Sekretariat und Mitarbeiter.
" Funktion dieser Hypertextsorte: (i) Etablierung eines eigenständigen wissenschaftlichen Profils; Distribution von (ii) Materialien für Lehrveranstaltungen sowie (iii) Publikationen, aktuellen Forschungsinteressen und Kontakt-Informationen.
gekürzt
Georg Rehm TaCoS 2003
Zwischenstand ! Bislang wurden thematisiert:
" Erzeugung eines Web-Schnappschusses einer bestimmten Domäne, Korpus und Zugriffswerkzeuge
" Hypertextsorten " Ihre Konstituierung aus Hypertextsorten-Modulen " Module können sich aus einzelnen Merkmalen
zusammensetzen, die auf zwei Ebenen typisiert sind ! Es stehen noch aus:
" Aufbau von Hypertextsorten-Ontologien " Maschinelle Klassifikation von Hypertextsorten " Der zentrale Vorteil dieses Ansatzes
Georg Rehm TaCoS 2003
Hypertextsorten-Ontologie
! Stichproben-Analysen: 1. Erste Stichprobe (200 Dokumente) ergab:
• initiale Liste von Hypertextsorten, • extremen Bedarf für eine hierarchische Anordnung!
2. Zwei weitere Stichproben: a. top-down:
• 727 Dokumente der obersten Verlinkungsebene der Einstiegsseiten der ersten 35 Universitäten im Korpus
b. bottom-up: • 2000 zufällig ausgewählte „tiefe� Dokumente • Diese Analyse steht noch aus
Georg Rehm TaCoS 2003
Hypnotic-Hypertextsorten-Ontologie Version 0.4
Nur einige der noch offenen Fragen: • Welche unterschiedlichen Knoten-Typen existieren? • Welche dieser Typen treten in der Realität auf („Text�)? • Wie können isolierte Knoten („Linkliste�) sinnvoller in die Ontologie integriert werden? • Welche unterschiedlichen Kanten-Typen existieren? • Ist eine Hyperlink-Typologie sinnvoll integrierbar? • XML als vereinheitlichendes Repräsentationsformat?
Grobe Verteilung im 200er Sample ! Administrative Informationen (14)
" Studienordnung (2) " Lehrveranstaltungsbezogene
Informationen (2) • Grundlegende Informationen zu
einem Kurs (9) • Kommentar (7) • Übungsaufgabe (5) • Lösungen von Aufgaben (1) • Liste von Veranstaltungen (2) • LV-Materialien (2)
" Informationen zu Stipendium (1) " Stellenangebot (1)
! Universitäre Informationen (5) " Wegbeschreibung/Lageplan (3) " Beschreibung eines universitären
Informationsangebots (1)
! Institut/Lehrstuhl/Arbeitsbereich (15) " Einstiegsseite (4)
• Konferenz (5) • Beschreibung einer
Arbeitsgruppe (2) • Programmüberblick (1) • Anmeldeformular (1)
" Liste der Mitarbeiter (4) • Persönliche Homepage (14)
• Wissenschaftler (4) • Hilfskraft (3) • Virtuelle Visitenkarte (1)
" Beschreibung eines Forschungsschwerpunkts (3)
• Bibliographie (9) • eines Autors (3) • eines Instituts (3) • thematisch sortiert (2)
• Forschungsprojekt (9) • Beschreibung (7) • Arbeitsplan (19)
" Kurze Darstellung der Institution (1) " Organisationsplan (1)
• 84 Hypertextsorten sind enthalten. • 11 Dokumenten konnte aus technischen Gründen keine Hypertextsorte zugeordnet werden. • 4 Hypertextsorten konnten nicht sinnvoll in die Taxonomie integriert werden.
Georg Rehm TaCoS 2003
Detektionsmerkmale ! Werden eingesetzt zur
! Klassifikation von Dokumentinstanzen in Hypertextsorten ! Genauer gesagt: Zur Zuweisung von Hypertextsorten-
Modulen an Dokumentfragmente ! Ansätze zur Textsorten-Klassifikation:
! Analyse von „flat ASCII�-Text ! Fast ausschließlich sprachliche Merkmale
! HTML bietet „mehr�: ! Die ∅-Webseite enthält 120,57 Elemente, 236,04 Attribute
und 13,53 Hyperlinks → Hohes Maß an Strukturiertheit! ! Derzeit ca. 120 Merkmale, eingeteilt in fünf Klassen:
1. Dokumentübergreifende Merkmale 2. Metadaten 3. Sprachliche und strukturelle Cues 4. Sprachliche Konzeption 5. HTML-Struktur
Georg Rehm TaCoS 2003
Sprachliche und strukturelle Merkmale
Titel Vorname Nachname
Universität ... → Institut ... → Arbeitsbereich ...
Straße Hausnr. PLZ Stadt
Kontaktinformationen: Raum Nr., E-Mail, Tel.-, Faxnr.
Sprechstunde Tag Uhrzeit
Automatische Erkennung mittels: • regulärer Ausdrücke (für Telefonnummern etc.) • named entity-Tagger (für Personen- und Stadtnamen) • hochfrequenter Schlüsselwörter einer Hypertextsorte • ...
Erkennung dieser Cues schränkt Suche ein auf: • Persönliche Homepage eines Wissenschaftlers • Virtuelle Visitenkarte
Georg Rehm TaCoS 2003
! Koch & Oesterreicher (1994): " mediale Mündlichkeit/Schriftlichkeit " konzeptionelle Mündlichkeit/Schriftlichkeit
! Beispiele: " Wissenschaftlicher Vortrag:
• medial mündlich • konzeptionell schriftlich
" Wissenschaftlicher Artikel: • medial schriftlich • konzeptionell schriftlich
" Gespräch unter Freunden: • medial mündlich • konzeptionell mündlich
Merkmal: Sprachliche Konzeption
Kontinuum: von ... bis
dichotomisch: entweder – oder
Georg Rehm TaCoS 2003
Merkmal: Sprachliche Konzeption ! CMC: E-Mail, Chat, Usenet → konzeptionelle Mündlichkeit ! Berichtete Merkmale:
! Umgangssprachliche Formen (z.B. bei Begrüßungen und Verabschiedungen)
! Hochfrequent: ich, man, du, ein-fach, mal, ziemlich, irgendwie
! Regionalismen, Dialektismen ! Ausgeprägte Dialogizität
! Einfache Syntax und Lexik ! Freie, assoziative Themen-
entwicklung ! Spontane Äußerungen ! ...
! Smileys: :-) ! Isolierte Verbstämme:
*lach*, *grins*, ... ! Spezifische Abkürzungen:
*rotfl* ! Iterationen: Tschüßiiiii
! Emphasen: ist _eingeschränkt_ ! Slangausdrücke: IMHO ... ! Bigraphen (gruen), Assimilationen
(gibt�s), Auslassungspunkte (...), reduplizierte Inter-punktionszeichen (!!!!!!) etc.
Diese Merkmale sind mit Hilfe von regulären Ausdrücken und
verschiedenen Listen (von Smileys, speziellen Akronymen etc.) automatisch detektierbar!
Merkmal: Sprachliche Konzeption
Persönliche Homepage von Prof. Dr. Henning Lobin
Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU
Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
Kontinuum der sprachlichen Konzeption
schriftlich mündlich
Merkmal: Sprachliche Konzeption
Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU
Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
Kontinuum der sprachlichen Konzeption
schriftlich mündlich
Persönliche Homepage von Prof. Dr. Henning Lobin
Merkmal: Sprachliche Konzeption
Persönliche Homepage von Prof. Dr. Henning Lobin
Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU
Kontinuum der sprachlichen Konzeption
schriftlich mündlich
Merkmal: Sprachliche Konzeption
Persönliche Homepage von Prof. Dr. Henning Lobin
Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU
Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
Kontinuum der sprachlichen Konzeption
schriftlich mündlich
! Einschränkung der potentiellen Hypertextsorte auf: studentische Homepages, Gästebücher, Chat-Protokolle, Web-basierte Mailing-Listen-Archive, Usenet-Artikel etc.
Georg Rehm TaCoS 2003
Das eigentliche Ziel ! XML Schema als Repräsentationsformat der
Hypertextsorten-Ontologie ! Resultate des Analyse-Systems sollen sein:
" Klassifikation eines HTML-Dokuments in eine Hypertextsorte
" Basierend auf dieser Information: • Konvertierung der Webseite in eine XML-Instanz • Explizite Annotation der HTS-Module
! Anders gesagt: " Hypertextsorten-getriebene Konvertierung arbiträrer
HTML-Dokumente der Untersuchungsdomäne in korrespondierende XML-Formate
Dokument- ansicht
Sample- Generierung
Sample- Analyse
Struktur- Visualisierung
Apache Webserver
PHP, Perl, verschiedene Tools
Analyse Features
Stich- proben
Server- Daten
Meta- daten
HTTP- Header
User- Daten
Hyp
notic
-Kor
pusd
aten
bank
HTML- Dateien
Konvertierung: HTML → XHTML
HTS-Klassifikation Strukturanalyse
Zuweisung von Hypertextsorten-Modulen XML- Dateien
HTS- Ontologie
HTS- Module
Themen- Ontologie
Struktur- Ontologie
Analyse- DTD
RDF, DTD, XML Schema
Georg Rehm TaCoS 2003
Konvertierung HTML → XHTML ! HTML-Dokumente im Web enthalten sehr viel
fehlerhaftes Markup " Erschwert maschinelle Verarbeitung erheblich
! XHTML: Neuformlierung von HTML mit XML " XHTML-Dokumente sind auch XML-Dokumente
! Wohlgeformte XHTML-Dokumente können mit XML-Werkzeugen verarbeitet werden:
" XML Parser, XPath, DOM, XSLT etc. ! Konvertierung erfolgt mit gepatchtem Tidy und dem
Perl-Modul HTML::TreeBuilder ! Test mit 10.000 Dokumenten:
" Konvertierung in 98,7% aller Fälle erfolgreich • Bis auf 5 der 9872 automatisch erzeugten XML-Dokumente
sind alle von einem (nicht validierenden) XML-Parser ohne Fehlermeldung prozessierbar
Georg Rehm TaCoS 2003
Strukturanalyse ! Perl-Skript (work in progress), benutzt das Modul
XML::LibXML, also DOM Level 2 und XPath " DOM: Document Object Model, ermöglicht baum-basierte
Verarbeitung von XML-Instanzen
DOM-Struktur einer XML-Instanz erheblich gekürzt und abstrahiert
Georg Rehm TaCoS 2003
Strukturanalyse ! Perl-Skript (work in progress), benutzt das Modul
XML::LibXML, also DOM Level 2 und XPath " DOM: Document Object Model, ermöglicht baum-basierte
Verarbeitung von XML-Instanzen ! Verschachtelte rekursive Funktionen beginnen beim
Wurzelelement des Dokumens (<html>): " Berechnung verschiedener Merkmale einzelner Teilbäume,
der in ihnen enthaltenen Teilbäume etc.: • Anzahl Kindelemente, Anteil Elemente/Attribute, Anzahl Wörter • Hyperlink-Analyse (external, samedomain, internal) • Analyse von eingebetteten Graphiken
– Ermittlung der Abmessungen der Graphiken – Erkennung von Werbebannern – Erkennung horizontaler Separatoren
• Analyse von Listen-Strukturen • ...
Georg Rehm TaCoS 2003
Strukturanalyse ! Die Analyse-Heuristiken legen ihre Resultate unmittelbar
in dem XHTML-Dokument ab: " Deklaration eines eigenen Namespace (hypnotic:) im
Wurzelelement (Default bleibt jedoch XHTML 1.0) • Namespace → Analyse-DTD der Systemarchitektur
" Elemente: Makrostrukturelle Analyseresultate " Attribute: Teilbaum- und Element-bezogene Analyseresultate " Ermöglicht: Meta-Ansicht bzw. Dokument-Partitionierung " Beispiel:
• Horizontale Linien sind eigentlich durch <hr> zu realisieren • Häufig werden hierfür auch Graphiken benutzt • Strukturanalyse markiert:
<img src="..." hypnotic:TagGroup="separator"> " Vergrößert ein Dokument derzeit um den Faktor 20
! Bislang erst Spitze des Eisberges implementiert – sehr viele Funktionen stehen noch aus
Georg Rehm TaCoS 2003
Informationsextraktion ! Wrapping: Mittlerweile triviale Anwendung
" Informationsextraktion aus genau einem HTML-Dokument-Typ
! Hypnotic verfolgt: " Hypertextsorten-getriebene Informationsextraktion " Kann für einige HTS-Module auf der bloßen
Strukturanalyse basieren: • Definition des Moduls: „Interessante Links�
– Listenartige Präsentation von mindestens zwei externen Hyperlinks
– Evtl. flankiert von kurzer Erläuterung des Link-Ziels – Mindestens ein Hyperlink pro logischem Abschnitt
der Liste
Georg Rehm TaCoS 2003
Informationsextraktion ! Definition ist unmittelbar in XPath-Ausdruck überführbar:
//* [@hypnotic:TagGroup="list"] [@hypnotic:NumberOfListItems > 1] [@hypnotic:TotalLinkCount >= number(@hypnotic:NumberOfListItems)] [//* [@hypnotic:LinkType]] [(not(.//*[ @hypnotic:LinkType and @hypnotic:LinkType != "external"]))]
! Finde alle Knoten: " Die vom Typ „Liste� sind, " mehr als ein List-Item enthalten, " ausschließlich externe Hyperlinks beinhalten und " mindestens so viele externe Hyperlinks wie List-Items umfassen.
! Falls alle Prädikate wahr sind, kann der Kontext-Knoten als hypnotic:WebGenreModule="Interesting Links" analysiert werden
Aber:
Dieses Element bezieht sich nun nicht mehr auf die Analyse-DTD, sondern auf die XML Schema-Formalisierung einer Hypertextsorte!
Ausschnitt: XML-basierte Repräsen- tation der Informationen des Hyper-
textsorten-Moduls Kontaktinformation
!
Informationsextraktion
Georg Rehm TaCoS 2003
Ausblick ! Stichprobenauswertung (bottom-up) zur
Komplettierung der Hypertextsorten-Ontologie
! Entwicklung des XML-Repräsentationsformats für die Hypertextsorten-Ontologie
! Entwicklung des RDF-Repräsentationsformats für die Hypertextsorten-Modul-Ontologie
! Implementation des Klassifikationssystems
! Evaluation des Systems mit realen Such-Fragestellungen
Recommended