Upload
amalrich-radmer
View
106
Download
1
Embed Size (px)
Citation preview
WikiWord – Daniel Kinzler - 1
WikiWord
Daniel KinzlerAbteilung für automatische Sprachverarbeitung
Universität Leipzig
Extraktion einer Bedeutungs- und Übersetzungsdatenbank aus der
Wikipedia
WikiWord – Daniel Kinzler - 2
Idee
● Wikipedia als Grundlage● Eine Seite pro Konzept● Linktext–Linkziel ergibt
Term–Konzept-Beziehung● Kategorisierung (Hyperonyme)● Übersetzungslinks
WikiWord – Daniel Kinzler - 3
Vorgehen
● Extraktion der relevanten Beziehungen aus dem WikiText
● Übertragen in eine (sprachspezifische) Datenbank
● Zusammenführen der sprachspezifischen Datenbanken zu einem gemeinsamen Wörterbuch
WikiWord – Daniel Kinzler - 4
Sprachspezifische Datenbank
WikiWord – Daniel Kinzler - 5
Extraktion
● Typisierung der Seite („echte“ Artikel, Redirects, Begriffsklärungen, Listen)
● Typisierung des Konzepts● Linktext-Linkziel● Kategorien, Übersetzungen
WikiWord – Daniel Kinzler - 6
Extraktion - Seitentyp● Pattern-Matching auf Titel und Inhalt● Konventionen müssen bekannt sein
CPU
#REDIRECT [[Hauptprozessor]]
Wilhelm Busch (Begriffsklärung)
'''Wilhelm Busch''' ist der Name mehrerer Personen:...
Du bist Doof
{{löschen}}
disambig Redirect
Bad
Brücken von Venedig
...[[Kategorie:Liste (Bauwerk)]]
List
WikiWord – Daniel Kinzler - 7
Extraktion - Konzept-Typ● Wohldefinierte kleine Menge von
Typen● u.U. nicht übersetzbar
Leipzig
...[[Kategorie:Ort in Sachsen]]
Wilhelm Busch
{{Personendaten| NAME=Busch, Wilhelm|ALTERNATIVNAMEN=...
person
1960er
...[[Kategorie:Jahrzehnt]]
Time
Place
Drosseln
{| class="taxobox"! Drosseln...
lifeform
WikiWord – Daniel Kinzler - 8
Extraktion - Kategorie/DomainProzess (Informatik)
Als '''Prozess''' wird in der Informatik der Ablauf eines [[Computerprogramm|Programms]] bezeichnet. Zum Ablauf ist das Speicherabbild des Programms, Speicher für die Daten, vom...
[[Kategorie:Betriebssystemtheorie]]
[[da:Proces]][[en:Process (computing)]]
Concepts
Category
Definitions
WikiWord – Daniel Kinzler - 9
Extraktion - BedeutungenProzess (Informatik)
Als '''Prozess''' wird in der Informatik der Ablauf eines [[Computerprogramm|Programms]] bezeichnet. Zum Ablauf ist das Speicherabbild des Programms, Speicher für die Daten, vom...
[[Kategorie:Betriebssystemtheorie]]
[[da:Proces]][[en:Process (computing)]]
Concepts meaning Terms
links
WikiWord – Daniel Kinzler - 10
Extraktion - ÜbersetzungenProzess (Informatik)
Als '''Prozess''' wird in der Informatik der Ablauf eines [[Computerprogramm|Programms]] bezeichnet. Zum Ablauf ist das Speicherabbild des Programms, Speicher für die Daten, vom...
[[Kategorie:Betriebssystemtheorie]]
[[da:Proces]][[en:Process (computing)]]
Concepts TranslationForeignconcepts
WikiWord – Daniel Kinzler - 11
Probleme● Granularität – manche Konzepte
fehlen● Links zeigen auf allgemeinere
Konzepte● Betrifft „normale“ Links,
Übersetzungen und Redirects (Aliase)● Finden und Zusammenfassen
äquivalenter Konzepte aus verschiedenen Sprachen.
WikiWord – Daniel Kinzler - 12
WikiWord Online
WikiWord – Daniel Kinzler - 13
Übersetzungen finden
● Idee: Konzepte in verschiedenen Sprachen, die „ähnliche“ Übersetzungen haben, sind vermutlich äquivalent.
● Betrachte also Kollokationen bezüglich der Übersetzungsrelation
● Bilde Cluster bezüglich dieser Kollokation.● Beschränke Suche auf „benachbarte“ Konzepte
WikiWord – Daniel Kinzler - 14
Meta-Wörterbuch
WikiWord – Daniel Kinzler - 15
Clustering - Vorbereitung
● Importiere Concept-Records aus den Sprach-Datenbanken, lege zu jedem Concept einen Meaning-Eintrag an.
● Löse „Redirects“ (Aliase) auf● Kopiere Translation-Records, lege zusätzlich für
jedes Meaning eine Selbstreferenz an● Ordne jedem Meaning seine „Nachbarn“
(Vereinigungskandidaten) zu
WikiWord – Daniel Kinzler - 16
Clustering - Nachbarn
● Nachbarn eines Meanings M sind:● Meanings, die Ziel einer M
zugeordneten Übersetzung sind (direkte Nachbarn)
● Meanings, die ein Übersetzungsziel mit M gemeinsam haben (indirekte Nachbarn)
● Meanings aus der selben Sprache können nicht benachbart sein
NM
fr deen
NM
fr defi
fr da
WikiWord – Daniel Kinzler - 17
Clustering - Ablauf
● Für jedes Meaning M, bestimme alle Übersetzungen T(M) und alle Nachbarn N(M)
● Für jeden Nachbarn Ni, bestimme anhand seiner Übersetzungen T(Ni) die Ähnlichkeit zu Ms(M,Ni)
● Vereinige M mit dem ähnlichsten Ni, falls die Ähnlichkeit über einem Schwellwert k liegt.
● Wiederhole, bis keine Änderungen mehr eintreten.
WikiWord – Daniel Kinzler - 18
Clustering - Ähnlichkeit
● Die „Ähnlichkeit“ zweier Meanings ergibt sich daraus, wie sehr sich ihre Übersetzungen überlappen
● Der Ähnlichkeitswert ist die Größe der Schnittmenge von T(M) und T(N), geteilt durch die Größe der kleineren der beiden Übersetzungsmengen. In Zeichen:
s M,NT M T N
min T M , T N
WikiWord – Daniel Kinzler - 19
Clustering - Nachbereitung
● Alle Paare von Meanings M und N, die jeweils das andere Meaning als Übersetzung haben, werden vereinigt.
● Import von Termen, Definitionen und der Hyponym-Relation aus den Sprach-Datenbanken.
WikiWord – Daniel Kinzler - 20
Mögliche Anfragen
● Alle Terme (Wörter) für ein Meaning (Bedeutung) – also Synonyme, Wortformen und Übersetzungen
● Alle Bedeutungen für einen Term (Wort einer gegebenen Sprache) - Homonyme
● Definitionen einer Bedeutung in verschiedenen Sprachen
● Übersetzungen eines Wortes aus einer Sprache in eine andere, unter Berücksichtigung aller Bedeutungen
● Über- bzw. untergeordnete Meanings, also Hypero- bzw. Hyponyme
● Evtl. auch Homonym-Auflösung nach Kontext
WikiWord – Daniel Kinzler - 21
Projektstatus
● Analyse von Wikitext und Aufbau der sprachspezifischen Datenbanken funktioniert
● Anfragen an diese Datenbasis liefern bereits brauchbare Ergebnisse
● Clustering funktioniert im Prinzip, muss aber noch optimiert werden
● Kollokationsanalyse auf der Linkstruktur wäre hilfreich, ist aber recht aufwändig.
WikiWord – Daniel Kinzler - 22
Verfügbare Daten
● http://aspra27.informatik.uni-leipzig.de/~dkinzler/WikiSense/WikiWord.php● http://wortschatz.uni-leipzig.de/snipsnap/space/WikiWord● http://brightbyte.de/papers/WikiWord.pdf
Wörter Konzepte DefinitionenEnglisch 4 562 159 4 138 498 874 814Deutsch 1 763 898 1 384 627 321 334Französisch 1 292 257 1 124 944 226 144Niederländisch 696 322 611 153 123 369Norwegisch 291 434 247 258 47 516
WikiWord – Daniel Kinzler - 23
WikiWord
Ende