23
WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und Übersetzungsdatenbank aus der Wikipedia

WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

Embed Size (px)

Citation preview

Page 1: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 1

WikiWord

Daniel KinzlerAbteilung für automatische Sprachverarbeitung

Universität Leipzig

Extraktion einer Bedeutungs- und Übersetzungsdatenbank aus der

Wikipedia

Page 2: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 2

Idee

● Wikipedia als Grundlage● Eine Seite pro Konzept● Linktext–Linkziel ergibt

Term–Konzept-Beziehung● Kategorisierung (Hyperonyme)● Übersetzungslinks

Page 3: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 3

Vorgehen

● Extraktion der relevanten Beziehungen aus dem WikiText

● Übertragen in eine (sprachspezifische) Datenbank

● Zusammenführen der sprachspezifischen Datenbanken zu einem gemeinsamen Wörterbuch

Page 4: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 4

Sprachspezifische Datenbank

Page 5: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 5

Extraktion

● Typisierung der Seite („echte“ Artikel, Redirects, Begriffsklärungen, Listen)

● Typisierung des Konzepts● Linktext-Linkziel● Kategorien, Übersetzungen

Page 6: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 6

Extraktion - Seitentyp● Pattern-Matching auf Titel und Inhalt● Konventionen müssen bekannt sein

CPU

#REDIRECT [[Hauptprozessor]]

Wilhelm Busch (Begriffsklärung)

'''Wilhelm Busch''' ist der Name mehrerer Personen:...

Du bist Doof

{{löschen}}

disambig Redirect

Bad

Brücken von Venedig

...[[Kategorie:Liste (Bauwerk)]]

List

Page 7: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 7

Extraktion - Konzept-Typ● Wohldefinierte kleine Menge von

Typen● u.U. nicht übersetzbar

Leipzig

...[[Kategorie:Ort in Sachsen]]

Wilhelm Busch

{{Personendaten| NAME=Busch, Wilhelm|ALTERNATIVNAMEN=...

person

1960er

...[[Kategorie:Jahrzehnt]]

Time

Place

Drosseln

{| class="taxobox"! Drosseln...

lifeform

Page 8: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 8

Extraktion - Kategorie/DomainProzess (Informatik)

Als '''Prozess''' wird in der Informatik der Ablauf eines [[Computerprogramm|Programms]] bezeichnet. Zum Ablauf ist das Speicherabbild des Programms, Speicher für die Daten, vom...

[[Kategorie:Betriebssystemtheorie]]

[[da:Proces]][[en:Process (computing)]]

Concepts

Category

Definitions

Page 9: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 9

Extraktion - BedeutungenProzess (Informatik)

Als '''Prozess''' wird in der Informatik der Ablauf eines [[Computerprogramm|Programms]] bezeichnet. Zum Ablauf ist das Speicherabbild des Programms, Speicher für die Daten, vom...

[[Kategorie:Betriebssystemtheorie]]

[[da:Proces]][[en:Process (computing)]]

Concepts meaning Terms

links

Page 10: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 10

Extraktion - ÜbersetzungenProzess (Informatik)

Als '''Prozess''' wird in der Informatik der Ablauf eines [[Computerprogramm|Programms]] bezeichnet. Zum Ablauf ist das Speicherabbild des Programms, Speicher für die Daten, vom...

[[Kategorie:Betriebssystemtheorie]]

[[da:Proces]][[en:Process (computing)]]

Concepts TranslationForeignconcepts

Page 11: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 11

Probleme● Granularität – manche Konzepte

fehlen● Links zeigen auf allgemeinere

Konzepte● Betrifft „normale“ Links,

Übersetzungen und Redirects (Aliase)● Finden und Zusammenfassen

äquivalenter Konzepte aus verschiedenen Sprachen.

Page 12: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 12

WikiWord Online

Page 13: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 13

Übersetzungen finden

● Idee: Konzepte in verschiedenen Sprachen, die „ähnliche“ Übersetzungen haben, sind vermutlich äquivalent.

● Betrachte also Kollokationen bezüglich der Übersetzungsrelation

● Bilde Cluster bezüglich dieser Kollokation.● Beschränke Suche auf „benachbarte“ Konzepte

Page 14: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 14

Meta-Wörterbuch

Page 15: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 15

Clustering - Vorbereitung

● Importiere Concept-Records aus den Sprach-Datenbanken, lege zu jedem Concept einen Meaning-Eintrag an.

● Löse „Redirects“ (Aliase) auf● Kopiere Translation-Records, lege zusätzlich für

jedes Meaning eine Selbstreferenz an● Ordne jedem Meaning seine „Nachbarn“

(Vereinigungskandidaten) zu

Page 16: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 16

Clustering - Nachbarn

● Nachbarn eines Meanings M sind:● Meanings, die Ziel einer M

zugeordneten Übersetzung sind (direkte Nachbarn)

● Meanings, die ein Übersetzungsziel mit M gemeinsam haben (indirekte Nachbarn)

● Meanings aus der selben Sprache können nicht benachbart sein

NM

fr deen

NM

fr defi

fr da

Page 17: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 17

Clustering - Ablauf

● Für jedes Meaning M, bestimme alle Übersetzungen T(M) und alle Nachbarn N(M)

● Für jeden Nachbarn Ni, bestimme anhand seiner Übersetzungen T(Ni) die Ähnlichkeit zu Ms(M,Ni)

● Vereinige M mit dem ähnlichsten Ni, falls die Ähnlichkeit über einem Schwellwert k liegt.

● Wiederhole, bis keine Änderungen mehr eintreten.

Page 18: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 18

Clustering - Ähnlichkeit

● Die „Ähnlichkeit“ zweier Meanings ergibt sich daraus, wie sehr sich ihre Übersetzungen überlappen

● Der Ähnlichkeitswert ist die Größe der Schnittmenge von T(M) und T(N), geteilt durch die Größe der kleineren der beiden Übersetzungsmengen. In Zeichen:

s M,NT M T N

min T M , T N

Page 19: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 19

Clustering - Nachbereitung

● Alle Paare von Meanings M und N, die jeweils das andere Meaning als Übersetzung haben, werden vereinigt.

● Import von Termen, Definitionen und der Hyponym-Relation aus den Sprach-Datenbanken.

Page 20: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 20

Mögliche Anfragen

● Alle Terme (Wörter) für ein Meaning (Bedeutung) – also Synonyme, Wortformen und Übersetzungen

● Alle Bedeutungen für einen Term (Wort einer gegebenen Sprache) - Homonyme

● Definitionen einer Bedeutung in verschiedenen Sprachen

● Übersetzungen eines Wortes aus einer Sprache in eine andere, unter Berücksichtigung aller Bedeutungen

● Über- bzw. untergeordnete Meanings, also Hypero- bzw. Hyponyme

● Evtl. auch Homonym-Auflösung nach Kontext

Page 21: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 21

Projektstatus

● Analyse von Wikitext und Aufbau der sprachspezifischen Datenbanken funktioniert

● Anfragen an diese Datenbasis liefern bereits brauchbare Ergebnisse

● Clustering funktioniert im Prinzip, muss aber noch optimiert werden

● Kollokationsanalyse auf der Linkstruktur wäre hilfreich, ist aber recht aufwändig.

Page 22: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 22

Verfügbare Daten

● http://aspra27.informatik.uni-leipzig.de/~dkinzler/WikiSense/WikiWord.php● http://wortschatz.uni-leipzig.de/snipsnap/space/WikiWord● http://brightbyte.de/papers/WikiWord.pdf

Wörter Konzepte DefinitionenEnglisch 4 562 159 4 138 498 874 814Deutsch 1 763 898 1 384 627 321 334Französisch 1 292 257 1 124 944 226 144Niederländisch 696 322 611 153 123 369Norwegisch 291 434 247 258 47 516

Page 23: WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und

WikiWord – Daniel Kinzler - 23

WikiWord

Ende