17
Präsentation von Bereni ke Loos am 17. Juni 200 2 TnT - Statistischer Part-of-Speech Tagger 2. Teil der Präsentation des TnT Taggers von Thorsten Brants

TnT - Statistischer Part-of-Speech Tagger

  • Upload
    chaney

  • View
    30

  • Download
    0

Embed Size (px)

DESCRIPTION

TnT - Statistischer Part-of-Speech Tagger. 2. Teil der Präsentation des TnT Taggers von Thorsten Brants. Gliederung. Installation und Beschreibung des Programms Erläuterungen zu Bestandteilen praktisches Beispiel mit Hilfe meiner GUI. Download von TnT. - PowerPoint PPT Presentation

Citation preview

Page 1: TnT - Statistischer Part-of-Speech Tagger

Präsentation von Berenike Loos am 17. Juni 2002

TnT - Statistischer Part-of-Speech Tagger

2. Teil der Präsentation des TnT Taggers von Thorsten

Brants

Page 2: TnT - Statistischer Part-of-Speech Tagger

Präsentation von Berenike Loos am 17. Juni 2002

Gliederung

1. Installation und Beschreibung des Programms

2. Erläuterungen zu Bestandteilen

3. praktisches Beispiel mit Hilfe meiner GUI

Page 3: TnT - Statistischer Part-of-Speech Tagger

Präsentation von Berenike Loos am 17. Juni 2002

Download von TnT

Download des TnT Taggers nach Registrierung möglich. Weitere Informationen: http://www.coli.uni-sb.de/~thorsten/tnt/

Page 4: TnT - Statistischer Part-of-Speech Tagger

Präsentation von Berenike Loos am 17. Juni 2002

Installationshinweise für Windows

in dem mitgelieferten Manual gibt es noch keine Installationshinweise für Windows

deshalb sind die ersten Schritte unter Windows auf der folgenden Seite beschrieben

Page 5: TnT - Statistischer Part-of-Speech Tagger

Präsentation von Berenike Loos am 17. Juni 2002

Installation von TnT unter Windows Es handelt sich um ein

Kommandozeilenprogramm, also müssen die einzelnen *.exe Dateien über die DOS Eingabeaufforderung aufgerufen werden

damit TnT von jedem Verzeichnis aus gestartet werden kann: Start → Ausführen... → Öffnen: Sysedit → in autoexec.bat eintragen:Set PATH=C:\tnt Set VAR=C:\TNT\MODELS

Page 6: TnT - Statistischer Part-of-Speech Tagger

Präsentation von Berenike Loos am 17. Juni 2002

Bestandteile des TnT Taggers tnt-para.exe für die Erstellung neuer Modelle tnt.exe zum Taggen tnt-diff.exe zum Vergleichen zweier getaggter

Dateien tnt-wc.exe zum Zählen von Wörtern und

Tags Ordner mit Modellen trainiert am Negra-

Korpus (deutsch), WSJ-Korpus und Susanne-Korpus (englisch)

Manual

Page 7: TnT - Statistischer Part-of-Speech Tagger

Präsentation von Berenike Loos am 17. Juni 2002

Erläuterungen: 1. Modell (tnt-para.exe)

Ein Modell bietet Kriterien, anhand derer der Tagger Entscheidungen trifft

Vorbild für ein Modell ist eine getaggte Datei Jedes Modell wird in zwei Dateien gespeichert:

• Datei, die lexikalische Häufigkeiten repräsentiert, Endung *.lex

• Datei, die kontextuelle Häufigkeiten repräsentiert, Endung *.123

Page 8: TnT - Statistischer Part-of-Speech Tagger

Präsentation von Berenike Loos am 17. Juni 2002

Erläuterungen: 2. ungetaggte Datei (tnt.exe)

Dateiendung *.t Vor Kommentaren steht %% Nur ein Wort pro Zeile Jedes weitere Wort, das durch

Leerzeichen abgetrennt ist, wird ignoriert

Page 9: TnT - Statistischer Part-of-Speech Tagger

Präsentation von Berenike Loos am 17. Juni 2002

Erläuterungen: 3. getaggte Datei (tnt.exe und tnt-para.exe)

Dateiendung *.tt Vor Kommentaren steht %% Jede Zeile enthält ein Wort und

dazugehörigen Tag durch Leerzeichen getrennt

Jedes weitere Wort, das durch Leerzeichen abgetrennt ist, wird ignoriert

Page 10: TnT - Statistischer Part-of-Speech Tagger

Präsentation von Berenike Loos am 17. Juni 2002

Erläuterungen: 4. Vergleich (tnt-diff.exe) Zwei getaggte Dateien, die auf der selben

ungetaggten Datei basieren, können verglichen werden

Möglichkeit zum Vergleich:• eine Datei mit bestehendem Modell getaggtund• eine Datei mit neuem Modell oder • eine Datei von Hand getaggt

Page 11: TnT - Statistischer Part-of-Speech Tagger

Präsentation von Berenike Loos am 17. Juni 2002

Vorgang des Taggens mit dem Modell trainiert am Negra-Korpus

Modell

negra.tntTrainings-

korpus

negra.123

negra.lex +neu.t

Testkorpus = neu.tt

Page 12: TnT - Statistischer Part-of-Speech Tagger

Präsentation von Berenike Loos am 17. Juni 2002

Vorgang des Taggens mit Modell an neuem Korpus trainiert

neues Modell

neu.tt(von Hand bearbeitet)Trainings-

korpus

neu.123

neu.lex +text.t

Testkorpus = text.tt

Page 13: TnT - Statistischer Part-of-Speech Tagger

Präsentation von Berenike Loos am 17. Juni 2002

Entwicklung einer GUI für den TnT Tagger

Vereinfachung der Bedienung: zeilenweise Texteingabe möglich, da

Zeilenumbrüche automatisch nach jedem Wort eingefügt werden

automatische Erstellung neuer Dateinamen

Überprüfung, ob Dateiname schon vorhanden

Page 14: TnT - Statistischer Part-of-Speech Tagger

Präsentation von Berenike Loos am 17. Juni 2002

GUI entwickelt für den TnT Tagger

Page 15: TnT - Statistischer Part-of-Speech Tagger

Präsentation von Berenike Loos am 17. Juni 2002

GUI entwickelt für den TnT Tagger

Page 16: TnT - Statistischer Part-of-Speech Tagger

Präsentation von Berenike Loos am 17. Juni 2002

Literatur & Links

T. Brants. TnT - A Statistical Part-of-Speech Tagger. Proceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000, Seattle, WA, 2000.

TnT Tagger: http://www.coli.uni-sb.de/~thorsten/tnt/

Tagset des Deutschen: http://www.ifi.unizh.ch/CL/tagger/UIS-STTS-Diffs.html

Page 17: TnT - Statistischer Part-of-Speech Tagger

Präsentation von Berenike Loos am 17. Juni 2002

Folien unter: www.berenike.de

Infos und Vorschläge an: [email protected]