Upload
chaney
View
30
Download
0
Embed Size (px)
DESCRIPTION
TnT - Statistischer Part-of-Speech Tagger. 2. Teil der Präsentation des TnT Taggers von Thorsten Brants. Gliederung. Installation und Beschreibung des Programms Erläuterungen zu Bestandteilen praktisches Beispiel mit Hilfe meiner GUI. Download von TnT. - PowerPoint PPT Presentation
Citation preview
Präsentation von Berenike Loos am 17. Juni 2002
TnT - Statistischer Part-of-Speech Tagger
2. Teil der Präsentation des TnT Taggers von Thorsten
Brants
Präsentation von Berenike Loos am 17. Juni 2002
Gliederung
1. Installation und Beschreibung des Programms
2. Erläuterungen zu Bestandteilen
3. praktisches Beispiel mit Hilfe meiner GUI
Präsentation von Berenike Loos am 17. Juni 2002
Download von TnT
Download des TnT Taggers nach Registrierung möglich. Weitere Informationen: http://www.coli.uni-sb.de/~thorsten/tnt/
Präsentation von Berenike Loos am 17. Juni 2002
Installationshinweise für Windows
in dem mitgelieferten Manual gibt es noch keine Installationshinweise für Windows
deshalb sind die ersten Schritte unter Windows auf der folgenden Seite beschrieben
Präsentation von Berenike Loos am 17. Juni 2002
Installation von TnT unter Windows Es handelt sich um ein
Kommandozeilenprogramm, also müssen die einzelnen *.exe Dateien über die DOS Eingabeaufforderung aufgerufen werden
damit TnT von jedem Verzeichnis aus gestartet werden kann: Start → Ausführen... → Öffnen: Sysedit → in autoexec.bat eintragen:Set PATH=C:\tnt Set VAR=C:\TNT\MODELS
Präsentation von Berenike Loos am 17. Juni 2002
Bestandteile des TnT Taggers tnt-para.exe für die Erstellung neuer Modelle tnt.exe zum Taggen tnt-diff.exe zum Vergleichen zweier getaggter
Dateien tnt-wc.exe zum Zählen von Wörtern und
Tags Ordner mit Modellen trainiert am Negra-
Korpus (deutsch), WSJ-Korpus und Susanne-Korpus (englisch)
Manual
Präsentation von Berenike Loos am 17. Juni 2002
Erläuterungen: 1. Modell (tnt-para.exe)
Ein Modell bietet Kriterien, anhand derer der Tagger Entscheidungen trifft
Vorbild für ein Modell ist eine getaggte Datei Jedes Modell wird in zwei Dateien gespeichert:
• Datei, die lexikalische Häufigkeiten repräsentiert, Endung *.lex
• Datei, die kontextuelle Häufigkeiten repräsentiert, Endung *.123
Präsentation von Berenike Loos am 17. Juni 2002
Erläuterungen: 2. ungetaggte Datei (tnt.exe)
Dateiendung *.t Vor Kommentaren steht %% Nur ein Wort pro Zeile Jedes weitere Wort, das durch
Leerzeichen abgetrennt ist, wird ignoriert
Präsentation von Berenike Loos am 17. Juni 2002
Erläuterungen: 3. getaggte Datei (tnt.exe und tnt-para.exe)
Dateiendung *.tt Vor Kommentaren steht %% Jede Zeile enthält ein Wort und
dazugehörigen Tag durch Leerzeichen getrennt
Jedes weitere Wort, das durch Leerzeichen abgetrennt ist, wird ignoriert
Präsentation von Berenike Loos am 17. Juni 2002
Erläuterungen: 4. Vergleich (tnt-diff.exe) Zwei getaggte Dateien, die auf der selben
ungetaggten Datei basieren, können verglichen werden
Möglichkeit zum Vergleich:• eine Datei mit bestehendem Modell getaggtund• eine Datei mit neuem Modell oder • eine Datei von Hand getaggt
Präsentation von Berenike Loos am 17. Juni 2002
Vorgang des Taggens mit dem Modell trainiert am Negra-Korpus
Modell
negra.tntTrainings-
korpus
negra.123
negra.lex +neu.t
Testkorpus = neu.tt
Präsentation von Berenike Loos am 17. Juni 2002
Vorgang des Taggens mit Modell an neuem Korpus trainiert
neues Modell
neu.tt(von Hand bearbeitet)Trainings-
korpus
neu.123
neu.lex +text.t
Testkorpus = text.tt
Präsentation von Berenike Loos am 17. Juni 2002
Entwicklung einer GUI für den TnT Tagger
Vereinfachung der Bedienung: zeilenweise Texteingabe möglich, da
Zeilenumbrüche automatisch nach jedem Wort eingefügt werden
automatische Erstellung neuer Dateinamen
Überprüfung, ob Dateiname schon vorhanden
Präsentation von Berenike Loos am 17. Juni 2002
GUI entwickelt für den TnT Tagger
Präsentation von Berenike Loos am 17. Juni 2002
GUI entwickelt für den TnT Tagger
Präsentation von Berenike Loos am 17. Juni 2002
Literatur & Links
T. Brants. TnT - A Statistical Part-of-Speech Tagger. Proceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000, Seattle, WA, 2000.
TnT Tagger: http://www.coli.uni-sb.de/~thorsten/tnt/
Tagset des Deutschen: http://www.ifi.unizh.ch/CL/tagger/UIS-STTS-Diffs.html
Präsentation von Berenike Loos am 17. Juni 2002
Folien unter: www.berenike.de
Infos und Vorschläge an: [email protected]