48
WiSe 2010/11 1 IASK: Computerlinguistik Zusätzliche Lehrveranstaltungen und weitere Informationen werden durch Aushang am schwarzen Brett in INF 325, 1. Stock und auf unseren Internetseiten bekanntgegeben. Fachstudienberater: Matthias Hartung , Do 16:00-17:30 Uhr, Zi. 122, 06221-543634 Vorbereitungskurse Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 Mo; Einzel; 10:15 - 16:45; 11.10.2010 - 11.10.2010; INF 306 / SR 14; Simianer, P. Di; Einzel; 10:15 - 16:45; 12.10.2010 - 12.10.2010; INF 327 / SR 20; Simianer, P. Block; 10:15 - 16:45; 13.10.2010 - 15.10.2010; INF 328 / SR 17; Simianer, P. Inhalt Der Mathematische Vorkurs dient vor allem einer Vorbereitung auf die Vorlesung "Statistical Methods for Computational Linguistics", steht aber auch anderen Studierenden offen. Themenbereiche des Kurses sind: * mathematische Grundbegriffe * Induktion * Grundbegriffe der Statistik und Wahrscheinlichkeitstheorie * Vektorräume * Matrizen-Rechnung * Ableitungen Leistungsnachweis keine Leistungsbewertung Voraussetzung Keine. Bei zu großer Teilnehmerzahl werden Studierende, die die Vorlesung "Statistical Methods for Computational Linguistics" besuchen wollen, bevorzugt Literatur Vorkurs-Niveau: * Kemnitz: Mathematik zum Studienbeginn . Vieweg+Teubner, 2006. Weiterführend: * Jede Einführung in die Lineare Algebra * Jede Einführung in Statistik und Wahrscheinlichkeitstheorie Einführung in die Nutzung computerlinguistischer Ressourcen Ü; Nr.: 09-160-00-02; SWS: 2 Block; 10:00 - 13:00; 05.10.2010 - 08.10.2010; INF 325 / PCPool; Reiter, N. Block; 14:00 - 17:00; 05.10.2010 - 08.10.2010; INF 325 / PCPool; Reiter, N. Kommentar * begrenzte Teilnehmerzahl * ggf. Vorzug für Teilnehmer/-innen am Softwareprojekt. Inhalt Der Vorkurs vermittelt Grundlagen der Nutzung von Linux-basierten computerlinguistischen Tools und Korpora. Dabei geht es sowohl um allgemeine Linux-Grundlagen (wie z.B. Ein-/Ausgabeumleitung oder nützliche Tools der Linux-Kommandozeile) als auch um einzelne Parser, Tagger, Chunker und andere Hilfstools der Computerlinguistik. Wir werden uns anschauen, wie bestimmte Tools zu benutzen sind, was man aus ihnen herausbekommt (und was nicht) und wie man solche Ausgaben automatisch weiterverarbeiten kann (und zum Beispiel an das nächste Tool weiterverfüttert). Der Kurs beinhaltet Übungen - Wenn es nicht genug Arbeitsplätze für alle gibt, werden Teilnehmer/-innen am Softwareprojekt vorgezogen. Leistungsnachweis Ungeprüft, unbenoteter Schein

Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 1

IASK: Computerlinguistik

Zusätzliche Lehrveranstaltungen und weitere Informationen werden durch Aushang am schwarzen Brett in INF 325,1. Stock und auf unseren Internetseiten bekanntgegeben.

Fachstudienberater: Matthias Hartung , Do 16:00-17:30 Uhr, Zi. 122, 06221-543634

VorbereitungskurseMathematischer Vorkurs

Ü; Nr.: 09-160-00-01; SWS: 2

Mo; Einzel; 10:15 - 16:45; 11.10.2010 - 11.10.2010; INF 306 / SR 14; Simianer, P.

Di; Einzel; 10:15 - 16:45; 12.10.2010 - 12.10.2010; INF 327 / SR 20; Simianer, P.

Block; 10:15 - 16:45; 13.10.2010 - 15.10.2010; INF 328 / SR 17; Simianer, P.

Inhalt Der Mathematische Vorkurs dient vor allem einer Vorbereitung auf die Vorlesung"Statistical Methods for Computational Linguistics", steht aber auch anderenStudierenden offen. Themenbereiche des Kurses sind:

* mathematische Grundbegriffe

* Induktion

* Grundbegriffe der Statistik und Wahrscheinlichkeitstheorie

* Vektorräume

* Matrizen-Rechnung

* AbleitungenLeistungsnachweis keine LeistungsbewertungVoraussetzung Keine. Bei zu großer Teilnehmerzahl werden Studierende, die die Vorlesung "Statistical

Methods for Computational Linguistics" besuchen wollen, bevorzugtLiteratur Vorkurs-Niveau:

* Kemnitz: Mathematik zum Studienbeginn . Vieweg+Teubner, 2006.

Weiterführend:

* Jede Einführung in die Lineare Algebra

* Jede Einführung in Statistik und Wahrscheinlichkeitstheorie Einführung in die Nutzung computerlinguistischer Ressourcen

Ü; Nr.: 09-160-00-02; SWS: 2

Block; 10:00 - 13:00; 05.10.2010 - 08.10.2010; INF 325 / PCPool; Reiter, N.

Block; 14:00 - 17:00; 05.10.2010 - 08.10.2010; INF 325 / PCPool; Reiter, N.

Kommentar * begrenzte Teilnehmerzahl* ggf. Vorzug für Teilnehmer/-innen am Softwareprojekt.

Inhalt Der Vorkurs vermittelt Grundlagen der Nutzung von Linux-basiertencomputerlinguistischen Tools und Korpora. Dabei geht es sowohl um allgemeineLinux-Grundlagen (wie z.B. Ein-/Ausgabeumleitung oder nützliche Tools derLinux-Kommandozeile) als auch um einzelne Parser, Tagger, Chunker und andereHilfstools der Computerlinguistik.

Wir werden uns anschauen, wie bestimmte Tools zu benutzen sind, was man ausihnen herausbekommt (und was nicht) und wie man solche Ausgaben automatischweiterverarbeiten kann (und zum Beispiel an das nächste Tool weiterverfüttert).

Der Kurs beinhaltet Übungen - Wenn es nicht genug Arbeitsplätze für alle gibt, werden Teilnehmer/-innen am Softwareprojekt vorgezogen.

Leistungsnachweis Ungeprüft, unbenoteter Schein

Page 2: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 2

Voraussetzung Programmierprüfung Einführung in wissenschaftliches Schreiben

Ü; Nr.: 09-160-00-03

Di; Einzel; 09:15 - 10:45; 19.10.2010 - 19.10.2010;

Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird esum technische und nicht-technische Fähigkeiten gehen, die man als Computerlinguistzum Verfassen wissenschaftlicher Arbeiten, wie z. B. Seminar- oder Abschlussarbeiten,braucht. Dazu werden wir uns zum einen mit dem Textsatzsystem TeX/LaTeXbeschäftigen, zum anderen mit dem kompletten Zyklus wissenschaftlichen Arbeitens,vom Recherchieren bis zum Schreiben und Strukturieren von wissenschaftlichenTexten. Im Rahmen einer Übung wird es Gelegenheit geben, das Gelernte praktischanzuwenden.

Voraussetzung Keine Voraussetzungen

Bachelor (alte Prüfungsordnung)Einführung in die Computerlinguistik - ICL, B01

V/Ü; Nr.: 09-160-01-01; SWS: 4; LP: 6

Di; wöch; 11:15 - 12:45; ab 19.10.2010; INF 350 / OMZ R U013; Frank, A.

Do; wöch; 11:15 - 12:45; ab 21.10.2010; INF 350 / OMZ R U013; Frank, A.

Kommentar Leistungsbewertung:

BA-2010 (ICL): 6 LP

NBA (ICL): 6 LP

ABA (B01): 6 LPInhalt Die Vorlesung führt ein in die Grundlagen, zentralen Fragestellungen und Methoden

der Computerlinguistik. In einem Gesamtüberblick werden die wesentlichenGrundlagen der Computerlinguistik eingeführt:

* Ebenen der Sprachbeschreibung (Phonologie, Morphologie, Syntax, Semantik,Pragmatik),

* formale mathematische und logische Modelle zur Beschreibung der entsprechendenlinguistischen Phänomene und

* algorithmische Verfahren zur automatischen Verarbeitung auf Basis dieser Modelle.

Dabei nähern wir uns speziellen Problemen und Fragestellungen derComputerlinguistik und ihren spezifischen Lösungsstrategien. Spezielle Themenwerden sein: Ambiguitätsbehandlung, Approximierung sprachlicher Regularitäten,syntaktische und semantische Verarbeitung.

Die Vorlesung gibt einen Überblick über computerlinguistische Anwendungen, diskutiertdas Verhältnis zu Nachbardisziplinen, und führt durch praktische Übungen in diespeziellen Fragestellungen einzelner Teilgebiete der Computerlinguistik ein.

Leistungsnachweis * Erfolgreiche Bearbeitung der Übungsaufgaben

* Erfolgreich bestandene Klausur* Aktive Teilnahme

Regelmäßige Präsenz ist Voraussetzung für den Scheinerwerb.

Die erfolgreich bestandene Klausur ist Teil der Orientierungsprüfung.Literatur * Daniel Jurafsky and James H. Martin (2009): Speech and Language Processing. An

Introduction to Natural Language Processing, Computational Linguistics, and SpeechRecognition. Prentice Hall Series in Artificial Intelligence. Prentice Hall.

Page 3: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 3

* Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, RalfKlabunde, Hagen Langer (Hrsg.) (2004): Computerlinguistik und Sprachtechnologie.Eine Einführung. Heidelberg: Spektrum, Akademischer Verlag.

* Natural Language Toolkit, NLTK: http://www.nltk.org/book Logische Grundlagen für die Computerlinguistik - FF-L, B11

V/Ü; Nr.: 09-160-02-02; SWS: 2

Mo; 14täg.; 09:15 - 12:45; ab 18.10.2010; INF 325 / SR 7; Herweg, M.

Kommentar Leistungsbewertung:

BA-2010 (FF-L): 6 LP

NBA (FF-L): 6 LP

ABA (B11): 4 LP

ÜK: 2 LPInhalt Fundierte Logikkenntnisse sind unverzichtbar für Anwendungen in der

Computerlinguistik und theoretischen Linguistik. Dies gilt für die gängigenBeschreibungsformate in nahezu allen (computer-)linguistischen Teildisziplinen(Syntax, Semantik, Morphologie, Phonologie, ...) ebenso wie für sprachtechnologischeImplementierungen. Der Kurs bietet eine Einführung in die Logik und legt dabeibesonderen Wert auf die praktische Einübung grundlegender logischer Methoden undTechniken. Behandelt werden, nach einer Auffrischung grundlegender mathematicherKonzepte, Syntax und Semantik der Aussagenlogik und der Prädikatenlogik 1. Stufemit einem Ausblick auf weiterführende Logiksysteme und logikbasierte Formalismen für(computer-)linguistische Anwendungen.

Leistungsnachweis Scheinerwerb durch Teilnahme am Tutorium und Bestehen der AbschlussklausurLiteratur Wird in der Veranstaltung bekanntgegeben Programmieren I - P I, B02

V/Ü; Nr.: 09-160-04-01; SWS: 4

Di; wöch; 14:15 - 15:45; ab 19.10.2010; INF 306 / SR 14; Hartung, M.

Do; wöch; 14:15 - 15:45; ab 21.10.2010; INF 306 / SR 13; Hartung, M.

Kommentar Leistungsbewertung:

BA-2010 (P I): 6 LP

NBA (P I): 6 LP

ABA (B02): 6 LP

ÜK: 3 LPInhalt Ziel dieser Vorlesung ist, Studierenden einen ersten Überblick über die systematische

Entwicklung von wartbaren und korrekten Programmen zu geben. Dies geschiehtanhand der objektorientieren, interpretierten Sprache Python, die mit einem einfachenObjektmodell, guter Unterstützung der Modularisierung und einer reichen Bibliothekeinen raschen Zugang zu modernen Programmiertechniken und zudem weitgehendePlattformunabhängigkeit bietet. Dabei wird versucht, den Stoff möglichst anhandkonkreter (computerlinguistischer) Fragestellungen zu entwickeln.

Themen:

* Programmierung als Problemlösen

* Werte, Typen, Variablen* Funktionen

* Kontrollstrukturen

* Sequenzen

* Dictionaries* Datei- und Prozessmanagement

Page 4: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 4

* Klassen und Objekte

* Ausblick auf funktionales Programmieren

* Reguläre Ausdrücke

* XML-Behandlung in Python

Leistungsnachweis Bearbeiten der wöchentlichen Übungsaufgaben, Bestehen der Abschlussklausur. Dieerfolgreich bestandene Klausur ist Teil der Orientierungsprüfung.

Informationsextraktion - CS-CL, BS-CL, BS-AC, A12

V; Nr.: 09-160-10-03; SWS: 2

Mo; wöch; 16:15 - 17:45; ab 18.10.2010; INF 346 / SR 10; Tremper, G.

Kommentar Leistungspunkte:

BA-2010[100%|75%] (CS-CL): 6 LP

BA-2010[50%|25%] (BS-CL, BS-AC): 4 LP

NBA[100%|75%] (CS-CL): 6 LP

NBA[50%|25%] (BS-CL, BS-AC): 4 LP

ABA (A07): 4 LPInhalt Informationsextraktionssysteme haben zum Ziel, domänenspezifische Informationen

aus unrestringierten Texten zu gewinnen und zu strukturieren. Es geht dabeinicht um eine vollständige Inhaltsanalyse eines Textes, sondern um das gezielteAuffinden relevanter Textausschnitte und deren Analyse mithilfe robuster undeffizienter computerlinguistischer Techniken. Dabei ist es die Aufgabe desBenutzers, die Muster zu spezifizieren, in denen relevante Information in Textensprachlich realisiert wird (z.B. in Form geeigneter syntaktischer Patterns). Inneueren Informationsextraktionssystemen wird allerdings zunehmend versucht,den Spezifikationsaufwand für den Benutzer zu reduzieren und relevanteMuster mithilfe von Techniken des Maschinellen Lernens vom System selbstakquirieren zu lassen. Wir werden in diesem Kurs die einzelnen Komponenten einesInformationsextraktionssystems kennenlernen. Hierfür werden praktische Aufgaben inGruppenarbeit zu lösen sein.

Leistungsnachweis * Regelmäßige und aktive Teilnahme* Lektüre* Übungsaufgaben* Zwei umfangreichere Implementierungsaufgaben in Gruppenarbeit

Voraussetzung Programmierkenntnisse (Niveau: mindestens "Programmieren I") sind unverzichtbareVoraussetzung für die Teilnahme.

Literatur * Grishman, Ralph (2003): Information Extraction, in: Mitkov, Ruslan (Hrsg.): TheOxford Handbook of Computational Linguistics. Oxford University Press: 545-59.

* Neumann, Günter (2001): Informationsextraktion, in: Carstensen, Kai-Uwe et al.(Hrsg.): Computerlinguistik und Sprachtechnologie. Eine Einführung. Heidelberg,Spektrum: 448-55.

Statistical Methods for Computational Linguistics - FF-SM, A10

V/Ü; Nr.: 09-160-09-01; SWS: 4

Di; wöch; 16:15 - 17:45; ab 19.10.2010; INF 306 / SR 14; Vorlesung; Riezler, S.

Do; wöch; 14:15 - 15:45; ab 21.10.2010; INF 328 / SR 25; Übung; Fendrich, S.

Kommentar Leistungsbewertung:

BA-2010 (FF-SM): 6 LP

NBA (FF-SM): 6 LP

ABA (A10): 4 LPInhalt Die Vorlesung stellt zentrale Konzepte der Statistical Learning Theory vor, und

exemplifiziert diese anhand grundlegender Methoden zur Klassifikation, Regression,

Page 5: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 5

etc. Der Fokus der Vorlesung liegt auf Kernel-basierten Methoden und den diesenzugrundeliegenden theoretischen Fundamenten.

Mögliche Themenbereiche der Verlesung sind:

* Risk und Loss Funktionen* Generalisierungstheorie* Optimierungstheorie* Kernel-basierte Methoden für Klassifizierung, Regression, etc.* Kernel-Designs

Leistungsnachweis * Aktive und regelmässige Teilnahme

* Bearbeitung der Übungsaufgaben* Klausur

Die Teilnahme an Vorlesung und Übung ist verpflichtend.Voraussetzung Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra, z.B. aus

Mathematischem GrundkursLiteratur Grundlage der Vorlesung ist

* Schölkopf & Smola (2002). Learning with Kernels. Support Vector

Machines, Regularization, Optimization, and Beyond. MIT Press. Link:http://www.learning-with-kernels.org/

Grundlagen Semantic Web - CS-CL, BS-CL, BS-AC, A05

V; Nr.: 09-160-10-10; SWS: 2

Block; 09:15 - 12:45; 27.09.2010 - 01.10.2010; INF 325 / SR 24; Vorlesung; Rudolph, S.

Block; 14:15 - 16:45; 27.09.2010 - 01.10.2010; INF 325 / SR 24; Vorlesung; Rudolph, S.

Kommentar Leistungsbewertung:

BA-2010[100%|75%] (CS-CL): 6 LP

BA-2010[50%|25%] (BS-CL, BS-AC): 4 LP

NBA[100%|75%] (CS-CL): 6 LP

NBA[50%|25%] (BS-CL, BS-AC): 4 LP

ABA (A05): 4 LPInhalt Der Begriff Semantic Web bezeichnet allgemein eine Erweiterung des World Wide

Web durch Metadaten und Anwendungen mit dem Ziel, die Bedeutung (Semantik) vonDaten im Web für intelligente Systeme z.B. im E-Commerce und in Internetportalennutzbar zu machen. Eine zentrale Rolle spielen dabei die Repräsentation undVerarbeitung von Wissen in Form von Ontologien. In dieser Vorlesung werden dieGrundlagen der Wissensrepäsentation und -verarbeitung für die entsprechendenTechnologien vermittelt sowie Anwendungsbeispiele vorgestellt. Dabei werdenfolgende Themenbereiche betrachtet:

* Grundlagen von XML (Extensible Markup Language) und XML Schema* RDF (Resource Description Framework) und RDF Schema zur Darstellung von

Metadaten und einfachen Ontologien* Die Web Ontology Language (OWL) und ihre aktuelle Erweiterung OWL 2* Die SPARQL-Anfragesprache für RDF, konjunktive Anfragen für OWL* Regelsprachen für das Semantic Web* Praktische Anwendungen

Leistungsnachweis Leistungsnachweis durch KlausurLiteratur Literatur wird im Kurs bekannt gegeben. Korpuslinguistik - CS-CL, BS-CL, BS-FL, A12

V; Nr.: 09-160-10-08; SWS: 2

Page 6: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 6

Fr; wöch; 11:15 - 12:45; ab 22.10.2010; INF 325 / SR 24; Zielinski, A.

Kommentar Leistungsbewertung:

BA-2010[100%|75%] (CS-CL): 6 LP

BA-2010[50%|25%] (BS-CL, BS-FL): 4 LP

NBA[100%|75%] (CS-CL): 6 LP

NBA[50%|25%] (BS-CL, BS-FL): 4 LP

ABA (A12): 4 LP

ÜK: 2 LPInhalt In der Korpuslinguistik werden linguistische Datensammlungen (Sprachkorpora)

systematisch gesammelt und gepflegt, da sie die Basis für linguistische Forschungbilden und zur Überprüfung linguistischer Theorien dienen können. Der Begriff'Korpus' ist definiert als "eine Sammlung schriftlicher oder gesprochener Äußerungenin einer oder mehrerer Sprachen. [...] Die Bestandteile des Korpus, die Texteoder Äußerungsfolgen, bestehen aus den Daten selbst sowie möglicherweise ausMetadaten, die diese Daten beschreiben, und aus linguistischen Annotationen, diediesen Daten zugeordnet sind." (Lemnitzer/Zinsmeister).

In der Vorlesung geht es um den Einsatz von Korpora in unterschiedlichen Bereichender Sprachwissenschaft. Ausgehend von den theoretischen Fragestellungen (z. B. inder computerunterstützten Lexikographie oder der Maschinellen Übersetzung) werdengrundlegende korpuslinguistische Methoden vorgestellt. Dazu gehören insbesondereeffiziente Technologien für die Korpussuche mit Tools wie XAIRA, Cosmas oderTigerSearch als auch Werkzeuge zur quantitativen Analyse (Kookkurrenzanalyse,Translation Memories, etc.).

Leistungsnachweis Leistungsnachweis ist eine Klausur (4 LP) oder Referat und Klausur (6 LP)Voraussetzung Die Teilnehmerzahl für diese Veranstaltung ist begrenzt. Bei zu vielen Teilnehmern

haben Studierende der Computerlinguistik Vorrang.Literatur * L. Lemnitzer/H. Zinsmeister, Korpuslinguistik: Eine Einführung, Narr, Tübingen 2006

* Ausgewählte Artikel aus: Anke Lüdeling & Merja Kytö (Hgg.): Corpus Linguistics. AnInternational Handbook. Mouton de Gruyter, Berlin 2008.

* Carstensen, K.-U.; C. Ebert; C. Endriss; S. Jekat; R. Klabunde & H. Langer (Hrsg.)(2009) Computerlinguistik und Sprachtechnologie. Eine Einführung. 3., überarbeiteteund erweiterte Auflage. Heidelberg: Spektrum Akademischer Verlag.

Information Retrieval - AS-CL, V01, SS-CL, SS-TAC

HpS; Nr.: 09-160-20-07; SWS: 2

Mo; wöch; 11:15 - 12:45; ab 18.10.2010; INF 325 / SR 24; Haenelt, K.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt Information Retrieval Systeme sollen Informationssuchende dabei unterstützen,

aus großen elektronisch verfügbaren Informationsmengen (Texte, Datenbanken,multimediale Dokumente) passende Information herauszufinden. Im Seminar sollen dieverschiedenen Ansätze und grundlegende Methoden und Algorithmen solcher Systemeerarbeitet und vermittelt werden.

Leistungsnachweis Durchführung eines Seminarprojektes und ein ReferatVoraussetzung Zwischenprüfung in Computerlinguistik oder vergleichbare Kenntnisse, bestandene

Programmierprüfung Computerlinguistisches Kolloquium - Coll, V02

Page 7: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 7

K; Nr.: 09-160-20-04; SWS: 2

Di; k.A.; 18:15 - 19:45; ab 12.10.2010; INF 325 / SR 24; Frank, A.;Riezler, S.

Kommentar Leistungsbewertung:

BA-2010 (Coll): 2 LP

NBA (-): Freiwillig, keine LP

ABA (V02): 4 LP

MA (Coll): 2 LPInhalt Präsentation laufender BA-, MA- und Magisterarbeiten

Das Computerlinguistische Kolloquium bietet BA-, MA- und Magisterstudierenden einForum für die Vorstellung und Diskussion ihrer Abschlussarbeiten. Die Studierendenpräsentieren den aktuellen Stand ihrer Arbeit und erhalten in der DiskussionAnregungen von Seiten der Studierenden und der Dozenten.

Externe Vorträge

Darüber hinaus bietet das Computerlinguistische Kolloquium allen Studierendendurch Vorträge geladener Gäste Einblicke in aktuelle Forschungsfragen derComputerlinguistik.

Externe Vorträge finden im Rahmen des Doktorandenkolloquiums (Do, 18:15-19:45)statt.

Organisation

In der ersten Sitzung findet eine Informationsveranstaltung statt, in der allgemeineFragen zum Ablauf der Prüfungsphase in den BA-, MA- und Magisterstudiengängenerläutert werden.

Die Teilnahme an diesen Einführungssitzungen ist verpflichtend für Studierendealler Studiengangarten , die sich vor der Prüfungsphase befinden. Sie entlastenhierdurch die Sprechstunden. Entschuldigungen nur bei Vorlage eines Attests undnachweislicher triftiger Gründe.

Leistungsnachweis Vortrag (BA-2010, ABA, MA) und Ausarbeitung (ABA); regelmäßige Präsenz istVoraussetzung für den Scheinerwerb.

Ein Leistungserwerb ist nur für Examenskandidat/innen im Bachelorstudiengang(BA-2010, ABA) und Masterstudiengang (MA) vorgesehen. Jedoch sind alleStudierenden eingeladen, ihre Abschlussarbeiten vorzustellen, den Vorträgenzuzuhören und sich an den Diskussionen zu beteiligen.

Begleitveranstaltung zum Softwareprojekt - SP, V03

S; Nr.: 09-160-12-01; SWS: 2

Di; wöch; 14:15 - 15:45; ab 19.10.2010; INF 325 / SR 24; Ponzetto, S.

Di; wöch; 16:15 - 17:45; ab 19.10.2010; INF 325 / SR 24; Padó, S.

Kommentar Leistungsbewertung:

BA-2010 (SP): 6 LP + 4 LP ÜK

NBA (SP): 6 LP + 4 LP ÜK

ABA (V03): 6 LPInhalt Im Softwareprojekt soll eine computerlinguistische Aufgabenstellung weitgehend

eigenverantwortlich und in Teamarbeit geplant, softwaretechnisch durchgeführt,dokumentiert und abschließend präsentiert werden.

Neben der Vertiefung praktischer Programmierkenntnisse (Techniken und Werkzeugefür verteilte Programmerstellung, Testverfahren und Qualitätskontrolle, Dokumentation,

Page 8: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 8

etc.) sollen Teamfähigkeit und planerische Fähigkeiten geübt werden. Daneben werdengrundlegende Techniken und Methoden wissenschaftlichen Arbeitens vermittelt.

Leistungsnachweis Teilnahme an allen Einführungsvorlesungen, Projekt-Spezifikationsvortrag,Projekt-Abschlussvortrag und Demo, Programmdokumentation und Archivierung

Voraussetzung Programmierprüfung, Einführung in die Benutzung computerlinguistischer Ressourcen

Voranmeldung: Per Mail an [email protected]

Literatur Abhängig vom Projekt; wird zu Beginn des Semesters bekannt gegeben Mathematischer Vorkurs

Ü; Nr.: 09-160-00-01; SWS: 2

Mo; Einzel; 10:15 - 16:45; 11.10.2010 - 11.10.2010; INF 306 / SR 14; Simianer, P.

Di; Einzel; 10:15 - 16:45; 12.10.2010 - 12.10.2010; INF 327 / SR 20; Simianer, P.

Block; 10:15 - 16:45; 13.10.2010 - 15.10.2010; INF 328 / SR 17; Simianer, P.

Inhalt Der Mathematische Vorkurs dient vor allem einer Vorbereitung auf die Vorlesung"Statistical Methods for Computational Linguistics", steht aber auch anderenStudierenden offen. Themenbereiche des Kurses sind:

* mathematische Grundbegriffe

* Induktion

* Grundbegriffe der Statistik und Wahrscheinlichkeitstheorie

* Vektorräume

* Matrizen-Rechnung

* AbleitungenLeistungsnachweis keine LeistungsbewertungVoraussetzung Keine. Bei zu großer Teilnehmerzahl werden Studierende, die die Vorlesung "Statistical

Methods for Computational Linguistics" besuchen wollen, bevorzugtLiteratur Vorkurs-Niveau:

* Kemnitz: Mathematik zum Studienbeginn . Vieweg+Teubner, 2006.

Weiterführend:

* Jede Einführung in die Lineare Algebra

* Jede Einführung in Statistik und Wahrscheinlichkeitstheorie Einführung in die Nutzung computerlinguistischer Ressourcen

Ü; Nr.: 09-160-00-02; SWS: 2

Block; 10:00 - 13:00; 05.10.2010 - 08.10.2010; INF 325 / PCPool; Reiter, N.

Block; 14:00 - 17:00; 05.10.2010 - 08.10.2010; INF 325 / PCPool; Reiter, N.

Kommentar * begrenzte Teilnehmerzahl* ggf. Vorzug für Teilnehmer/-innen am Softwareprojekt.

Inhalt Der Vorkurs vermittelt Grundlagen der Nutzung von Linux-basiertencomputerlinguistischen Tools und Korpora. Dabei geht es sowohl um allgemeineLinux-Grundlagen (wie z.B. Ein-/Ausgabeumleitung oder nützliche Tools derLinux-Kommandozeile) als auch um einzelne Parser, Tagger, Chunker und andereHilfstools der Computerlinguistik.

Wir werden uns anschauen, wie bestimmte Tools zu benutzen sind, was man ausihnen herausbekommt (und was nicht) und wie man solche Ausgaben automatischweiterverarbeiten kann (und zum Beispiel an das nächste Tool weiterverfüttert).

Page 9: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 9

Der Kurs beinhaltet Übungen - Wenn es nicht genug Arbeitsplätze für alle gibt, werden Teilnehmer/-innen am Softwareprojekt vorgezogen.

Leistungsnachweis Ungeprüft, unbenoteter ScheinVoraussetzung Programmierprüfung Einführung in wissenschaftliches Schreiben

Ü; Nr.: 09-160-00-03

Di; Einzel; 09:15 - 10:45; 19.10.2010 - 19.10.2010;

Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird esum technische und nicht-technische Fähigkeiten gehen, die man als Computerlinguistzum Verfassen wissenschaftlicher Arbeiten, wie z. B. Seminar- oder Abschlussarbeiten,braucht. Dazu werden wir uns zum einen mit dem Textsatzsystem TeX/LaTeXbeschäftigen, zum anderen mit dem kompletten Zyklus wissenschaftlichen Arbeitens,vom Recherchieren bis zum Schreiben und Strukturieren von wissenschaftlichenTexten. Im Rahmen einer Übung wird es Gelegenheit geben, das Gelernte praktischanzuwenden.

Voraussetzung Keine Voraussetzungen Formale Semantik - FSem, A07

V/Ü; Nr.: 09-160-07-01; SWS: 4

Do; wöch; 16:15 - 17:45; ab 21.10.2010; INF 328 / SR 25; Padó, S.Fr; wöch; 14:15 - 15:45; INF 327 / SR 2; Padó, S.

Kommentar Leistungsbewertung:

BA-2010 (FSem): 6 LP

NBA (FSem): 6 LP

ABA (A07): 4 LPInhalt Die Vorlesung soll einen möglichst breiten Überblick über Phänomene und

Problemfelder in der Semantik natürlicher Sprachen vermitteln, die computerlinguistischrelevanten Semantikformalismen und -theorien diskutieren und Werkzeuge undTechniken für die Bedeutungsverarbeitung vorstellen.

Die Vorlesung gliedert sich grob in drei Teile: Der erste Teil vermittelt die logischenGrundlagen der modelltheoretischen (Satz-) Semantik und diskutiert Verfahren fürdie Semantikkonstruktion. Der zweite Teil der Vorlesung widmet sich der formalenBehandlung von text- und diskurssemantischen Phänomenen wie Anaphern undPräsupposition am Beispiel der Diskursrepräsentationstheorie (DRT). Im dritten Teildiskutieren wir Beschreibungsmodelle der lexikalischen Semantik (Dekomposition,Bedeutungsrelationen, Ereignisstruktur und thematische Rollen), und Modelle für dieFormalisierung in Wortnetzen und Ontologien.

Leistungsnachweis * Regelmäßige, substantielle Bearbeitung der Übungsaufgaben zur Klausurzulassung* Bestehen von zwei Klausuren (eine Anfang Dezember, eine Anfang Februar)

Voraussetzung Foundations of Linguistic Analysis (FLA), Formal Foundations, Logical Foundations(FF-L)

Literatur * L.T.F. Gamut (1991). Logic, Language, and Meaning. Volume 2: Intensional Logicand Logical Grammar. The University of Chicago Press.

* Hans Kamp und Uwe Reyle (1993). From Discourse to Logic. Kluwer AcademicPublishers.

Weitere Literatur wird zu Beginn der Veranstaltung bekanntgegeben.

Spielerisch zu neuen Ressourcen - CS-CL, BS-CL, BS-AC, A13

PS; Nr.: 09-160-10-24; SWS: 2

Page 10: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 10

Mi; wöch; 16:15 - 17:45; ab 20.10.2010; INF 325 / SR 24; Roth, M.;Reiter, N.

Kommentar Leistungsbewertung:

BA-2010[100%|75%] (CS-CL): 6 LP

BA-2010[50%|25%] (BS-CL, BS-AC): 4 LP

NBA[100%|75%] (CS-CL): 6 LP

NBA[50%|25%] (BS-CL, BS-AC): 4 LP

ABA (A13): 4 LPInhalt Die Erstellung computerlinguistischer Ressourcen ist teuer und aufwändig. Eine

Möglichkeit, um trotzdem auf einfache Weise große Mengen nützlicher Daten zugewinnen, ist daher, Nutzer im Web einzubeziehen. In diesem Seminar geht es darum,Ideen zu entwickeln, wie dies effektiv gemacht werden kann. Wir wollen verschiedeneAnsätze zur Gewinnung von Daten betrachten und uns anschauen, welche Ressourcenso erzeugt werden können. Im zweiten Teil des Seminars sollen Konzepte entwickeltwerden, um für bestimmte linguistische Probleme Daten zu sammeln. Beispielsweisekönnte eine Spielidee für den Aufbau einer Common-Sense-Ressource erarbeitetwerden, die Regelwissen à la "Wenn es regnet, wird die Straße nass" enthält.

Leistungsnachweis * Lektüre der zugrundegelegten Literatur

* Aktive und regelmäßige Teilnahme

* Implementierung eines Teilprojekts

* Referat und Hausarbeit Einführung in die Diskursrepräsentationstheorie - CS-CL, BS-CL, BS-FL, A07

PS; Nr.: 09-160-10-28; SWS: 2

Mo; Einzel; 09:15 - 17:00; 11.10.2010 - 11.10.2010; INF 328 / SR 16; Eberle, K.

Di; Einzel; 09:15 - 17:00; 12.10.2010 - 12.10.2010; INF 327 / SR 6;

Mi; Einzel; 09:15 - 17:00; 13.10.2010 - 13.10.2010; INF 328 / SR 16;

Do; Einzel; 09:15 - 17:00; 14.10.2010 - 14.10.2010; INF 327 / SR 6;

Fr; Einzel; 09:15 - 17:00; 15.10.2010 - 15.10.2010; INF 328 / SR 16;

Kommentar Leistungsbewertung:

BA-2010[100%|75%] (CS-CL): 6 LP

BA-2010[50%|25%] (BS-CL, BS-FL): 4 LP

NBA[100%|75%] (CS-CL): 6 LP

NBA[50%|25%] (BS-CL, BS-FL): 4 LP

ABA (A07): 4 LPInhalt Die Diskursrepräsentationstheorie stellt eine sehr elegante und ausdrucksstarke

Sprache zur Verfügung, mit der der Gehalt von Diskursen logisch sauber erfasstwerden kann. So können, zumindest prinzipiell, einerseits die verschiedenen Lesartenvon Sätzen und Texten aufgezeigt und formal voneinander unterschieden werden.Andererseits wird der Text allen Arten von logischer Inferenz zugänglich. Berechnetwerden können solche sogenannten Diskursrepräsentationsstrukturen (DRSen) mitdem theorieimmanenten DRS-Konstruktionsalgorithmus.

In dem Proseminar sollen die wesentlichen Repräsentationsmittel undKonstruktionsregeln der DRT ausführlich an Beispielen motiviert und diskutiert werden.Es soll deutlich werden wie DRSen aus syntaktischen Analysen von Sätzen und Textenerzeugt werden können und wofür sie inhaltlich stehen, d.h. was ihre Bedeutung immodelltheoretischen Sinn ist.

Der Kurs folgt im Wesentlichen der Einführung von Hans Kamp und Uwe Reyle zurDRT.

Page 11: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 11

In einem erweiterten Ausblick sollen einige Weiterentwicklungen der Theorieskizziert werden, die erlauben, Lesart-Alternativen zusammenzufassen. Solche sog.'unterspezifizierten' Repräsentationen sind aus psychologischer Sicht, aber auch unterpraktischen Gesichtspunkten, wie der effizienten Verwendbarkeit in Textverstehens-oder Übersetzungssystemen besonders interessant.

Leistungsnachweis AbschlussklausurVoraussetzung KeineLiteratur * Hans Kamp und Uwe Reyle: From Discourse to Logic, Kluwer, Dordrecht, 1993

Weitere Literatur wird zu Beginn des Seminars bekannt gegeben Parallele Korpora in der Sprachverarbeitung - CS-CL, BS-CL, BS-FL, A13

PS; Nr.: 09-160-10-29; SWS: 2

Mi; wöch; 11:15 - 12:45; ab 20.10.2010; INF 327 / SR 1; Padó, S.

Kommentar Leistungsbewertung:

BA-2010[100%|75%] (CS-CL): 6 LP

BA-2010[50%|25%] (BS-CL, BS-AC): 4 LP

NBA[100%|75%] (CS-CL): 6 LP

NBA[50%|25%] (BS-CL, BS-AC): 4 LP

ABA (A13): 4 LPInhalt Das Proseminar hat ein doppeltes Ziel: sowohl Wissen über parallele Korpora als auch

Praxis in der Präsentation von Forschungsinhalten zu vermitteln.

Inhaltlich diskutiert das Proseminar aktuelle Literatur zur Verwendungparalleler Korpora -- sowohl ein- als auch mehrsprachig -- in der maschinellenSprachverarbeitung. Dabei liegt der Schwerpunkt auf der Induktion linguistischenWissens; das Thema "Maschinelle Übersetzung" wird (nur) am Rande gestreift. DasSeminar wird um fünf zentrale Aspekte der Verwendung paralleler Korpora herumaufgebaut sein:

* Alinierung: Wie werden Wörter in parallelen Korpora aliniert, d.h. einanderzugeordnet?

* Das Wesen von parallelen Korpora: Wie parallel sind die sprachlichen Strukturenwirklich? Wie parallel sind Übersetzungen?

* Induktion von Wissen in der Zielsprache aus annotierten Quellkorpora* Induktion von Wissen in der Zielsprache aus unannotierten Quellkorpora* Jenseits von parallelen Korpora: Was tun, wenn es keine parallelen Korpora gibt?

Zusätzlich wird es methodologisch orientierte Sitzungen zu Themen wie dem Haltenvon Vorträgen und dem Schreiben von Hausarbeiten geben.

Leistungsnachweis * Aktive und regelmäßige Teilnahme* Referat (30-40 Min.) und "Gegenreferat" (10 Min.)* Hausarbeit (5-10 Seiten)

Statistical Machine Translation - AS-CL, V01, SS-CL, SS-TAC

V/Ü; Nr.: 09-160-20-24; SWS: 4

Di; wöch; 11:15 - 12:45; ab 19.10.2010; INF 325 / SR 23a-c; Vorlesung; Riezler, S.

Mi; wöch; 14:15 - 15:45; ab 20.10.2010; INF 327 / SR 4; Übung; Fendrich, S.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LP

Page 12: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 12

Inhalt Die Vorlesung stellt zentrale Konzepte der Statistischen Maschinellen Übersetzung vor.Mögliche Themenbereiche der Vorlesung sind:

* Alignment* Wort-basierte Modelle* Phrasen-basierte Modelle* Syntax-basierte Modelle* Dekodierung* Sprachmodelle* Evaluierung* Diskriminatives Training

Leistungsnachweis * Aktive und regelmässige Teilnahme

* Bearbeitung der Übungsaufgaben* Klausur

Die Teilnahme an Vorlesung und Übung ist verpflichtend.Voraussetzung Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra, z.B. aus

Mathematischem GrundkursLiteratur Grundlage der Vorlesung ist

* Koehn (2010). Statistical Machine Translation. Cambridge. Link:http://www.statmt.org/book/

Topics in Machine Learning for NLP - AS-CL, V01, SS-CL, SS-TAC

HpS; Nr.: 09-160-20-25; SWS: 2

Do; Einzel; 11:15 - 12:45; 14.10.2010 - 14.10.2010; INF 327 / SR 5; Einführung; Riezler, S.

Fr; Einzel; 10:15 - 17:45; 04.02.2011 - 04.02.2011; INF 306 / SR 19; Block; Riezler, S.

Do; Einzel; 10:15 - 17:45; 10.02.2011 - 10.02.2011; INF 306 / SR 19; Block; Riezler, S.

Fr; Einzel; 10:15 - 17:45; 11.02.2011 - 11.02.2011; INF 306 / SR 19; Block; Riezler, S.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt Das Hauptseminar dient der Diskussion von methodologischen und praktischen

Fragen in der Anwendung von Maschinellen Lernverfahren auf computerlinguistischeProbleme. Mögliche Themenbereiche sind:

* Beispielsprojekte* Experimentelles Design* Softwareverwaltung* Rauschfreie Datenannotierung* Cross-Validierung* Signifikanztests* Metaparameter-Einschätzung

Die Veranstaltung wird gemeinschaftlich mit Prof. Hinrich Schütze und Dr. Alex Fraservom IMS Stuttgart organisiert, wobei mindestens ein Block in Stuttgart stattfinden wird.

Leistungsnachweis * Aktive und regelmässige Teilnahme* Referat

Voraussetzung Grundbegriffe von Statistik und Machine LearningLiteratur Eine Liste möglicher Referatsthemen wird in der Einführungsveranstaltung

bekanntgegeben.

Page 13: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 13

Graph-based Methods for Natural Language Processing - AS-CL, V01, SS-CL, SS-TAC

HpS; Nr.: 09-160-20-26; SWS: 2

Do; wöch; 14:15 - 15:45; ab 21.10.2010; INF 325 / SR 24; Ponzetto, S.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt In the last years Natural Language Processing (NLP) researchers have shown a

considerable amount of interest in developing methods based on graph theoreticmodels, with a large variety of NLP applications adopting efficient and elegant solutionsfrom graph-theoretical frameworks.

This seminar will provide a gentle introduction to state-of-the-art graph-based methodsfor NLP applications. These include, but are not limited to:

* Word sense disambiguation* Information extraction* Automatic summarization* Co-reference resolution* Named entity recognition and disambiguation

The course will be offered as a project seminar. Students will present current work fromthe literature in short, seminar-format presentations (i.e., Referate). In addition, they willbe expected to form small groups of 2-3 people and work on a project, e.g. implementand/or extend an existing state-of-the-art graph-based NLP method. Each one of thegroups is expected to submit a short report (2-4 pages), as well as to regularly give anupdate on the status of their project -- i.e. as a very short, informal presentation on aregular basis. Students are expected to *actively* participate in the class discussionsduring their fellow students' presentations, as well as in the seminar's projects. Thismeans that you'll have to read the papers *before* the class period in which they willbe presented and discussed, as well as *clearly* present to the audience what yourspecific work was as part of the seminar's projects.

Leistungsnachweis Aktive Teilnahme und regelmäßige Abgabe von Projektenarbeit in kleinen Gruppen.Vortrag/Präsentation.

Zusammensetzung der Endnote:

* 1/3: Präsentation* 1/3: Beteiligung an den Seminarprojekten* 1/3: Beteiligung an den Diskussionen im Seminar

Voraussetzung Voraussetzungen sind die bestandene Zwischenprüfung (Magister) undProgrammierprüfung. Vorkenntnisse in statistischer NLP oder Maschinellem Lernensind von Vorteil.

Literatur We will mostly read and meditate on conference papers from past meetings of theAssociation for Computational Linguistics (ACL) and related workshops (i.e. the"TextGraphs" workshop series). Students are *encouraged to select and read 1-2papers* from the previous TextGraphs workshops:

* TextGraphs-1

http://www.textgraphs.org/ws06* TextGraphs-2

http://www.textgraphs.org/ws07* TextGraphs-3

http://lit.csci.unt.edu/~textgraphs/ws08/

Page 14: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 14

* TextGraphs-4

http://www.textgraphs.org/ws09/

before the beginning of the course, in order to have a taste of it content. Koreferenzresolution - AS-CL, V01, SS-CL, SS-TAC

HpS; Nr.: 09-160-20-27; SWS: 2

Do; wöch; 16:15 - 17:45; ab 21.10.2010; INF 325 / SR 24; Strube, M.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt Texte und Dialoge zu verstehen, ist nur möglich, wenn man sich Zusammenhänge

zwischen Sätzen und Äußerungen erschließen kann. Ein wichtiges sprachliches Mittel,solche Zusammenhänge auszudrücken, sind anaphorische Ausdrücke, in erster LiniePronomen und definite Nominalphrasen.

Anaphern- und Koreferenzresolution ist eines der ältesten und aktivsten Themender Computerlinguistik. Das Seminar beginnt mit linguistischen Grundlagen(Bindungstheorie, Salienz, Typen anaphorischer Ausdrücke) und mit klassischenArbeiten aus den 1970er und 1980er Jahren (Hobbs-Algorithmus). Dann wird aufFokus- und Centeringmodell eingegangen. Der Lappin & Leass-Algorithmus wirdeingehend besprochen, bevor heuristische, wissensarme Ansätze besprochen werden.Der Schwerpunkt des Seminars wird auf aktuellen, machine-learning-basiertenAnsätzen liegen, beginnend mit dem paarweisen Klassifikator von Soon et al. (2001)und dessen vielfältige Weiterentwicklung in Hinsicht auf Features und Lernverfahren.Abschließend wird auf globale, graph-basierte Ansätze eingegangen sowie aufunüberwachte Ansätze. Des weiteren werden Fragen der Annotation besprochen undannotierte Korpora eingeführt. Schließlich wird auch auf die Koreferenzresolution ingesprochener Sprache eingegangen.

Leistungsnachweis * aktive Teilnahme* Vortrag/Präsentation* Seminar- oder Hausarbeit

Voraussetzung Zwischenprüfung in Computerlinguistik oder vergleichbare Kenntnisse, bestandeneProgrammierprüfung

Literatur * Strube, Michael (2009). Anaphernresolution. In K.-U. Carstensen, C. Ebert, C.Endriss, S. Jekat, R. Klabunde, and H. Langer, editors, Computerlinguistik undSprachtechnologie. Eine Einführung, pp. 399-409. Heidelberg, Germany: Springer,3rd edition

* Mitkov, Ruslan (2002). Anaphora Resolution. London, U.K.: Longman* Soon, Wee Meng, Daniel Chung Yong Lim & Hwee Tou Ng (2001). A Machine

Learning Approach to Coreference Resolution of Noun Phrases. In ComputationalLinguistics, 27 (4), pp.521-544.

(vollständige Liste wird zu Beginn des Semesters zur Verfügung gestellt) Discriminative Methods for Machine Translation - AS-CL, V01, SS-CL, SS-TAC

HpS; Nr.: 09-160-20-28; SWS: 2

Do; wöch; 11:15 - 12:45; ab 21.10.2010; INF 327 / SR 5; Riezler, S.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Page 15: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 15

Master (SS-CL, SS-TAC): 8 LP

Inhalt Das Hauptseminar dient der Diskussion von neuesten Entwicklungen in der StatisticalMachine Translation (SMT) bezüglich der Verwendung diskriminativer MachineLearning Methoden. Hierbei wird der in den 1990er Jahren etablierte Standard vongenerativen Modellen und frequenz-basierter Trainingsverfahren durch komplexereMethoden abgelöst, die zu einer direkten Optimierung der Übersetzungs-Fehlerratemoderne Machine Learning Verfahren wie Support Vector Machines, Online Learningund Risk Minimization verwenden.

Mögliche Themenbereiche des Hauptseminars sind:

* Direct Error Minimization* Discriminative (Re)Ranking* Domain/Task Adaptation

Leistungsnachweis * Aktive und regelmässige Teilnahme* Referat

Voraussetzung Grundbegriffe von Statistik und Machine LearningLiteratur Eine Liste möglicher Referatsthemen wird in der ersten Seminarsitzung

bekanntgegeben. Doktorandenkolloquium

K; SWS: 3

Do; wöch; 18:15 - 20:30; ab 21.10.2010; INF 325 / SR 24; Frank, A.; Padó, S.; Riezler, S.

Do; k.A.; 18:15 - 20:30; INF 328 / SR 25; externe Vorträge; Frank, A.; Padó, S.; Riezler, S.

Inhalt Das Kolloquium bietet Doktoranden des Seminars für Computerlinguistik sowie derAbteilung NLP des HITS (Heidelberg Institute for Theoretical Studies) ein Forum für dieVorstellung und Diskussion ihrer laufenden Doktorarbeiten, sowie gemeinsame Lektüreund Diskussion zu ausgewählten Themenbereichen der Computerlinguistik.

Auch Bachelor- und Magisterabsolventen soll hier die Möglichkeit gegeben werden,ihre Abschlussarbeiten vorzustellen.

Im Rahmen des Kolloquiums finden externe Vorträge eingeladener Gastwissenschaftlerdes HITS und des Seminars für Computerlinguistik statt, zu denen interessierteWissenschaftler und Studenten herzlich eingeladen sind.

Bachelor (neue Prüfungsordnung)Einführung in die Computerlinguistik - ICL, B01

V/Ü; Nr.: 09-160-01-01; SWS: 4; LP: 6

Di; wöch; 11:15 - 12:45; ab 19.10.2010; INF 350 / OMZ R U013; Frank, A.

Do; wöch; 11:15 - 12:45; ab 21.10.2010; INF 350 / OMZ R U013; Frank, A.

Kommentar Leistungsbewertung:

BA-2010 (ICL): 6 LP

NBA (ICL): 6 LP

ABA (B01): 6 LPInhalt Die Vorlesung führt ein in die Grundlagen, zentralen Fragestellungen und Methoden

der Computerlinguistik. In einem Gesamtüberblick werden die wesentlichenGrundlagen der Computerlinguistik eingeführt:

* Ebenen der Sprachbeschreibung (Phonologie, Morphologie, Syntax, Semantik,Pragmatik),

* formale mathematische und logische Modelle zur Beschreibung der entsprechendenlinguistischen Phänomene und

* algorithmische Verfahren zur automatischen Verarbeitung auf Basis dieser Modelle.

Page 16: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 16

Dabei nähern wir uns speziellen Problemen und Fragestellungen derComputerlinguistik und ihren spezifischen Lösungsstrategien. Spezielle Themenwerden sein: Ambiguitätsbehandlung, Approximierung sprachlicher Regularitäten,syntaktische und semantische Verarbeitung.

Die Vorlesung gibt einen Überblick über computerlinguistische Anwendungen, diskutiertdas Verhältnis zu Nachbardisziplinen, und führt durch praktische Übungen in diespeziellen Fragestellungen einzelner Teilgebiete der Computerlinguistik ein.

Leistungsnachweis * Erfolgreiche Bearbeitung der Übungsaufgaben

* Erfolgreich bestandene Klausur* Aktive Teilnahme

Regelmäßige Präsenz ist Voraussetzung für den Scheinerwerb.

Die erfolgreich bestandene Klausur ist Teil der Orientierungsprüfung.Literatur * Daniel Jurafsky and James H. Martin (2009): Speech and Language Processing. An

Introduction to Natural Language Processing, Computational Linguistics, and SpeechRecognition. Prentice Hall Series in Artificial Intelligence. Prentice Hall.

* Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, RalfKlabunde, Hagen Langer (Hrsg.) (2004): Computerlinguistik und Sprachtechnologie.Eine Einführung. Heidelberg: Spektrum, Akademischer Verlag.

* Natural Language Toolkit, NLTK: http://www.nltk.org/book Logische Grundlagen für die Computerlinguistik - FF-L, B11

V/Ü; Nr.: 09-160-02-02; SWS: 2

Mo; 14täg.; 09:15 - 12:45; ab 18.10.2010; INF 325 / SR 7; Herweg, M.

Kommentar Leistungsbewertung:

BA-2010 (FF-L): 6 LP

NBA (FF-L): 6 LP

ABA (B11): 4 LP

ÜK: 2 LPInhalt Fundierte Logikkenntnisse sind unverzichtbar für Anwendungen in der

Computerlinguistik und theoretischen Linguistik. Dies gilt für die gängigenBeschreibungsformate in nahezu allen (computer-)linguistischen Teildisziplinen(Syntax, Semantik, Morphologie, Phonologie, ...) ebenso wie für sprachtechnologischeImplementierungen. Der Kurs bietet eine Einführung in die Logik und legt dabeibesonderen Wert auf die praktische Einübung grundlegender logischer Methoden undTechniken. Behandelt werden, nach einer Auffrischung grundlegender mathematicherKonzepte, Syntax und Semantik der Aussagenlogik und der Prädikatenlogik 1. Stufemit einem Ausblick auf weiterführende Logiksysteme und logikbasierte Formalismen für(computer-)linguistische Anwendungen.

Leistungsnachweis Scheinerwerb durch Teilnahme am Tutorium und Bestehen der AbschlussklausurLiteratur Wird in der Veranstaltung bekanntgegeben Programmieren I - P I, B02

V/Ü; Nr.: 09-160-04-01; SWS: 4

Di; wöch; 14:15 - 15:45; ab 19.10.2010; INF 306 / SR 14; Hartung, M.

Do; wöch; 14:15 - 15:45; ab 21.10.2010; INF 306 / SR 13; Hartung, M.

Kommentar Leistungsbewertung:

BA-2010 (P I): 6 LP

NBA (P I): 6 LP

ABA (B02): 6 LP

Page 17: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 17

ÜK: 3 LPInhalt Ziel dieser Vorlesung ist, Studierenden einen ersten Überblick über die systematische

Entwicklung von wartbaren und korrekten Programmen zu geben. Dies geschiehtanhand der objektorientieren, interpretierten Sprache Python, die mit einem einfachenObjektmodell, guter Unterstützung der Modularisierung und einer reichen Bibliothekeinen raschen Zugang zu modernen Programmiertechniken und zudem weitgehendePlattformunabhängigkeit bietet. Dabei wird versucht, den Stoff möglichst anhandkonkreter (computerlinguistischer) Fragestellungen zu entwickeln.

Themen:

* Programmierung als Problemlösen

* Werte, Typen, Variablen* Funktionen

* Kontrollstrukturen

* Sequenzen

* Dictionaries* Datei- und Prozessmanagement* Klassen und Objekte

* Ausblick auf funktionales Programmieren

* Reguläre Ausdrücke

* XML-Behandlung in Python

Leistungsnachweis Bearbeiten der wöchentlichen Übungsaufgaben, Bestehen der Abschlussklausur. Dieerfolgreich bestandene Klausur ist Teil der Orientierungsprüfung.

Informationsextraktion - CS-CL, BS-CL, BS-AC, A12

V; Nr.: 09-160-10-03; SWS: 2

Mo; wöch; 16:15 - 17:45; ab 18.10.2010; INF 346 / SR 10; Tremper, G.

Kommentar Leistungspunkte:

BA-2010[100%|75%] (CS-CL): 6 LP

BA-2010[50%|25%] (BS-CL, BS-AC): 4 LP

NBA[100%|75%] (CS-CL): 6 LP

NBA[50%|25%] (BS-CL, BS-AC): 4 LP

ABA (A07): 4 LPInhalt Informationsextraktionssysteme haben zum Ziel, domänenspezifische Informationen

aus unrestringierten Texten zu gewinnen und zu strukturieren. Es geht dabeinicht um eine vollständige Inhaltsanalyse eines Textes, sondern um das gezielteAuffinden relevanter Textausschnitte und deren Analyse mithilfe robuster undeffizienter computerlinguistischer Techniken. Dabei ist es die Aufgabe desBenutzers, die Muster zu spezifizieren, in denen relevante Information in Textensprachlich realisiert wird (z.B. in Form geeigneter syntaktischer Patterns). Inneueren Informationsextraktionssystemen wird allerdings zunehmend versucht,den Spezifikationsaufwand für den Benutzer zu reduzieren und relevanteMuster mithilfe von Techniken des Maschinellen Lernens vom System selbstakquirieren zu lassen. Wir werden in diesem Kurs die einzelnen Komponenten einesInformationsextraktionssystems kennenlernen. Hierfür werden praktische Aufgaben inGruppenarbeit zu lösen sein.

Leistungsnachweis * Regelmäßige und aktive Teilnahme* Lektüre* Übungsaufgaben* Zwei umfangreichere Implementierungsaufgaben in Gruppenarbeit

Voraussetzung Programmierkenntnisse (Niveau: mindestens "Programmieren I") sind unverzichtbareVoraussetzung für die Teilnahme.

Page 18: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 18

Literatur * Grishman, Ralph (2003): Information Extraction, in: Mitkov, Ruslan (Hrsg.): TheOxford Handbook of Computational Linguistics. Oxford University Press: 545-59.

* Neumann, Günter (2001): Informationsextraktion, in: Carstensen, Kai-Uwe et al.(Hrsg.): Computerlinguistik und Sprachtechnologie. Eine Einführung. Heidelberg,Spektrum: 448-55.

Einführung in die Sprachwissenschaft - FLA

V/Ü; Nr.: 09-160-03-01; SWS: 2; LP: 4

Mo; wöch; 16:15 - 17:45; ab 18.10.2010; INF 306 / SR 13; Witt, A.

Kommentar Leistungsbewertung:

BA-2010 (FLA): 4 LP

NBA (FLA): 4 LPInhalt Diese Veranstaltung führt in die Grundlagen der Linguistik ein. Es werden dabei die

Kernbereiche des Sprachsystems, wie Morphologie, Syntax, Semantik, Pragmatik,Phonetik und Phonologie, thematisiert.

Darüber hinaus werden Teilgebiete der Linguistik (z.B. Psycholinguistik,Korpuslinguistik, forensische Linguistik) angesprochen.

Leistungsnachweis Regelmäßige Teilnahme und aktive Mitarbeit, Lösung von Übungsaufgaben, Klausur.Literatur * Victoria A. Fromkin, Robert Rodman, Nina Hyams: An Introduction to Language.

7. Auflage, 8. Auflage (erschienen 2005) oder 9. Auflage (erschienen 2010), ItpsThomson Learning oder Cengage Learning Service

* Hadumod Bußmann: Lexikon der Sprachwissenschaft, Kröner Verlag

Weitere Literatur wird im Seminar bekannt gegeben. Statistical Methods for Computational Linguistics - FF-SM, A10

V/Ü; Nr.: 09-160-09-01; SWS: 4

Di; wöch; 16:15 - 17:45; ab 19.10.2010; INF 306 / SR 14; Vorlesung; Riezler, S.

Do; wöch; 14:15 - 15:45; ab 21.10.2010; INF 328 / SR 25; Übung; Fendrich, S.

Kommentar Leistungsbewertung:

BA-2010 (FF-SM): 6 LP

NBA (FF-SM): 6 LP

ABA (A10): 4 LPInhalt Die Vorlesung stellt zentrale Konzepte der Statistical Learning Theory vor, und

exemplifiziert diese anhand grundlegender Methoden zur Klassifikation, Regression,etc. Der Fokus der Vorlesung liegt auf Kernel-basierten Methoden und den diesenzugrundeliegenden theoretischen Fundamenten.

Mögliche Themenbereiche der Verlesung sind:

* Risk und Loss Funktionen* Generalisierungstheorie* Optimierungstheorie* Kernel-basierte Methoden für Klassifizierung, Regression, etc.* Kernel-Designs

Leistungsnachweis * Aktive und regelmässige Teilnahme

* Bearbeitung der Übungsaufgaben* Klausur

Die Teilnahme an Vorlesung und Übung ist verpflichtend.Voraussetzung Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra, z.B. aus

Mathematischem Grundkurs

Page 19: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 19

Literatur Grundlage der Vorlesung ist

* Schölkopf & Smola (2002). Learning with Kernels. Support Vector

Machines, Regularization, Optimization, and Beyond. MIT Press. Link:http://www.learning-with-kernels.org/

Korpuslinguistik - CS-CL, BS-CL, BS-FL, A12

V; Nr.: 09-160-10-08; SWS: 2

Fr; wöch; 11:15 - 12:45; ab 22.10.2010; INF 325 / SR 24; Zielinski, A.

Kommentar Leistungsbewertung:

BA-2010[100%|75%] (CS-CL): 6 LP

BA-2010[50%|25%] (BS-CL, BS-FL): 4 LP

NBA[100%|75%] (CS-CL): 6 LP

NBA[50%|25%] (BS-CL, BS-FL): 4 LP

ABA (A12): 4 LP

ÜK: 2 LPInhalt In der Korpuslinguistik werden linguistische Datensammlungen (Sprachkorpora)

systematisch gesammelt und gepflegt, da sie die Basis für linguistische Forschungbilden und zur Überprüfung linguistischer Theorien dienen können. Der Begriff'Korpus' ist definiert als "eine Sammlung schriftlicher oder gesprochener Äußerungenin einer oder mehrerer Sprachen. [...] Die Bestandteile des Korpus, die Texteoder Äußerungsfolgen, bestehen aus den Daten selbst sowie möglicherweise ausMetadaten, die diese Daten beschreiben, und aus linguistischen Annotationen, diediesen Daten zugeordnet sind." (Lemnitzer/Zinsmeister).

In der Vorlesung geht es um den Einsatz von Korpora in unterschiedlichen Bereichender Sprachwissenschaft. Ausgehend von den theoretischen Fragestellungen (z. B. inder computerunterstützten Lexikographie oder der Maschinellen Übersetzung) werdengrundlegende korpuslinguistische Methoden vorgestellt. Dazu gehören insbesondereeffiziente Technologien für die Korpussuche mit Tools wie XAIRA, Cosmas oderTigerSearch als auch Werkzeuge zur quantitativen Analyse (Kookkurrenzanalyse,Translation Memories, etc.).

Leistungsnachweis Leistungsnachweis ist eine Klausur (4 LP) oder Referat und Klausur (6 LP)Voraussetzung Die Teilnehmerzahl für diese Veranstaltung ist begrenzt. Bei zu vielen Teilnehmern

haben Studierende der Computerlinguistik Vorrang.Literatur * L. Lemnitzer/H. Zinsmeister, Korpuslinguistik: Eine Einführung, Narr, Tübingen 2006

* Ausgewählte Artikel aus: Anke Lüdeling & Merja Kytö (Hgg.): Corpus Linguistics. AnInternational Handbook. Mouton de Gruyter, Berlin 2008.

* Carstensen, K.-U.; C. Ebert; C. Endriss; S. Jekat; R. Klabunde & H. Langer (Hrsg.)(2009) Computerlinguistik und Sprachtechnologie. Eine Einführung. 3., überarbeiteteund erweiterte Auflage. Heidelberg: Spektrum Akademischer Verlag.

Formale Semantik - FSem, A07

V/Ü; Nr.: 09-160-07-01; SWS: 4

Do; wöch; 16:15 - 17:45; ab 21.10.2010; INF 328 / SR 25; Padó, S.Fr; wöch; 14:15 - 15:45; INF 327 / SR 2; Padó, S.

Kommentar Leistungsbewertung:

BA-2010 (FSem): 6 LP

NBA (FSem): 6 LP

ABA (A07): 4 LP

Page 20: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 20

Inhalt Die Vorlesung soll einen möglichst breiten Überblick über Phänomene undProblemfelder in der Semantik natürlicher Sprachen vermitteln, die computerlinguistischrelevanten Semantikformalismen und -theorien diskutieren und Werkzeuge undTechniken für die Bedeutungsverarbeitung vorstellen.

Die Vorlesung gliedert sich grob in drei Teile: Der erste Teil vermittelt die logischenGrundlagen der modelltheoretischen (Satz-) Semantik und diskutiert Verfahren fürdie Semantikkonstruktion. Der zweite Teil der Vorlesung widmet sich der formalenBehandlung von text- und diskurssemantischen Phänomenen wie Anaphern undPräsupposition am Beispiel der Diskursrepräsentationstheorie (DRT). Im dritten Teildiskutieren wir Beschreibungsmodelle der lexikalischen Semantik (Dekomposition,Bedeutungsrelationen, Ereignisstruktur und thematische Rollen), und Modelle für dieFormalisierung in Wortnetzen und Ontologien.

Leistungsnachweis * Regelmäßige, substantielle Bearbeitung der Übungsaufgaben zur Klausurzulassung* Bestehen von zwei Klausuren (eine Anfang Dezember, eine Anfang Februar)

Voraussetzung Foundations of Linguistic Analysis (FLA), Formal Foundations, Logical Foundations(FF-L)

Literatur * L.T.F. Gamut (1991). Logic, Language, and Meaning. Volume 2: Intensional Logicand Logical Grammar. The University of Chicago Press.

* Hans Kamp und Uwe Reyle (1993). From Discourse to Logic. Kluwer AcademicPublishers.

Weitere Literatur wird zu Beginn der Veranstaltung bekanntgegeben.

Grundlagen Semantic Web - CS-CL, BS-CL, BS-AC, A05

V; Nr.: 09-160-10-10; SWS: 2

Block; 09:15 - 12:45; 27.09.2010 - 01.10.2010; INF 325 / SR 24; Vorlesung; Rudolph, S.

Block; 14:15 - 16:45; 27.09.2010 - 01.10.2010; INF 325 / SR 24; Vorlesung; Rudolph, S.

Kommentar Leistungsbewertung:

BA-2010[100%|75%] (CS-CL): 6 LP

BA-2010[50%|25%] (BS-CL, BS-AC): 4 LP

NBA[100%|75%] (CS-CL): 6 LP

NBA[50%|25%] (BS-CL, BS-AC): 4 LP

ABA (A05): 4 LPInhalt Der Begriff Semantic Web bezeichnet allgemein eine Erweiterung des World Wide

Web durch Metadaten und Anwendungen mit dem Ziel, die Bedeutung (Semantik) vonDaten im Web für intelligente Systeme z.B. im E-Commerce und in Internetportalennutzbar zu machen. Eine zentrale Rolle spielen dabei die Repräsentation undVerarbeitung von Wissen in Form von Ontologien. In dieser Vorlesung werden dieGrundlagen der Wissensrepäsentation und -verarbeitung für die entsprechendenTechnologien vermittelt sowie Anwendungsbeispiele vorgestellt. Dabei werdenfolgende Themenbereiche betrachtet:

* Grundlagen von XML (Extensible Markup Language) und XML Schema* RDF (Resource Description Framework) und RDF Schema zur Darstellung von

Metadaten und einfachen Ontologien* Die Web Ontology Language (OWL) und ihre aktuelle Erweiterung OWL 2* Die SPARQL-Anfragesprache für RDF, konjunktive Anfragen für OWL* Regelsprachen für das Semantic Web* Praktische Anwendungen

Leistungsnachweis Leistungsnachweis durch KlausurLiteratur Literatur wird im Kurs bekannt gegeben. Begleitveranstaltung zum Softwareprojekt - SP, V03

S; Nr.: 09-160-12-01; SWS: 2

Page 21: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 21

Di; wöch; 14:15 - 15:45; ab 19.10.2010; INF 325 / SR 24; Ponzetto, S.

Di; wöch; 16:15 - 17:45; ab 19.10.2010; INF 325 / SR 24; Padó, S.

Kommentar Leistungsbewertung:

BA-2010 (SP): 6 LP + 4 LP ÜK

NBA (SP): 6 LP + 4 LP ÜK

ABA (V03): 6 LPInhalt Im Softwareprojekt soll eine computerlinguistische Aufgabenstellung weitgehend

eigenverantwortlich und in Teamarbeit geplant, softwaretechnisch durchgeführt,dokumentiert und abschließend präsentiert werden.

Neben der Vertiefung praktischer Programmierkenntnisse (Techniken und Werkzeugefür verteilte Programmerstellung, Testverfahren und Qualitätskontrolle, Dokumentation,etc.) sollen Teamfähigkeit und planerische Fähigkeiten geübt werden. Daneben werdengrundlegende Techniken und Methoden wissenschaftlichen Arbeitens vermittelt.

Leistungsnachweis Teilnahme an allen Einführungsvorlesungen, Projekt-Spezifikationsvortrag,Projekt-Abschlussvortrag und Demo, Programmdokumentation und Archivierung

Voraussetzung Programmierprüfung, Einführung in die Benutzung computerlinguistischer Ressourcen

Voranmeldung: Per Mail an [email protected]

Literatur Abhängig vom Projekt; wird zu Beginn des Semesters bekannt gegeben Mathematischer Vorkurs

Ü; Nr.: 09-160-00-01; SWS: 2

Mo; Einzel; 10:15 - 16:45; 11.10.2010 - 11.10.2010; INF 306 / SR 14; Simianer, P.

Di; Einzel; 10:15 - 16:45; 12.10.2010 - 12.10.2010; INF 327 / SR 20; Simianer, P.

Block; 10:15 - 16:45; 13.10.2010 - 15.10.2010; INF 328 / SR 17; Simianer, P.

Inhalt Der Mathematische Vorkurs dient vor allem einer Vorbereitung auf die Vorlesung"Statistical Methods for Computational Linguistics", steht aber auch anderenStudierenden offen. Themenbereiche des Kurses sind:

* mathematische Grundbegriffe

* Induktion

* Grundbegriffe der Statistik und Wahrscheinlichkeitstheorie

* Vektorräume

* Matrizen-Rechnung

* AbleitungenLeistungsnachweis keine LeistungsbewertungVoraussetzung Keine. Bei zu großer Teilnehmerzahl werden Studierende, die die Vorlesung "Statistical

Methods for Computational Linguistics" besuchen wollen, bevorzugtLiteratur Vorkurs-Niveau:

* Kemnitz: Mathematik zum Studienbeginn . Vieweg+Teubner, 2006.

Weiterführend:

* Jede Einführung in die Lineare Algebra

* Jede Einführung in Statistik und Wahrscheinlichkeitstheorie Einführung in die Nutzung computerlinguistischer Ressourcen

Ü; Nr.: 09-160-00-02; SWS: 2

Block; 10:00 - 13:00; 05.10.2010 - 08.10.2010; INF 325 / PCPool; Reiter, N.

Page 22: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 22

Block; 14:00 - 17:00; 05.10.2010 - 08.10.2010; INF 325 / PCPool; Reiter, N.

Kommentar * begrenzte Teilnehmerzahl* ggf. Vorzug für Teilnehmer/-innen am Softwareprojekt.

Inhalt Der Vorkurs vermittelt Grundlagen der Nutzung von Linux-basiertencomputerlinguistischen Tools und Korpora. Dabei geht es sowohl um allgemeineLinux-Grundlagen (wie z.B. Ein-/Ausgabeumleitung oder nützliche Tools derLinux-Kommandozeile) als auch um einzelne Parser, Tagger, Chunker und andereHilfstools der Computerlinguistik.

Wir werden uns anschauen, wie bestimmte Tools zu benutzen sind, was man ausihnen herausbekommt (und was nicht) und wie man solche Ausgaben automatischweiterverarbeiten kann (und zum Beispiel an das nächste Tool weiterverfüttert).

Der Kurs beinhaltet Übungen - Wenn es nicht genug Arbeitsplätze für alle gibt, werden Teilnehmer/-innen am Softwareprojekt vorgezogen.

Leistungsnachweis Ungeprüft, unbenoteter ScheinVoraussetzung Programmierprüfung Einführung in wissenschaftliches Schreiben

Ü; Nr.: 09-160-00-03

Di; Einzel; 09:15 - 10:45; 19.10.2010 - 19.10.2010;

Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird esum technische und nicht-technische Fähigkeiten gehen, die man als Computerlinguistzum Verfassen wissenschaftlicher Arbeiten, wie z. B. Seminar- oder Abschlussarbeiten,braucht. Dazu werden wir uns zum einen mit dem Textsatzsystem TeX/LaTeXbeschäftigen, zum anderen mit dem kompletten Zyklus wissenschaftlichen Arbeitens,vom Recherchieren bis zum Schreiben und Strukturieren von wissenschaftlichenTexten. Im Rahmen einer Übung wird es Gelegenheit geben, das Gelernte praktischanzuwenden.

Voraussetzung Keine Voraussetzungen Spielerisch zu neuen Ressourcen - CS-CL, BS-CL, BS-AC, A13

PS; Nr.: 09-160-10-24; SWS: 2

Mi; wöch; 16:15 - 17:45; ab 20.10.2010; INF 325 / SR 24; Roth, M.;Reiter, N.

Kommentar Leistungsbewertung:

BA-2010[100%|75%] (CS-CL): 6 LP

BA-2010[50%|25%] (BS-CL, BS-AC): 4 LP

NBA[100%|75%] (CS-CL): 6 LP

NBA[50%|25%] (BS-CL, BS-AC): 4 LP

ABA (A13): 4 LPInhalt Die Erstellung computerlinguistischer Ressourcen ist teuer und aufwändig. Eine

Möglichkeit, um trotzdem auf einfache Weise große Mengen nützlicher Daten zugewinnen, ist daher, Nutzer im Web einzubeziehen. In diesem Seminar geht es darum,Ideen zu entwickeln, wie dies effektiv gemacht werden kann. Wir wollen verschiedeneAnsätze zur Gewinnung von Daten betrachten und uns anschauen, welche Ressourcenso erzeugt werden können. Im zweiten Teil des Seminars sollen Konzepte entwickeltwerden, um für bestimmte linguistische Probleme Daten zu sammeln. Beispielsweisekönnte eine Spielidee für den Aufbau einer Common-Sense-Ressource erarbeitetwerden, die Regelwissen à la "Wenn es regnet, wird die Straße nass" enthält.

Leistungsnachweis * Lektüre der zugrundegelegten Literatur

* Aktive und regelmäßige Teilnahme

* Implementierung eines Teilprojekts

* Referat und Hausarbeit

Page 23: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 23

Einführung in die Diskursrepräsentationstheorie - CS-CL, BS-CL, BS-FL, A07

PS; Nr.: 09-160-10-28; SWS: 2

Mo; Einzel; 09:15 - 17:00; 11.10.2010 - 11.10.2010; INF 328 / SR 16; Eberle, K.

Di; Einzel; 09:15 - 17:00; 12.10.2010 - 12.10.2010; INF 327 / SR 6;

Mi; Einzel; 09:15 - 17:00; 13.10.2010 - 13.10.2010; INF 328 / SR 16;

Do; Einzel; 09:15 - 17:00; 14.10.2010 - 14.10.2010; INF 327 / SR 6;

Fr; Einzel; 09:15 - 17:00; 15.10.2010 - 15.10.2010; INF 328 / SR 16;

Kommentar Leistungsbewertung:

BA-2010[100%|75%] (CS-CL): 6 LP

BA-2010[50%|25%] (BS-CL, BS-FL): 4 LP

NBA[100%|75%] (CS-CL): 6 LP

NBA[50%|25%] (BS-CL, BS-FL): 4 LP

ABA (A07): 4 LPInhalt Die Diskursrepräsentationstheorie stellt eine sehr elegante und ausdrucksstarke

Sprache zur Verfügung, mit der der Gehalt von Diskursen logisch sauber erfasstwerden kann. So können, zumindest prinzipiell, einerseits die verschiedenen Lesartenvon Sätzen und Texten aufgezeigt und formal voneinander unterschieden werden.Andererseits wird der Text allen Arten von logischer Inferenz zugänglich. Berechnetwerden können solche sogenannten Diskursrepräsentationsstrukturen (DRSen) mitdem theorieimmanenten DRS-Konstruktionsalgorithmus.

In dem Proseminar sollen die wesentlichen Repräsentationsmittel undKonstruktionsregeln der DRT ausführlich an Beispielen motiviert und diskutiert werden.Es soll deutlich werden wie DRSen aus syntaktischen Analysen von Sätzen und Textenerzeugt werden können und wofür sie inhaltlich stehen, d.h. was ihre Bedeutung immodelltheoretischen Sinn ist.

Der Kurs folgt im Wesentlichen der Einführung von Hans Kamp und Uwe Reyle zurDRT.

In einem erweiterten Ausblick sollen einige Weiterentwicklungen der Theorieskizziert werden, die erlauben, Lesart-Alternativen zusammenzufassen. Solche sog.'unterspezifizierten' Repräsentationen sind aus psychologischer Sicht, aber auch unterpraktischen Gesichtspunkten, wie der effizienten Verwendbarkeit in Textverstehens-oder Übersetzungssystemen besonders interessant.

Leistungsnachweis AbschlussklausurVoraussetzung KeineLiteratur * Hans Kamp und Uwe Reyle: From Discourse to Logic, Kluwer, Dordrecht, 1993

Weitere Literatur wird zu Beginn des Seminars bekannt gegeben Parallele Korpora in der Sprachverarbeitung - CS-CL, BS-CL, BS-FL, A13

PS; Nr.: 09-160-10-29; SWS: 2

Mi; wöch; 11:15 - 12:45; ab 20.10.2010; INF 327 / SR 1; Padó, S.

Kommentar Leistungsbewertung:

BA-2010[100%|75%] (CS-CL): 6 LP

BA-2010[50%|25%] (BS-CL, BS-AC): 4 LP

NBA[100%|75%] (CS-CL): 6 LP

NBA[50%|25%] (BS-CL, BS-AC): 4 LP

ABA (A13): 4 LP

Page 24: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 24

Inhalt Das Proseminar hat ein doppeltes Ziel: sowohl Wissen über parallele Korpora als auchPraxis in der Präsentation von Forschungsinhalten zu vermitteln.

Inhaltlich diskutiert das Proseminar aktuelle Literatur zur Verwendungparalleler Korpora -- sowohl ein- als auch mehrsprachig -- in der maschinellenSprachverarbeitung. Dabei liegt der Schwerpunkt auf der Induktion linguistischenWissens; das Thema "Maschinelle Übersetzung" wird (nur) am Rande gestreift. DasSeminar wird um fünf zentrale Aspekte der Verwendung paralleler Korpora herumaufgebaut sein:

* Alinierung: Wie werden Wörter in parallelen Korpora aliniert, d.h. einanderzugeordnet?

* Das Wesen von parallelen Korpora: Wie parallel sind die sprachlichen Strukturenwirklich? Wie parallel sind Übersetzungen?

* Induktion von Wissen in der Zielsprache aus annotierten Quellkorpora* Induktion von Wissen in der Zielsprache aus unannotierten Quellkorpora* Jenseits von parallelen Korpora: Was tun, wenn es keine parallelen Korpora gibt?

Zusätzlich wird es methodologisch orientierte Sitzungen zu Themen wie dem Haltenvon Vorträgen und dem Schreiben von Hausarbeiten geben.

Leistungsnachweis * Aktive und regelmäßige Teilnahme* Referat (30-40 Min.) und "Gegenreferat" (10 Min.)* Hausarbeit (5-10 Seiten)

Computerlinguistisches Kolloquium - Coll, V02

K; Nr.: 09-160-20-04; SWS: 2

Di; k.A.; 18:15 - 19:45; ab 12.10.2010; INF 325 / SR 24; Frank, A.;Riezler, S.

Kommentar Leistungsbewertung:

BA-2010 (Coll): 2 LP

NBA (-): Freiwillig, keine LP

ABA (V02): 4 LP

MA (Coll): 2 LPInhalt Präsentation laufender BA-, MA- und Magisterarbeiten

Das Computerlinguistische Kolloquium bietet BA-, MA- und Magisterstudierenden einForum für die Vorstellung und Diskussion ihrer Abschlussarbeiten. Die Studierendenpräsentieren den aktuellen Stand ihrer Arbeit und erhalten in der DiskussionAnregungen von Seiten der Studierenden und der Dozenten.

Externe Vorträge

Darüber hinaus bietet das Computerlinguistische Kolloquium allen Studierendendurch Vorträge geladener Gäste Einblicke in aktuelle Forschungsfragen derComputerlinguistik.

Externe Vorträge finden im Rahmen des Doktorandenkolloquiums (Do, 18:15-19:45)statt.

Organisation

In der ersten Sitzung findet eine Informationsveranstaltung statt, in der allgemeineFragen zum Ablauf der Prüfungsphase in den BA-, MA- und Magisterstudiengängenerläutert werden.

Die Teilnahme an diesen Einführungssitzungen ist verpflichtend für Studierendealler Studiengangarten , die sich vor der Prüfungsphase befinden. Sie entlastenhierdurch die Sprechstunden. Entschuldigungen nur bei Vorlage eines Attests undnachweislicher triftiger Gründe.

Page 25: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 25

Leistungsnachweis Vortrag (BA-2010, ABA, MA) und Ausarbeitung (ABA); regelmäßige Präsenz istVoraussetzung für den Scheinerwerb.

Ein Leistungserwerb ist nur für Examenskandidat/innen im Bachelorstudiengang(BA-2010, ABA) und Masterstudiengang (MA) vorgesehen. Jedoch sind alleStudierenden eingeladen, ihre Abschlussarbeiten vorzustellen, den Vorträgenzuzuhören und sich an den Diskussionen zu beteiligen.

Information Retrieval - AS-CL, V01, SS-CL, SS-TAC

HpS; Nr.: 09-160-20-07; SWS: 2

Mo; wöch; 11:15 - 12:45; ab 18.10.2010; INF 325 / SR 24; Haenelt, K.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt Information Retrieval Systeme sollen Informationssuchende dabei unterstützen,

aus großen elektronisch verfügbaren Informationsmengen (Texte, Datenbanken,multimediale Dokumente) passende Information herauszufinden. Im Seminar sollen dieverschiedenen Ansätze und grundlegende Methoden und Algorithmen solcher Systemeerarbeitet und vermittelt werden.

Leistungsnachweis Durchführung eines Seminarprojektes und ein ReferatVoraussetzung Zwischenprüfung in Computerlinguistik oder vergleichbare Kenntnisse, bestandene

Programmierprüfung Statistical Machine Translation - AS-CL, V01, SS-CL, SS-TAC

V/Ü; Nr.: 09-160-20-24; SWS: 4

Di; wöch; 11:15 - 12:45; ab 19.10.2010; INF 325 / SR 23a-c; Vorlesung; Riezler, S.

Mi; wöch; 14:15 - 15:45; ab 20.10.2010; INF 327 / SR 4; Übung; Fendrich, S.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt Die Vorlesung stellt zentrale Konzepte der Statistischen Maschinellen Übersetzung vor.

Mögliche Themenbereiche der Vorlesung sind:

* Alignment* Wort-basierte Modelle* Phrasen-basierte Modelle* Syntax-basierte Modelle* Dekodierung* Sprachmodelle* Evaluierung* Diskriminatives Training

Leistungsnachweis * Aktive und regelmässige Teilnahme

* Bearbeitung der Übungsaufgaben* Klausur

Die Teilnahme an Vorlesung und Übung ist verpflichtend.Voraussetzung Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra, z.B. aus

Mathematischem Grundkurs

Page 26: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 26

Literatur Grundlage der Vorlesung ist

* Koehn (2010). Statistical Machine Translation. Cambridge. Link:http://www.statmt.org/book/

Topics in Machine Learning for NLP - AS-CL, V01, SS-CL, SS-TAC

HpS; Nr.: 09-160-20-25; SWS: 2

Do; Einzel; 11:15 - 12:45; 14.10.2010 - 14.10.2010; INF 327 / SR 5; Einführung; Riezler, S.

Fr; Einzel; 10:15 - 17:45; 04.02.2011 - 04.02.2011; INF 306 / SR 19; Block; Riezler, S.

Do; Einzel; 10:15 - 17:45; 10.02.2011 - 10.02.2011; INF 306 / SR 19; Block; Riezler, S.

Fr; Einzel; 10:15 - 17:45; 11.02.2011 - 11.02.2011; INF 306 / SR 19; Block; Riezler, S.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt Das Hauptseminar dient der Diskussion von methodologischen und praktischen

Fragen in der Anwendung von Maschinellen Lernverfahren auf computerlinguistischeProbleme. Mögliche Themenbereiche sind:

* Beispielsprojekte* Experimentelles Design* Softwareverwaltung* Rauschfreie Datenannotierung* Cross-Validierung* Signifikanztests* Metaparameter-Einschätzung

Die Veranstaltung wird gemeinschaftlich mit Prof. Hinrich Schütze und Dr. Alex Fraservom IMS Stuttgart organisiert, wobei mindestens ein Block in Stuttgart stattfinden wird.

Leistungsnachweis * Aktive und regelmässige Teilnahme* Referat

Voraussetzung Grundbegriffe von Statistik und Machine LearningLiteratur Eine Liste möglicher Referatsthemen wird in der Einführungsveranstaltung

bekanntgegeben. Graph-based Methods for Natural Language Processing - AS-CL, V01, SS-CL, SS-TAC

HpS; Nr.: 09-160-20-26; SWS: 2

Do; wöch; 14:15 - 15:45; ab 21.10.2010; INF 325 / SR 24; Ponzetto, S.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt In the last years Natural Language Processing (NLP) researchers have shown a

considerable amount of interest in developing methods based on graph theoreticmodels, with a large variety of NLP applications adopting efficient and elegant solutionsfrom graph-theoretical frameworks.

This seminar will provide a gentle introduction to state-of-the-art graph-based methodsfor NLP applications. These include, but are not limited to:

Page 27: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 27

* Word sense disambiguation* Information extraction* Automatic summarization* Co-reference resolution* Named entity recognition and disambiguation

The course will be offered as a project seminar. Students will present current work fromthe literature in short, seminar-format presentations (i.e., Referate). In addition, they willbe expected to form small groups of 2-3 people and work on a project, e.g. implementand/or extend an existing state-of-the-art graph-based NLP method. Each one of thegroups is expected to submit a short report (2-4 pages), as well as to regularly give anupdate on the status of their project -- i.e. as a very short, informal presentation on aregular basis. Students are expected to *actively* participate in the class discussionsduring their fellow students' presentations, as well as in the seminar's projects. Thismeans that you'll have to read the papers *before* the class period in which they willbe presented and discussed, as well as *clearly* present to the audience what yourspecific work was as part of the seminar's projects.

Leistungsnachweis Aktive Teilnahme und regelmäßige Abgabe von Projektenarbeit in kleinen Gruppen.Vortrag/Präsentation.

Zusammensetzung der Endnote:

* 1/3: Präsentation* 1/3: Beteiligung an den Seminarprojekten* 1/3: Beteiligung an den Diskussionen im Seminar

Voraussetzung Voraussetzungen sind die bestandene Zwischenprüfung (Magister) undProgrammierprüfung. Vorkenntnisse in statistischer NLP oder Maschinellem Lernensind von Vorteil.

Literatur We will mostly read and meditate on conference papers from past meetings of theAssociation for Computational Linguistics (ACL) and related workshops (i.e. the"TextGraphs" workshop series). Students are *encouraged to select and read 1-2papers* from the previous TextGraphs workshops:

* TextGraphs-1

http://www.textgraphs.org/ws06* TextGraphs-2

http://www.textgraphs.org/ws07* TextGraphs-3

http://lit.csci.unt.edu/~textgraphs/ws08/* TextGraphs-4

http://www.textgraphs.org/ws09/

before the beginning of the course, in order to have a taste of it content. Koreferenzresolution - AS-CL, V01, SS-CL, SS-TAC

HpS; Nr.: 09-160-20-27; SWS: 2

Do; wöch; 16:15 - 17:45; ab 21.10.2010; INF 325 / SR 24; Strube, M.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt Texte und Dialoge zu verstehen, ist nur möglich, wenn man sich Zusammenhänge

zwischen Sätzen und Äußerungen erschließen kann. Ein wichtiges sprachliches Mittel,

Page 28: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 28

solche Zusammenhänge auszudrücken, sind anaphorische Ausdrücke, in erster LiniePronomen und definite Nominalphrasen.

Anaphern- und Koreferenzresolution ist eines der ältesten und aktivsten Themender Computerlinguistik. Das Seminar beginnt mit linguistischen Grundlagen(Bindungstheorie, Salienz, Typen anaphorischer Ausdrücke) und mit klassischenArbeiten aus den 1970er und 1980er Jahren (Hobbs-Algorithmus). Dann wird aufFokus- und Centeringmodell eingegangen. Der Lappin & Leass-Algorithmus wirdeingehend besprochen, bevor heuristische, wissensarme Ansätze besprochen werden.Der Schwerpunkt des Seminars wird auf aktuellen, machine-learning-basiertenAnsätzen liegen, beginnend mit dem paarweisen Klassifikator von Soon et al. (2001)und dessen vielfältige Weiterentwicklung in Hinsicht auf Features und Lernverfahren.Abschließend wird auf globale, graph-basierte Ansätze eingegangen sowie aufunüberwachte Ansätze. Des weiteren werden Fragen der Annotation besprochen undannotierte Korpora eingeführt. Schließlich wird auch auf die Koreferenzresolution ingesprochener Sprache eingegangen.

Leistungsnachweis * aktive Teilnahme* Vortrag/Präsentation* Seminar- oder Hausarbeit

Voraussetzung Zwischenprüfung in Computerlinguistik oder vergleichbare Kenntnisse, bestandeneProgrammierprüfung

Literatur * Strube, Michael (2009). Anaphernresolution. In K.-U. Carstensen, C. Ebert, C.Endriss, S. Jekat, R. Klabunde, and H. Langer, editors, Computerlinguistik undSprachtechnologie. Eine Einführung, pp. 399-409. Heidelberg, Germany: Springer,3rd edition

* Mitkov, Ruslan (2002). Anaphora Resolution. London, U.K.: Longman* Soon, Wee Meng, Daniel Chung Yong Lim & Hwee Tou Ng (2001). A Machine

Learning Approach to Coreference Resolution of Noun Phrases. In ComputationalLinguistics, 27 (4), pp.521-544.

(vollständige Liste wird zu Beginn des Semesters zur Verfügung gestellt) Discriminative Methods for Machine Translation - AS-CL, V01, SS-CL, SS-TAC

HpS; Nr.: 09-160-20-28; SWS: 2

Do; wöch; 11:15 - 12:45; ab 21.10.2010; INF 327 / SR 5; Riezler, S.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt Das Hauptseminar dient der Diskussion von neuesten Entwicklungen in der Statistical

Machine Translation (SMT) bezüglich der Verwendung diskriminativer MachineLearning Methoden. Hierbei wird der in den 1990er Jahren etablierte Standard vongenerativen Modellen und frequenz-basierter Trainingsverfahren durch komplexereMethoden abgelöst, die zu einer direkten Optimierung der Übersetzungs-Fehlerratemoderne Machine Learning Verfahren wie Support Vector Machines, Online Learningund Risk Minimization verwenden.

Mögliche Themenbereiche des Hauptseminars sind:

* Direct Error Minimization* Discriminative (Re)Ranking* Domain/Task Adaptation

Leistungsnachweis * Aktive und regelmässige Teilnahme* Referat

Voraussetzung Grundbegriffe von Statistik und Machine Learning

Page 29: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 29

Literatur Eine Liste möglicher Referatsthemen wird in der ersten Seminarsitzungbekanntgegeben.

Doktorandenkolloquium

K; SWS: 3

Do; wöch; 18:15 - 20:30; ab 21.10.2010; INF 325 / SR 24; Frank, A.; Padó, S.; Riezler, S.

Do; k.A.; 18:15 - 20:30; INF 328 / SR 25; externe Vorträge; Frank, A.; Padó, S.; Riezler, S.

Inhalt Das Kolloquium bietet Doktoranden des Seminars für Computerlinguistik sowie derAbteilung NLP des HITS (Heidelberg Institute for Theoretical Studies) ein Forum für dieVorstellung und Diskussion ihrer laufenden Doktorarbeiten, sowie gemeinsame Lektüreund Diskussion zu ausgewählten Themenbereichen der Computerlinguistik.

Auch Bachelor- und Magisterabsolventen soll hier die Möglichkeit gegeben werden,ihre Abschlussarbeiten vorzustellen.

Im Rahmen des Kolloquiums finden externe Vorträge eingeladener Gastwissenschaftlerdes HITS und des Seminars für Computerlinguistik statt, zu denen interessierteWissenschaftler und Studenten herzlich eingeladen sind.

MasterInformation Retrieval - AS-CL, V01, SS-CL, SS-TAC

HpS; Nr.: 09-160-20-07; SWS: 2

Mo; wöch; 11:15 - 12:45; ab 18.10.2010; INF 325 / SR 24; Haenelt, K.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt Information Retrieval Systeme sollen Informationssuchende dabei unterstützen,

aus großen elektronisch verfügbaren Informationsmengen (Texte, Datenbanken,multimediale Dokumente) passende Information herauszufinden. Im Seminar sollen dieverschiedenen Ansätze und grundlegende Methoden und Algorithmen solcher Systemeerarbeitet und vermittelt werden.

Leistungsnachweis Durchführung eines Seminarprojektes und ein ReferatVoraussetzung Zwischenprüfung in Computerlinguistik oder vergleichbare Kenntnisse, bestandene

Programmierprüfung Computerlinguistisches Kolloquium - Coll, V02

K; Nr.: 09-160-20-04; SWS: 2

Di; k.A.; 18:15 - 19:45; ab 12.10.2010; INF 325 / SR 24; Frank, A.;Riezler, S.

Kommentar Leistungsbewertung:

BA-2010 (Coll): 2 LP

NBA (-): Freiwillig, keine LP

ABA (V02): 4 LP

MA (Coll): 2 LPInhalt Präsentation laufender BA-, MA- und Magisterarbeiten

Das Computerlinguistische Kolloquium bietet BA-, MA- und Magisterstudierenden einForum für die Vorstellung und Diskussion ihrer Abschlussarbeiten. Die Studierendenpräsentieren den aktuellen Stand ihrer Arbeit und erhalten in der DiskussionAnregungen von Seiten der Studierenden und der Dozenten.

Page 30: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 30

Externe Vorträge

Darüber hinaus bietet das Computerlinguistische Kolloquium allen Studierendendurch Vorträge geladener Gäste Einblicke in aktuelle Forschungsfragen derComputerlinguistik.

Externe Vorträge finden im Rahmen des Doktorandenkolloquiums (Do, 18:15-19:45)statt.

Organisation

In der ersten Sitzung findet eine Informationsveranstaltung statt, in der allgemeineFragen zum Ablauf der Prüfungsphase in den BA-, MA- und Magisterstudiengängenerläutert werden.

Die Teilnahme an diesen Einführungssitzungen ist verpflichtend für Studierendealler Studiengangarten , die sich vor der Prüfungsphase befinden. Sie entlastenhierdurch die Sprechstunden. Entschuldigungen nur bei Vorlage eines Attests undnachweislicher triftiger Gründe.

Leistungsnachweis Vortrag (BA-2010, ABA, MA) und Ausarbeitung (ABA); regelmäßige Präsenz istVoraussetzung für den Scheinerwerb.

Ein Leistungserwerb ist nur für Examenskandidat/innen im Bachelorstudiengang(BA-2010, ABA) und Masterstudiengang (MA) vorgesehen. Jedoch sind alleStudierenden eingeladen, ihre Abschlussarbeiten vorzustellen, den Vorträgenzuzuhören und sich an den Diskussionen zu beteiligen.

Statistical Machine Translation - AS-CL, V01, SS-CL, SS-TAC

V/Ü; Nr.: 09-160-20-24; SWS: 4

Di; wöch; 11:15 - 12:45; ab 19.10.2010; INF 325 / SR 23a-c; Vorlesung; Riezler, S.

Mi; wöch; 14:15 - 15:45; ab 20.10.2010; INF 327 / SR 4; Übung; Fendrich, S.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt Die Vorlesung stellt zentrale Konzepte der Statistischen Maschinellen Übersetzung vor.

Mögliche Themenbereiche der Vorlesung sind:

* Alignment* Wort-basierte Modelle* Phrasen-basierte Modelle* Syntax-basierte Modelle* Dekodierung* Sprachmodelle* Evaluierung* Diskriminatives Training

Leistungsnachweis * Aktive und regelmässige Teilnahme

* Bearbeitung der Übungsaufgaben* Klausur

Die Teilnahme an Vorlesung und Übung ist verpflichtend.Voraussetzung Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra, z.B. aus

Mathematischem GrundkursLiteratur Grundlage der Vorlesung ist

Page 31: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 31

* Koehn (2010). Statistical Machine Translation. Cambridge. Link:http://www.statmt.org/book/

Topics in Machine Learning for NLP - AS-CL, V01, SS-CL, SS-TAC

HpS; Nr.: 09-160-20-25; SWS: 2

Do; Einzel; 11:15 - 12:45; 14.10.2010 - 14.10.2010; INF 327 / SR 5; Einführung; Riezler, S.

Fr; Einzel; 10:15 - 17:45; 04.02.2011 - 04.02.2011; INF 306 / SR 19; Block; Riezler, S.

Do; Einzel; 10:15 - 17:45; 10.02.2011 - 10.02.2011; INF 306 / SR 19; Block; Riezler, S.

Fr; Einzel; 10:15 - 17:45; 11.02.2011 - 11.02.2011; INF 306 / SR 19; Block; Riezler, S.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt Das Hauptseminar dient der Diskussion von methodologischen und praktischen

Fragen in der Anwendung von Maschinellen Lernverfahren auf computerlinguistischeProbleme. Mögliche Themenbereiche sind:

* Beispielsprojekte* Experimentelles Design* Softwareverwaltung* Rauschfreie Datenannotierung* Cross-Validierung* Signifikanztests* Metaparameter-Einschätzung

Die Veranstaltung wird gemeinschaftlich mit Prof. Hinrich Schütze und Dr. Alex Fraservom IMS Stuttgart organisiert, wobei mindestens ein Block in Stuttgart stattfinden wird.

Leistungsnachweis * Aktive und regelmässige Teilnahme* Referat

Voraussetzung Grundbegriffe von Statistik und Machine LearningLiteratur Eine Liste möglicher Referatsthemen wird in der Einführungsveranstaltung

bekanntgegeben. Graph-based Methods for Natural Language Processing - AS-CL, V01, SS-CL, SS-TAC

HpS; Nr.: 09-160-20-26; SWS: 2

Do; wöch; 14:15 - 15:45; ab 21.10.2010; INF 325 / SR 24; Ponzetto, S.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt In the last years Natural Language Processing (NLP) researchers have shown a

considerable amount of interest in developing methods based on graph theoreticmodels, with a large variety of NLP applications adopting efficient and elegant solutionsfrom graph-theoretical frameworks.

This seminar will provide a gentle introduction to state-of-the-art graph-based methodsfor NLP applications. These include, but are not limited to:

Page 32: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 32

* Word sense disambiguation* Information extraction* Automatic summarization* Co-reference resolution* Named entity recognition and disambiguation

The course will be offered as a project seminar. Students will present current work fromthe literature in short, seminar-format presentations (i.e., Referate). In addition, they willbe expected to form small groups of 2-3 people and work on a project, e.g. implementand/or extend an existing state-of-the-art graph-based NLP method. Each one of thegroups is expected to submit a short report (2-4 pages), as well as to regularly give anupdate on the status of their project -- i.e. as a very short, informal presentation on aregular basis. Students are expected to *actively* participate in the class discussionsduring their fellow students' presentations, as well as in the seminar's projects. Thismeans that you'll have to read the papers *before* the class period in which they willbe presented and discussed, as well as *clearly* present to the audience what yourspecific work was as part of the seminar's projects.

Leistungsnachweis Aktive Teilnahme und regelmäßige Abgabe von Projektenarbeit in kleinen Gruppen.Vortrag/Präsentation.

Zusammensetzung der Endnote:

* 1/3: Präsentation* 1/3: Beteiligung an den Seminarprojekten* 1/3: Beteiligung an den Diskussionen im Seminar

Voraussetzung Voraussetzungen sind die bestandene Zwischenprüfung (Magister) undProgrammierprüfung. Vorkenntnisse in statistischer NLP oder Maschinellem Lernensind von Vorteil.

Literatur We will mostly read and meditate on conference papers from past meetings of theAssociation for Computational Linguistics (ACL) and related workshops (i.e. the"TextGraphs" workshop series). Students are *encouraged to select and read 1-2papers* from the previous TextGraphs workshops:

* TextGraphs-1

http://www.textgraphs.org/ws06* TextGraphs-2

http://www.textgraphs.org/ws07* TextGraphs-3

http://lit.csci.unt.edu/~textgraphs/ws08/* TextGraphs-4

http://www.textgraphs.org/ws09/

before the beginning of the course, in order to have a taste of it content. Koreferenzresolution - AS-CL, V01, SS-CL, SS-TAC

HpS; Nr.: 09-160-20-27; SWS: 2

Do; wöch; 16:15 - 17:45; ab 21.10.2010; INF 325 / SR 24; Strube, M.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt Texte und Dialoge zu verstehen, ist nur möglich, wenn man sich Zusammenhänge

zwischen Sätzen und Äußerungen erschließen kann. Ein wichtiges sprachliches Mittel,

Page 33: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 33

solche Zusammenhänge auszudrücken, sind anaphorische Ausdrücke, in erster LiniePronomen und definite Nominalphrasen.

Anaphern- und Koreferenzresolution ist eines der ältesten und aktivsten Themender Computerlinguistik. Das Seminar beginnt mit linguistischen Grundlagen(Bindungstheorie, Salienz, Typen anaphorischer Ausdrücke) und mit klassischenArbeiten aus den 1970er und 1980er Jahren (Hobbs-Algorithmus). Dann wird aufFokus- und Centeringmodell eingegangen. Der Lappin & Leass-Algorithmus wirdeingehend besprochen, bevor heuristische, wissensarme Ansätze besprochen werden.Der Schwerpunkt des Seminars wird auf aktuellen, machine-learning-basiertenAnsätzen liegen, beginnend mit dem paarweisen Klassifikator von Soon et al. (2001)und dessen vielfältige Weiterentwicklung in Hinsicht auf Features und Lernverfahren.Abschließend wird auf globale, graph-basierte Ansätze eingegangen sowie aufunüberwachte Ansätze. Des weiteren werden Fragen der Annotation besprochen undannotierte Korpora eingeführt. Schließlich wird auch auf die Koreferenzresolution ingesprochener Sprache eingegangen.

Leistungsnachweis * aktive Teilnahme* Vortrag/Präsentation* Seminar- oder Hausarbeit

Voraussetzung Zwischenprüfung in Computerlinguistik oder vergleichbare Kenntnisse, bestandeneProgrammierprüfung

Literatur * Strube, Michael (2009). Anaphernresolution. In K.-U. Carstensen, C. Ebert, C.Endriss, S. Jekat, R. Klabunde, and H. Langer, editors, Computerlinguistik undSprachtechnologie. Eine Einführung, pp. 399-409. Heidelberg, Germany: Springer,3rd edition

* Mitkov, Ruslan (2002). Anaphora Resolution. London, U.K.: Longman* Soon, Wee Meng, Daniel Chung Yong Lim & Hwee Tou Ng (2001). A Machine

Learning Approach to Coreference Resolution of Noun Phrases. In ComputationalLinguistics, 27 (4), pp.521-544.

(vollständige Liste wird zu Beginn des Semesters zur Verfügung gestellt) Discriminative Methods for Machine Translation - AS-CL, V01, SS-CL, SS-TAC

HpS; Nr.: 09-160-20-28; SWS: 2

Do; wöch; 11:15 - 12:45; ab 21.10.2010; INF 327 / SR 5; Riezler, S.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt Das Hauptseminar dient der Diskussion von neuesten Entwicklungen in der Statistical

Machine Translation (SMT) bezüglich der Verwendung diskriminativer MachineLearning Methoden. Hierbei wird der in den 1990er Jahren etablierte Standard vongenerativen Modellen und frequenz-basierter Trainingsverfahren durch komplexereMethoden abgelöst, die zu einer direkten Optimierung der Übersetzungs-Fehlerratemoderne Machine Learning Verfahren wie Support Vector Machines, Online Learningund Risk Minimization verwenden.

Mögliche Themenbereiche des Hauptseminars sind:

* Direct Error Minimization* Discriminative (Re)Ranking* Domain/Task Adaptation

Leistungsnachweis * Aktive und regelmässige Teilnahme* Referat

Voraussetzung Grundbegriffe von Statistik und Machine Learning

Page 34: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 34

Literatur Eine Liste möglicher Referatsthemen wird in der ersten Seminarsitzungbekanntgegeben.

Doktorandenkolloquium

K; SWS: 3

Do; wöch; 18:15 - 20:30; ab 21.10.2010; INF 325 / SR 24; Frank, A.; Padó, S.; Riezler, S.

Do; k.A.; 18:15 - 20:30; INF 328 / SR 25; externe Vorträge; Frank, A.; Padó, S.; Riezler, S.

Inhalt Das Kolloquium bietet Doktoranden des Seminars für Computerlinguistik sowie derAbteilung NLP des HITS (Heidelberg Institute for Theoretical Studies) ein Forum für dieVorstellung und Diskussion ihrer laufenden Doktorarbeiten, sowie gemeinsame Lektüreund Diskussion zu ausgewählten Themenbereichen der Computerlinguistik.

Auch Bachelor- und Magisterabsolventen soll hier die Möglichkeit gegeben werden,ihre Abschlussarbeiten vorzustellen.

Im Rahmen des Kolloquiums finden externe Vorträge eingeladener Gastwissenschaftlerdes HITS und des Seminars für Computerlinguistik statt, zu denen interessierteWissenschaftler und Studenten herzlich eingeladen sind.

MagisterMathematischer Vorkurs

Ü; Nr.: 09-160-00-01; SWS: 2

Mo; Einzel; 10:15 - 16:45; 11.10.2010 - 11.10.2010; INF 306 / SR 14; Simianer, P.

Di; Einzel; 10:15 - 16:45; 12.10.2010 - 12.10.2010; INF 327 / SR 20; Simianer, P.

Block; 10:15 - 16:45; 13.10.2010 - 15.10.2010; INF 328 / SR 17; Simianer, P.

Inhalt Der Mathematische Vorkurs dient vor allem einer Vorbereitung auf die Vorlesung"Statistical Methods for Computational Linguistics", steht aber auch anderenStudierenden offen. Themenbereiche des Kurses sind:

* mathematische Grundbegriffe

* Induktion

* Grundbegriffe der Statistik und Wahrscheinlichkeitstheorie

* Vektorräume

* Matrizen-Rechnung

* AbleitungenLeistungsnachweis keine LeistungsbewertungVoraussetzung Keine. Bei zu großer Teilnehmerzahl werden Studierende, die die Vorlesung "Statistical

Methods for Computational Linguistics" besuchen wollen, bevorzugtLiteratur Vorkurs-Niveau:

* Kemnitz: Mathematik zum Studienbeginn . Vieweg+Teubner, 2006.

Weiterführend:

* Jede Einführung in die Lineare Algebra

* Jede Einführung in Statistik und Wahrscheinlichkeitstheorie Einführung in die Nutzung computerlinguistischer Ressourcen

Ü; Nr.: 09-160-00-02; SWS: 2

Block; 10:00 - 13:00; 05.10.2010 - 08.10.2010; INF 325 / PCPool; Reiter, N.

Block; 14:00 - 17:00; 05.10.2010 - 08.10.2010; INF 325 / PCPool; Reiter, N.

Kommentar * begrenzte Teilnehmerzahl

Page 35: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 35

* ggf. Vorzug für Teilnehmer/-innen am Softwareprojekt.Inhalt Der Vorkurs vermittelt Grundlagen der Nutzung von Linux-basierten

computerlinguistischen Tools und Korpora. Dabei geht es sowohl um allgemeineLinux-Grundlagen (wie z.B. Ein-/Ausgabeumleitung oder nützliche Tools derLinux-Kommandozeile) als auch um einzelne Parser, Tagger, Chunker und andereHilfstools der Computerlinguistik.

Wir werden uns anschauen, wie bestimmte Tools zu benutzen sind, was man ausihnen herausbekommt (und was nicht) und wie man solche Ausgaben automatischweiterverarbeiten kann (und zum Beispiel an das nächste Tool weiterverfüttert).

Der Kurs beinhaltet Übungen - Wenn es nicht genug Arbeitsplätze für alle gibt, werden Teilnehmer/-innen am Softwareprojekt vorgezogen.

Leistungsnachweis Ungeprüft, unbenoteter ScheinVoraussetzung Programmierprüfung Einführung in wissenschaftliches Schreiben

Ü; Nr.: 09-160-00-03

Di; Einzel; 09:15 - 10:45; 19.10.2010 - 19.10.2010;

Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird esum technische und nicht-technische Fähigkeiten gehen, die man als Computerlinguistzum Verfassen wissenschaftlicher Arbeiten, wie z. B. Seminar- oder Abschlussarbeiten,braucht. Dazu werden wir uns zum einen mit dem Textsatzsystem TeX/LaTeXbeschäftigen, zum anderen mit dem kompletten Zyklus wissenschaftlichen Arbeitens,vom Recherchieren bis zum Schreiben und Strukturieren von wissenschaftlichenTexten. Im Rahmen einer Übung wird es Gelegenheit geben, das Gelernte praktischanzuwenden.

Voraussetzung Keine Voraussetzungen Computerlinguistisches Kolloquium - Coll, V02

K; Nr.: 09-160-20-04; SWS: 2

Di; k.A.; 18:15 - 19:45; ab 12.10.2010; INF 325 / SR 24; Frank, A.;Riezler, S.

Kommentar Leistungsbewertung:

BA-2010 (Coll): 2 LP

NBA (-): Freiwillig, keine LP

ABA (V02): 4 LP

MA (Coll): 2 LPInhalt Präsentation laufender BA-, MA- und Magisterarbeiten

Das Computerlinguistische Kolloquium bietet BA-, MA- und Magisterstudierenden einForum für die Vorstellung und Diskussion ihrer Abschlussarbeiten. Die Studierendenpräsentieren den aktuellen Stand ihrer Arbeit und erhalten in der DiskussionAnregungen von Seiten der Studierenden und der Dozenten.

Externe Vorträge

Darüber hinaus bietet das Computerlinguistische Kolloquium allen Studierendendurch Vorträge geladener Gäste Einblicke in aktuelle Forschungsfragen derComputerlinguistik.

Externe Vorträge finden im Rahmen des Doktorandenkolloquiums (Do, 18:15-19:45)statt.

Organisation

Page 36: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 36

In der ersten Sitzung findet eine Informationsveranstaltung statt, in der allgemeineFragen zum Ablauf der Prüfungsphase in den BA-, MA- und Magisterstudiengängenerläutert werden.

Die Teilnahme an diesen Einführungssitzungen ist verpflichtend für Studierendealler Studiengangarten , die sich vor der Prüfungsphase befinden. Sie entlastenhierdurch die Sprechstunden. Entschuldigungen nur bei Vorlage eines Attests undnachweislicher triftiger Gründe.

Leistungsnachweis Vortrag (BA-2010, ABA, MA) und Ausarbeitung (ABA); regelmäßige Präsenz istVoraussetzung für den Scheinerwerb.

Ein Leistungserwerb ist nur für Examenskandidat/innen im Bachelorstudiengang(BA-2010, ABA) und Masterstudiengang (MA) vorgesehen. Jedoch sind alleStudierenden eingeladen, ihre Abschlussarbeiten vorzustellen, den Vorträgenzuzuhören und sich an den Diskussionen zu beteiligen.

Doktorandenkolloquium

K; SWS: 3

Do; wöch; 18:15 - 20:30; ab 21.10.2010; INF 325 / SR 24; Frank, A.; Padó, S.; Riezler, S.

Do; k.A.; 18:15 - 20:30; INF 328 / SR 25; externe Vorträge; Frank, A.; Padó, S.; Riezler, S.

Inhalt Das Kolloquium bietet Doktoranden des Seminars für Computerlinguistik sowie derAbteilung NLP des HITS (Heidelberg Institute for Theoretical Studies) ein Forum für dieVorstellung und Diskussion ihrer laufenden Doktorarbeiten, sowie gemeinsame Lektüreund Diskussion zu ausgewählten Themenbereichen der Computerlinguistik.

Auch Bachelor- und Magisterabsolventen soll hier die Möglichkeit gegeben werden,ihre Abschlussarbeiten vorzustellen.

Im Rahmen des Kolloquiums finden externe Vorträge eingeladener Gastwissenschaftlerdes HITS und des Seminars für Computerlinguistik statt, zu denen interessierteWissenschaftler und Studenten herzlich eingeladen sind.

Informatik und ProgrammierpraxisProgrammieren I - P I, B02

V/Ü; Nr.: 09-160-04-01; SWS: 4

Di; wöch; 14:15 - 15:45; ab 19.10.2010; INF 306 / SR 14; Hartung, M.

Do; wöch; 14:15 - 15:45; ab 21.10.2010; INF 306 / SR 13; Hartung, M.

Kommentar Leistungsbewertung:

BA-2010 (P I): 6 LP

NBA (P I): 6 LP

ABA (B02): 6 LP

ÜK: 3 LPInhalt Ziel dieser Vorlesung ist, Studierenden einen ersten Überblick über die systematische

Entwicklung von wartbaren und korrekten Programmen zu geben. Dies geschiehtanhand der objektorientieren, interpretierten Sprache Python, die mit einem einfachenObjektmodell, guter Unterstützung der Modularisierung und einer reichen Bibliothekeinen raschen Zugang zu modernen Programmiertechniken und zudem weitgehendePlattformunabhängigkeit bietet. Dabei wird versucht, den Stoff möglichst anhandkonkreter (computerlinguistischer) Fragestellungen zu entwickeln.

Themen:

* Programmierung als Problemlösen

* Werte, Typen, Variablen

Page 37: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 37

* Funktionen

* Kontrollstrukturen

* Sequenzen

* Dictionaries* Datei- und Prozessmanagement* Klassen und Objekte

* Ausblick auf funktionales Programmieren

* Reguläre Ausdrücke

* XML-Behandlung in Python

Leistungsnachweis Bearbeiten der wöchentlichen Übungsaufgaben, Bestehen der Abschlussklausur. Dieerfolgreich bestandene Klausur ist Teil der Orientierungsprüfung.

Begleitveranstaltung zum Softwareprojekt - SP, V03

S; Nr.: 09-160-12-01; SWS: 2

Di; wöch; 14:15 - 15:45; ab 19.10.2010; INF 325 / SR 24; Ponzetto, S.

Di; wöch; 16:15 - 17:45; ab 19.10.2010; INF 325 / SR 24; Padó, S.

Kommentar Leistungsbewertung:

BA-2010 (SP): 6 LP + 4 LP ÜK

NBA (SP): 6 LP + 4 LP ÜK

ABA (V03): 6 LPInhalt Im Softwareprojekt soll eine computerlinguistische Aufgabenstellung weitgehend

eigenverantwortlich und in Teamarbeit geplant, softwaretechnisch durchgeführt,dokumentiert und abschließend präsentiert werden.

Neben der Vertiefung praktischer Programmierkenntnisse (Techniken und Werkzeugefür verteilte Programmerstellung, Testverfahren und Qualitätskontrolle, Dokumentation,etc.) sollen Teamfähigkeit und planerische Fähigkeiten geübt werden. Daneben werdengrundlegende Techniken und Methoden wissenschaftlichen Arbeitens vermittelt.

Leistungsnachweis Teilnahme an allen Einführungsvorlesungen, Projekt-Spezifikationsvortrag,Projekt-Abschlussvortrag und Demo, Programmdokumentation und Archivierung

Voraussetzung Programmierprüfung, Einführung in die Benutzung computerlinguistischer Ressourcen

Voranmeldung: Per Mail an [email protected]

Literatur Abhängig vom Projekt; wird zu Beginn des Semesters bekannt gegeben

Theoretische und empirische Grundlagen der LinguistikLogische Grundlagen für die Computerlinguistik - FF-L, B11

V/Ü; Nr.: 09-160-02-02; SWS: 2

Mo; 14täg.; 09:15 - 12:45; ab 18.10.2010; INF 325 / SR 7; Herweg, M.

Kommentar Leistungsbewertung:

BA-2010 (FF-L): 6 LP

NBA (FF-L): 6 LP

ABA (B11): 4 LP

ÜK: 2 LPInhalt Fundierte Logikkenntnisse sind unverzichtbar für Anwendungen in der

Computerlinguistik und theoretischen Linguistik. Dies gilt für die gängigenBeschreibungsformate in nahezu allen (computer-)linguistischen Teildisziplinen(Syntax, Semantik, Morphologie, Phonologie, ...) ebenso wie für sprachtechnologische

Page 38: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 38

Implementierungen. Der Kurs bietet eine Einführung in die Logik und legt dabeibesonderen Wert auf die praktische Einübung grundlegender logischer Methoden undTechniken. Behandelt werden, nach einer Auffrischung grundlegender mathematicherKonzepte, Syntax und Semantik der Aussagenlogik und der Prädikatenlogik 1. Stufemit einem Ausblick auf weiterführende Logiksysteme und logikbasierte Formalismen für(computer-)linguistische Anwendungen.

Leistungsnachweis Scheinerwerb durch Teilnahme am Tutorium und Bestehen der AbschlussklausurLiteratur Wird in der Veranstaltung bekanntgegeben Einführung in die Sprachwissenschaft - FLA

V/Ü; Nr.: 09-160-03-01; SWS: 2; LP: 4

Mo; wöch; 16:15 - 17:45; ab 18.10.2010; INF 306 / SR 13; Witt, A.

Kommentar Leistungsbewertung:

BA-2010 (FLA): 4 LP

NBA (FLA): 4 LPInhalt Diese Veranstaltung führt in die Grundlagen der Linguistik ein. Es werden dabei die

Kernbereiche des Sprachsystems, wie Morphologie, Syntax, Semantik, Pragmatik,Phonetik und Phonologie, thematisiert.

Darüber hinaus werden Teilgebiete der Linguistik (z.B. Psycholinguistik,Korpuslinguistik, forensische Linguistik) angesprochen.

Leistungsnachweis Regelmäßige Teilnahme und aktive Mitarbeit, Lösung von Übungsaufgaben, Klausur.Literatur * Victoria A. Fromkin, Robert Rodman, Nina Hyams: An Introduction to Language.

7. Auflage, 8. Auflage (erschienen 2005) oder 9. Auflage (erschienen 2010), ItpsThomson Learning oder Cengage Learning Service

* Hadumod Bußmann: Lexikon der Sprachwissenschaft, Kröner Verlag

Weitere Literatur wird im Seminar bekannt gegeben. Formale Semantik - FSem, A07

V/Ü; Nr.: 09-160-07-01; SWS: 4

Do; wöch; 16:15 - 17:45; ab 21.10.2010; INF 328 / SR 25; Padó, S.Fr; wöch; 14:15 - 15:45; INF 327 / SR 2; Padó, S.

Kommentar Leistungsbewertung:

BA-2010 (FSem): 6 LP

NBA (FSem): 6 LP

ABA (A07): 4 LPInhalt Die Vorlesung soll einen möglichst breiten Überblick über Phänomene und

Problemfelder in der Semantik natürlicher Sprachen vermitteln, die computerlinguistischrelevanten Semantikformalismen und -theorien diskutieren und Werkzeuge undTechniken für die Bedeutungsverarbeitung vorstellen.

Die Vorlesung gliedert sich grob in drei Teile: Der erste Teil vermittelt die logischenGrundlagen der modelltheoretischen (Satz-) Semantik und diskutiert Verfahren fürdie Semantikkonstruktion. Der zweite Teil der Vorlesung widmet sich der formalenBehandlung von text- und diskurssemantischen Phänomenen wie Anaphern undPräsupposition am Beispiel der Diskursrepräsentationstheorie (DRT). Im dritten Teildiskutieren wir Beschreibungsmodelle der lexikalischen Semantik (Dekomposition,Bedeutungsrelationen, Ereignisstruktur und thematische Rollen), und Modelle für dieFormalisierung in Wortnetzen und Ontologien.

Leistungsnachweis * Regelmäßige, substantielle Bearbeitung der Übungsaufgaben zur Klausurzulassung* Bestehen von zwei Klausuren (eine Anfang Dezember, eine Anfang Februar)

Voraussetzung Foundations of Linguistic Analysis (FLA), Formal Foundations, Logical Foundations(FF-L)

Page 39: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 39

Literatur * L.T.F. Gamut (1991). Logic, Language, and Meaning. Volume 2: Intensional Logicand Logical Grammar. The University of Chicago Press.

* Hans Kamp und Uwe Reyle (1993). From Discourse to Logic. Kluwer AcademicPublishers.

Weitere Literatur wird zu Beginn der Veranstaltung bekanntgegeben.

Korpuslinguistik - CS-CL, BS-CL, BS-FL, A12

V; Nr.: 09-160-10-08; SWS: 2

Fr; wöch; 11:15 - 12:45; ab 22.10.2010; INF 325 / SR 24; Zielinski, A.

Kommentar Leistungsbewertung:

BA-2010[100%|75%] (CS-CL): 6 LP

BA-2010[50%|25%] (BS-CL, BS-FL): 4 LP

NBA[100%|75%] (CS-CL): 6 LP

NBA[50%|25%] (BS-CL, BS-FL): 4 LP

ABA (A12): 4 LP

ÜK: 2 LPInhalt In der Korpuslinguistik werden linguistische Datensammlungen (Sprachkorpora)

systematisch gesammelt und gepflegt, da sie die Basis für linguistische Forschungbilden und zur Überprüfung linguistischer Theorien dienen können. Der Begriff'Korpus' ist definiert als "eine Sammlung schriftlicher oder gesprochener Äußerungenin einer oder mehrerer Sprachen. [...] Die Bestandteile des Korpus, die Texteoder Äußerungsfolgen, bestehen aus den Daten selbst sowie möglicherweise ausMetadaten, die diese Daten beschreiben, und aus linguistischen Annotationen, diediesen Daten zugeordnet sind." (Lemnitzer/Zinsmeister).

In der Vorlesung geht es um den Einsatz von Korpora in unterschiedlichen Bereichender Sprachwissenschaft. Ausgehend von den theoretischen Fragestellungen (z. B. inder computerunterstützten Lexikographie oder der Maschinellen Übersetzung) werdengrundlegende korpuslinguistische Methoden vorgestellt. Dazu gehören insbesondereeffiziente Technologien für die Korpussuche mit Tools wie XAIRA, Cosmas oderTigerSearch als auch Werkzeuge zur quantitativen Analyse (Kookkurrenzanalyse,Translation Memories, etc.).

Leistungsnachweis Leistungsnachweis ist eine Klausur (4 LP) oder Referat und Klausur (6 LP)Voraussetzung Die Teilnehmerzahl für diese Veranstaltung ist begrenzt. Bei zu vielen Teilnehmern

haben Studierende der Computerlinguistik Vorrang.Literatur * L. Lemnitzer/H. Zinsmeister, Korpuslinguistik: Eine Einführung, Narr, Tübingen 2006

* Ausgewählte Artikel aus: Anke Lüdeling & Merja Kytö (Hgg.): Corpus Linguistics. AnInternational Handbook. Mouton de Gruyter, Berlin 2008.

* Carstensen, K.-U.; C. Ebert; C. Endriss; S. Jekat; R. Klabunde & H. Langer (Hrsg.)(2009) Computerlinguistik und Sprachtechnologie. Eine Einführung. 3., überarbeiteteund erweiterte Auflage. Heidelberg: Spektrum Akademischer Verlag.

Einführung in die Diskursrepräsentationstheorie - CS-CL, BS-CL, BS-FL, A07

PS; Nr.: 09-160-10-28; SWS: 2

Mo; Einzel; 09:15 - 17:00; 11.10.2010 - 11.10.2010; INF 328 / SR 16; Eberle, K.

Di; Einzel; 09:15 - 17:00; 12.10.2010 - 12.10.2010; INF 327 / SR 6;

Mi; Einzel; 09:15 - 17:00; 13.10.2010 - 13.10.2010; INF 328 / SR 16;

Do; Einzel; 09:15 - 17:00; 14.10.2010 - 14.10.2010; INF 327 / SR 6;

Fr; Einzel; 09:15 - 17:00; 15.10.2010 - 15.10.2010; INF 328 / SR 16;

Page 40: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 40

Kommentar Leistungsbewertung:

BA-2010[100%|75%] (CS-CL): 6 LP

BA-2010[50%|25%] (BS-CL, BS-FL): 4 LP

NBA[100%|75%] (CS-CL): 6 LP

NBA[50%|25%] (BS-CL, BS-FL): 4 LP

ABA (A07): 4 LPInhalt Die Diskursrepräsentationstheorie stellt eine sehr elegante und ausdrucksstarke

Sprache zur Verfügung, mit der der Gehalt von Diskursen logisch sauber erfasstwerden kann. So können, zumindest prinzipiell, einerseits die verschiedenen Lesartenvon Sätzen und Texten aufgezeigt und formal voneinander unterschieden werden.Andererseits wird der Text allen Arten von logischer Inferenz zugänglich. Berechnetwerden können solche sogenannten Diskursrepräsentationsstrukturen (DRSen) mitdem theorieimmanenten DRS-Konstruktionsalgorithmus.

In dem Proseminar sollen die wesentlichen Repräsentationsmittel undKonstruktionsregeln der DRT ausführlich an Beispielen motiviert und diskutiert werden.Es soll deutlich werden wie DRSen aus syntaktischen Analysen von Sätzen und Textenerzeugt werden können und wofür sie inhaltlich stehen, d.h. was ihre Bedeutung immodelltheoretischen Sinn ist.

Der Kurs folgt im Wesentlichen der Einführung von Hans Kamp und Uwe Reyle zurDRT.

In einem erweiterten Ausblick sollen einige Weiterentwicklungen der Theorieskizziert werden, die erlauben, Lesart-Alternativen zusammenzufassen. Solche sog.'unterspezifizierten' Repräsentationen sind aus psychologischer Sicht, aber auch unterpraktischen Gesichtspunkten, wie der effizienten Verwendbarkeit in Textverstehens-oder Übersetzungssystemen besonders interessant.

Leistungsnachweis AbschlussklausurVoraussetzung KeineLiteratur * Hans Kamp und Uwe Reyle: From Discourse to Logic, Kluwer, Dordrecht, 1993

Weitere Literatur wird zu Beginn des Seminars bekannt gegeben Parallele Korpora in der Sprachverarbeitung - CS-CL, BS-CL, BS-FL, A13

PS; Nr.: 09-160-10-29; SWS: 2

Mi; wöch; 11:15 - 12:45; ab 20.10.2010; INF 327 / SR 1; Padó, S.

Kommentar Leistungsbewertung:

BA-2010[100%|75%] (CS-CL): 6 LP

BA-2010[50%|25%] (BS-CL, BS-AC): 4 LP

NBA[100%|75%] (CS-CL): 6 LP

NBA[50%|25%] (BS-CL, BS-AC): 4 LP

ABA (A13): 4 LPInhalt Das Proseminar hat ein doppeltes Ziel: sowohl Wissen über parallele Korpora als auch

Praxis in der Präsentation von Forschungsinhalten zu vermitteln.

Inhaltlich diskutiert das Proseminar aktuelle Literatur zur Verwendungparalleler Korpora -- sowohl ein- als auch mehrsprachig -- in der maschinellenSprachverarbeitung. Dabei liegt der Schwerpunkt auf der Induktion linguistischenWissens; das Thema "Maschinelle Übersetzung" wird (nur) am Rande gestreift. DasSeminar wird um fünf zentrale Aspekte der Verwendung paralleler Korpora herumaufgebaut sein:

* Alinierung: Wie werden Wörter in parallelen Korpora aliniert, d.h. einanderzugeordnet?

Page 41: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 41

* Das Wesen von parallelen Korpora: Wie parallel sind die sprachlichen Strukturenwirklich? Wie parallel sind Übersetzungen?

* Induktion von Wissen in der Zielsprache aus annotierten Quellkorpora* Induktion von Wissen in der Zielsprache aus unannotierten Quellkorpora* Jenseits von parallelen Korpora: Was tun, wenn es keine parallelen Korpora gibt?

Zusätzlich wird es methodologisch orientierte Sitzungen zu Themen wie dem Haltenvon Vorträgen und dem Schreiben von Hausarbeiten geben.

Leistungsnachweis * Aktive und regelmäßige Teilnahme* Referat (30-40 Min.) und "Gegenreferat" (10 Min.)* Hausarbeit (5-10 Seiten)

Algorithmische LinguistikInformationsextraktion - CS-CL, BS-CL, BS-AC, A12

V; Nr.: 09-160-10-03; SWS: 2

Mo; wöch; 16:15 - 17:45; ab 18.10.2010; INF 346 / SR 10; Tremper, G.

Kommentar Leistungspunkte:

BA-2010[100%|75%] (CS-CL): 6 LP

BA-2010[50%|25%] (BS-CL, BS-AC): 4 LP

NBA[100%|75%] (CS-CL): 6 LP

NBA[50%|25%] (BS-CL, BS-AC): 4 LP

ABA (A07): 4 LPInhalt Informationsextraktionssysteme haben zum Ziel, domänenspezifische Informationen

aus unrestringierten Texten zu gewinnen und zu strukturieren. Es geht dabeinicht um eine vollständige Inhaltsanalyse eines Textes, sondern um das gezielteAuffinden relevanter Textausschnitte und deren Analyse mithilfe robuster undeffizienter computerlinguistischer Techniken. Dabei ist es die Aufgabe desBenutzers, die Muster zu spezifizieren, in denen relevante Information in Textensprachlich realisiert wird (z.B. in Form geeigneter syntaktischer Patterns). Inneueren Informationsextraktionssystemen wird allerdings zunehmend versucht,den Spezifikationsaufwand für den Benutzer zu reduzieren und relevanteMuster mithilfe von Techniken des Maschinellen Lernens vom System selbstakquirieren zu lassen. Wir werden in diesem Kurs die einzelnen Komponenten einesInformationsextraktionssystems kennenlernen. Hierfür werden praktische Aufgaben inGruppenarbeit zu lösen sein.

Leistungsnachweis * Regelmäßige und aktive Teilnahme* Lektüre* Übungsaufgaben* Zwei umfangreichere Implementierungsaufgaben in Gruppenarbeit

Voraussetzung Programmierkenntnisse (Niveau: mindestens "Programmieren I") sind unverzichtbareVoraussetzung für die Teilnahme.

Literatur * Grishman, Ralph (2003): Information Extraction, in: Mitkov, Ruslan (Hrsg.): TheOxford Handbook of Computational Linguistics. Oxford University Press: 545-59.

* Neumann, Günter (2001): Informationsextraktion, in: Carstensen, Kai-Uwe et al.(Hrsg.): Computerlinguistik und Sprachtechnologie. Eine Einführung. Heidelberg,Spektrum: 448-55.

Statistical Methods for Computational Linguistics - FF-SM, A10

V/Ü; Nr.: 09-160-09-01; SWS: 4

Di; wöch; 16:15 - 17:45; ab 19.10.2010; INF 306 / SR 14; Vorlesung; Riezler, S.

Do; wöch; 14:15 - 15:45; ab 21.10.2010; INF 328 / SR 25; Übung; Fendrich, S.

Kommentar Leistungsbewertung:

Page 42: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 42

BA-2010 (FF-SM): 6 LP

NBA (FF-SM): 6 LP

ABA (A10): 4 LP

Inhalt Die Vorlesung stellt zentrale Konzepte der Statistical Learning Theory vor, undexemplifiziert diese anhand grundlegender Methoden zur Klassifikation, Regression,etc. Der Fokus der Vorlesung liegt auf Kernel-basierten Methoden und den diesenzugrundeliegenden theoretischen Fundamenten.

Mögliche Themenbereiche der Verlesung sind:

* Risk und Loss Funktionen* Generalisierungstheorie* Optimierungstheorie* Kernel-basierte Methoden für Klassifizierung, Regression, etc.* Kernel-Designs

Leistungsnachweis * Aktive und regelmässige Teilnahme

* Bearbeitung der Übungsaufgaben* Klausur

Die Teilnahme an Vorlesung und Übung ist verpflichtend.Voraussetzung Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra, z.B. aus

Mathematischem GrundkursLiteratur Grundlage der Vorlesung ist

* Schölkopf & Smola (2002). Learning with Kernels. Support Vector

Machines, Regularization, Optimization, and Beyond. MIT Press. Link:http://www.learning-with-kernels.org/

Information Retrieval - AS-CL, V01, SS-CL, SS-TAC

HpS; Nr.: 09-160-20-07; SWS: 2

Mo; wöch; 11:15 - 12:45; ab 18.10.2010; INF 325 / SR 24; Haenelt, K.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt Information Retrieval Systeme sollen Informationssuchende dabei unterstützen,

aus großen elektronisch verfügbaren Informationsmengen (Texte, Datenbanken,multimediale Dokumente) passende Information herauszufinden. Im Seminar sollen dieverschiedenen Ansätze und grundlegende Methoden und Algorithmen solcher Systemeerarbeitet und vermittelt werden.

Leistungsnachweis Durchführung eines Seminarprojektes und ein ReferatVoraussetzung Zwischenprüfung in Computerlinguistik oder vergleichbare Kenntnisse, bestandene

Programmierprüfung Einführung in die Computerlinguistik - ICL, B01

V/Ü; Nr.: 09-160-01-01; SWS: 4; LP: 6

Di; wöch; 11:15 - 12:45; ab 19.10.2010; INF 350 / OMZ R U013; Frank, A.

Do; wöch; 11:15 - 12:45; ab 21.10.2010; INF 350 / OMZ R U013; Frank, A.

Kommentar Leistungsbewertung:

Page 43: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 43

BA-2010 (ICL): 6 LP

NBA (ICL): 6 LP

ABA (B01): 6 LP

Inhalt Die Vorlesung führt ein in die Grundlagen, zentralen Fragestellungen und Methodender Computerlinguistik. In einem Gesamtüberblick werden die wesentlichenGrundlagen der Computerlinguistik eingeführt:

* Ebenen der Sprachbeschreibung (Phonologie, Morphologie, Syntax, Semantik,Pragmatik),

* formale mathematische und logische Modelle zur Beschreibung der entsprechendenlinguistischen Phänomene und

* algorithmische Verfahren zur automatischen Verarbeitung auf Basis dieser Modelle.

Dabei nähern wir uns speziellen Problemen und Fragestellungen derComputerlinguistik und ihren spezifischen Lösungsstrategien. Spezielle Themenwerden sein: Ambiguitätsbehandlung, Approximierung sprachlicher Regularitäten,syntaktische und semantische Verarbeitung.

Die Vorlesung gibt einen Überblick über computerlinguistische Anwendungen, diskutiertdas Verhältnis zu Nachbardisziplinen, und führt durch praktische Übungen in diespeziellen Fragestellungen einzelner Teilgebiete der Computerlinguistik ein.

Leistungsnachweis * Erfolgreiche Bearbeitung der Übungsaufgaben

* Erfolgreich bestandene Klausur* Aktive Teilnahme

Regelmäßige Präsenz ist Voraussetzung für den Scheinerwerb.

Die erfolgreich bestandene Klausur ist Teil der Orientierungsprüfung.Literatur * Daniel Jurafsky and James H. Martin (2009): Speech and Language Processing. An

Introduction to Natural Language Processing, Computational Linguistics, and SpeechRecognition. Prentice Hall Series in Artificial Intelligence. Prentice Hall.

* Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, RalfKlabunde, Hagen Langer (Hrsg.) (2004): Computerlinguistik und Sprachtechnologie.Eine Einführung. Heidelberg: Spektrum, Akademischer Verlag.

* Natural Language Toolkit, NLTK: http://www.nltk.org/book Grundlagen Semantic Web - CS-CL, BS-CL, BS-AC, A05

V; Nr.: 09-160-10-10; SWS: 2

Block; 09:15 - 12:45; 27.09.2010 - 01.10.2010; INF 325 / SR 24; Vorlesung; Rudolph, S.

Block; 14:15 - 16:45; 27.09.2010 - 01.10.2010; INF 325 / SR 24; Vorlesung; Rudolph, S.

Kommentar Leistungsbewertung:

BA-2010[100%|75%] (CS-CL): 6 LP

BA-2010[50%|25%] (BS-CL, BS-AC): 4 LP

NBA[100%|75%] (CS-CL): 6 LP

NBA[50%|25%] (BS-CL, BS-AC): 4 LP

ABA (A05): 4 LPInhalt Der Begriff Semantic Web bezeichnet allgemein eine Erweiterung des World Wide

Web durch Metadaten und Anwendungen mit dem Ziel, die Bedeutung (Semantik) vonDaten im Web für intelligente Systeme z.B. im E-Commerce und in Internetportalennutzbar zu machen. Eine zentrale Rolle spielen dabei die Repräsentation undVerarbeitung von Wissen in Form von Ontologien. In dieser Vorlesung werden dieGrundlagen der Wissensrepäsentation und -verarbeitung für die entsprechendenTechnologien vermittelt sowie Anwendungsbeispiele vorgestellt. Dabei werdenfolgende Themenbereiche betrachtet:

Page 44: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 44

* Grundlagen von XML (Extensible Markup Language) und XML Schema* RDF (Resource Description Framework) und RDF Schema zur Darstellung von

Metadaten und einfachen Ontologien* Die Web Ontology Language (OWL) und ihre aktuelle Erweiterung OWL 2* Die SPARQL-Anfragesprache für RDF, konjunktive Anfragen für OWL* Regelsprachen für das Semantic Web* Praktische Anwendungen

Leistungsnachweis Leistungsnachweis durch KlausurLiteratur Literatur wird im Kurs bekannt gegeben. Spielerisch zu neuen Ressourcen - CS-CL, BS-CL, BS-AC, A13

PS; Nr.: 09-160-10-24; SWS: 2

Mi; wöch; 16:15 - 17:45; ab 20.10.2010; INF 325 / SR 24; Roth, M.;Reiter, N.

Kommentar Leistungsbewertung:

BA-2010[100%|75%] (CS-CL): 6 LP

BA-2010[50%|25%] (BS-CL, BS-AC): 4 LP

NBA[100%|75%] (CS-CL): 6 LP

NBA[50%|25%] (BS-CL, BS-AC): 4 LP

ABA (A13): 4 LPInhalt Die Erstellung computerlinguistischer Ressourcen ist teuer und aufwändig. Eine

Möglichkeit, um trotzdem auf einfache Weise große Mengen nützlicher Daten zugewinnen, ist daher, Nutzer im Web einzubeziehen. In diesem Seminar geht es darum,Ideen zu entwickeln, wie dies effektiv gemacht werden kann. Wir wollen verschiedeneAnsätze zur Gewinnung von Daten betrachten und uns anschauen, welche Ressourcenso erzeugt werden können. Im zweiten Teil des Seminars sollen Konzepte entwickeltwerden, um für bestimmte linguistische Probleme Daten zu sammeln. Beispielsweisekönnte eine Spielidee für den Aufbau einer Common-Sense-Ressource erarbeitetwerden, die Regelwissen à la "Wenn es regnet, wird die Straße nass" enthält.

Leistungsnachweis * Lektüre der zugrundegelegten Literatur

* Aktive und regelmäßige Teilnahme

* Implementierung eines Teilprojekts

* Referat und Hausarbeit Statistical Machine Translation - AS-CL, V01, SS-CL, SS-TAC

V/Ü; Nr.: 09-160-20-24; SWS: 4

Di; wöch; 11:15 - 12:45; ab 19.10.2010; INF 325 / SR 23a-c; Vorlesung; Riezler, S.

Mi; wöch; 14:15 - 15:45; ab 20.10.2010; INF 327 / SR 4; Übung; Fendrich, S.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt Die Vorlesung stellt zentrale Konzepte der Statistischen Maschinellen Übersetzung vor.

Mögliche Themenbereiche der Vorlesung sind:

* Alignment* Wort-basierte Modelle* Phrasen-basierte Modelle* Syntax-basierte Modelle* Dekodierung* Sprachmodelle* Evaluierung

Page 45: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 45

* Diskriminatives Training

Leistungsnachweis * Aktive und regelmässige Teilnahme

* Bearbeitung der Übungsaufgaben* Klausur

Die Teilnahme an Vorlesung und Übung ist verpflichtend.Voraussetzung Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra, z.B. aus

Mathematischem GrundkursLiteratur Grundlage der Vorlesung ist

* Koehn (2010). Statistical Machine Translation. Cambridge. Link:http://www.statmt.org/book/

Topics in Machine Learning for NLP - AS-CL, V01, SS-CL, SS-TAC

HpS; Nr.: 09-160-20-25; SWS: 2

Do; Einzel; 11:15 - 12:45; 14.10.2010 - 14.10.2010; INF 327 / SR 5; Einführung; Riezler, S.

Fr; Einzel; 10:15 - 17:45; 04.02.2011 - 04.02.2011; INF 306 / SR 19; Block; Riezler, S.

Do; Einzel; 10:15 - 17:45; 10.02.2011 - 10.02.2011; INF 306 / SR 19; Block; Riezler, S.

Fr; Einzel; 10:15 - 17:45; 11.02.2011 - 11.02.2011; INF 306 / SR 19; Block; Riezler, S.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt Das Hauptseminar dient der Diskussion von methodologischen und praktischen

Fragen in der Anwendung von Maschinellen Lernverfahren auf computerlinguistischeProbleme. Mögliche Themenbereiche sind:

* Beispielsprojekte* Experimentelles Design* Softwareverwaltung* Rauschfreie Datenannotierung* Cross-Validierung* Signifikanztests* Metaparameter-Einschätzung

Die Veranstaltung wird gemeinschaftlich mit Prof. Hinrich Schütze und Dr. Alex Fraservom IMS Stuttgart organisiert, wobei mindestens ein Block in Stuttgart stattfinden wird.

Leistungsnachweis * Aktive und regelmässige Teilnahme* Referat

Voraussetzung Grundbegriffe von Statistik und Machine LearningLiteratur Eine Liste möglicher Referatsthemen wird in der Einführungsveranstaltung

bekanntgegeben. Graph-based Methods for Natural Language Processing - AS-CL, V01, SS-CL, SS-TAC

HpS; Nr.: 09-160-20-26; SWS: 2

Do; wöch; 14:15 - 15:45; ab 21.10.2010; INF 325 / SR 24; Ponzetto, S.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

Page 46: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 46

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt In the last years Natural Language Processing (NLP) researchers have shown a

considerable amount of interest in developing methods based on graph theoreticmodels, with a large variety of NLP applications adopting efficient and elegant solutionsfrom graph-theoretical frameworks.

This seminar will provide a gentle introduction to state-of-the-art graph-based methodsfor NLP applications. These include, but are not limited to:

* Word sense disambiguation* Information extraction* Automatic summarization* Co-reference resolution* Named entity recognition and disambiguation

The course will be offered as a project seminar. Students will present current work fromthe literature in short, seminar-format presentations (i.e., Referate). In addition, they willbe expected to form small groups of 2-3 people and work on a project, e.g. implementand/or extend an existing state-of-the-art graph-based NLP method. Each one of thegroups is expected to submit a short report (2-4 pages), as well as to regularly give anupdate on the status of their project -- i.e. as a very short, informal presentation on aregular basis. Students are expected to *actively* participate in the class discussionsduring their fellow students' presentations, as well as in the seminar's projects. Thismeans that you'll have to read the papers *before* the class period in which they willbe presented and discussed, as well as *clearly* present to the audience what yourspecific work was as part of the seminar's projects.

Leistungsnachweis Aktive Teilnahme und regelmäßige Abgabe von Projektenarbeit in kleinen Gruppen.Vortrag/Präsentation.

Zusammensetzung der Endnote:

* 1/3: Präsentation* 1/3: Beteiligung an den Seminarprojekten* 1/3: Beteiligung an den Diskussionen im Seminar

Voraussetzung Voraussetzungen sind die bestandene Zwischenprüfung (Magister) undProgrammierprüfung. Vorkenntnisse in statistischer NLP oder Maschinellem Lernensind von Vorteil.

Literatur We will mostly read and meditate on conference papers from past meetings of theAssociation for Computational Linguistics (ACL) and related workshops (i.e. the"TextGraphs" workshop series). Students are *encouraged to select and read 1-2papers* from the previous TextGraphs workshops:

* TextGraphs-1

http://www.textgraphs.org/ws06* TextGraphs-2

http://www.textgraphs.org/ws07* TextGraphs-3

http://lit.csci.unt.edu/~textgraphs/ws08/* TextGraphs-4

http://www.textgraphs.org/ws09/

before the beginning of the course, in order to have a taste of it content. Koreferenzresolution - AS-CL, V01, SS-CL, SS-TAC

HpS; Nr.: 09-160-20-27; SWS: 2

Do; wöch; 16:15 - 17:45; ab 21.10.2010; INF 325 / SR 24; Strube, M.

Kommentar Leistungsbewertung:

Page 47: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 47

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LP

Inhalt Texte und Dialoge zu verstehen, ist nur möglich, wenn man sich Zusammenhängezwischen Sätzen und Äußerungen erschließen kann. Ein wichtiges sprachliches Mittel,solche Zusammenhänge auszudrücken, sind anaphorische Ausdrücke, in erster LiniePronomen und definite Nominalphrasen.

Anaphern- und Koreferenzresolution ist eines der ältesten und aktivsten Themender Computerlinguistik. Das Seminar beginnt mit linguistischen Grundlagen(Bindungstheorie, Salienz, Typen anaphorischer Ausdrücke) und mit klassischenArbeiten aus den 1970er und 1980er Jahren (Hobbs-Algorithmus). Dann wird aufFokus- und Centeringmodell eingegangen. Der Lappin & Leass-Algorithmus wirdeingehend besprochen, bevor heuristische, wissensarme Ansätze besprochen werden.Der Schwerpunkt des Seminars wird auf aktuellen, machine-learning-basiertenAnsätzen liegen, beginnend mit dem paarweisen Klassifikator von Soon et al. (2001)und dessen vielfältige Weiterentwicklung in Hinsicht auf Features und Lernverfahren.Abschließend wird auf globale, graph-basierte Ansätze eingegangen sowie aufunüberwachte Ansätze. Des weiteren werden Fragen der Annotation besprochen undannotierte Korpora eingeführt. Schließlich wird auch auf die Koreferenzresolution ingesprochener Sprache eingegangen.

Leistungsnachweis * aktive Teilnahme* Vortrag/Präsentation* Seminar- oder Hausarbeit

Voraussetzung Zwischenprüfung in Computerlinguistik oder vergleichbare Kenntnisse, bestandeneProgrammierprüfung

Literatur * Strube, Michael (2009). Anaphernresolution. In K.-U. Carstensen, C. Ebert, C.Endriss, S. Jekat, R. Klabunde, and H. Langer, editors, Computerlinguistik undSprachtechnologie. Eine Einführung, pp. 399-409. Heidelberg, Germany: Springer,3rd edition

* Mitkov, Ruslan (2002). Anaphora Resolution. London, U.K.: Longman* Soon, Wee Meng, Daniel Chung Yong Lim & Hwee Tou Ng (2001). A Machine

Learning Approach to Coreference Resolution of Noun Phrases. In ComputationalLinguistics, 27 (4), pp.521-544.

(vollständige Liste wird zu Beginn des Semesters zur Verfügung gestellt) Discriminative Methods for Machine Translation - AS-CL, V01, SS-CL, SS-TAC

HpS; Nr.: 09-160-20-28; SWS: 2

Do; wöch; 11:15 - 12:45; ab 21.10.2010; INF 327 / SR 5; Riezler, S.

Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LP

NBA (AS-CL): 8 LP

ABA (V01): 6 LP

Master (SS-CL, SS-TAC): 8 LPInhalt Das Hauptseminar dient der Diskussion von neuesten Entwicklungen in der Statistical

Machine Translation (SMT) bezüglich der Verwendung diskriminativer MachineLearning Methoden. Hierbei wird der in den 1990er Jahren etablierte Standard vongenerativen Modellen und frequenz-basierter Trainingsverfahren durch komplexereMethoden abgelöst, die zu einer direkten Optimierung der Übersetzungs-Fehlerratemoderne Machine Learning Verfahren wie Support Vector Machines, Online Learningund Risk Minimization verwenden.

Mögliche Themenbereiche des Hauptseminars sind:

Page 48: Mathematischer Vorkurs Ü; Nr.: 09-160-00-01; SWS: 2 IASK ... · Inhalt Im Kurs „Einführung in das wissenschaftliche Schreiben für Computerlinguisten" wird es um technische und

WiSe 2010/11 48

* Direct Error Minimization* Discriminative (Re)Ranking* Domain/Task Adaptation

Leistungsnachweis * Aktive und regelmässige Teilnahme* Referat

Voraussetzung Grundbegriffe von Statistik und Machine LearningLiteratur Eine Liste möglicher Referatsthemen wird in der ersten Seminarsitzung

bekanntgegeben.