32
Sommer 2008 1 IASK: Computerlinguistik Zusätzliche Lehrveranstaltungen und weitere Informationen werden durch Aushang am schwarzen Brett in INF 325, 1. Stock und auf unseren Internet-Seiten bekanntgegeben. Fachstudienberater: Nils Reiter , Di 15.00-17.00 Uhr, Zi. 109, Tel. 06221-543169 Vorbereitungskurse Einführung in die Nutzung computerlinguistischer Ressourcen Ü Block; 10:00 - 17:00; 31.03.2008 - 04.04.2008; INF 325 PCPool; Reiter, N. Kommentar Blockkurs; kein Leistungsnachweis; begrenzte Teilnehmerzahl; ggf. Vorzug für TeilnehmerInnen am Software-Projekt. Inhalt Der Blockkurs gibt eine Übersicht über computerlinguistische Ressourcen und Tools, die im Software-Projekt sowie in Bachelor-, Master- und Magisterarbeiten eingesetzt werden können. Darüber hinaus geben wir Anleitungen zur technischen Nutzung der vorhandenen Soft- und Lingware. Die Teilnahme am Blockkurs ist Voraussetzung für das Softwareprojekt. Voraussetzung bestandene Programmierprüfung Mathematisches Propädeutikum Ü Block; 10:00 - 16:00; 31.03.2008 - 02.04.2008; INF 325 SR 24; Fendrich, S. Kommentar Blockkurs; kein Leistungsnachweis; begrenzte Teilnehmerzahl; ggf. Vorzug für Magister-Studierende, die die Vorlesung "Algorithmen und Datenstrukturen" besuchen. Inhalt Das Propädeutikum dient als mathematischer Vorkurs vor allem als Vorbereitung für die Vorlesung "Algorithmen und Datenstrukturen", steht aber auch anderen Studierenden offen. Behandelt werden u.a.: algebraische Grundlagen, Induktion, Vektorräume, lineare Abbildungen, Grenzwerte, Logarithmen. Literatur Literatur wird noch vor Kursbeginn auf der Webseite zum Kurs bekanntgegeben. Bachelor (alte Prüfungsordnung) Arbeitstechniken in der CL - ÜK, E02 Ü; SWS: 2; ECTS: 3 Di; wöch; 11:15 - 12:45; INF 325 SR 24; Reiter, N. Kommentar Dieser Kurs wird (i) in zunehmendem Maße als Maßstab dafür dienen, was von Studierenden erwartet wird und (ii) mittelfristig als Teilnahmevoraussetzung für manche Kurse festgeschrieben. Inhalt Im Kurs 'Arbeitstechniken in der Computerlinguistik' wird es um technische und nicht-technische Fähigkeiten gehen, die man als Computerlinguist früher oder später braucht oder die das Leben sehr vereinfachen. Dazu zählen u.a. das Textsatzsystem LaTeX, das Referenzenverwaltungssystem BibTeX und die Unix-Kommandozeile. Beschäftigen werden wir uns außerdem mit dem kompletten Zyklus wissenschaftlichen Arbeitens, vom Recherchieren über Schreiben und Strukturieren von wissenschaftlichen Texten bis hin zur Vorbereitung von Vorträgen und Präsentationen. Leistungsnachweis Regelmäßige Hausaufgaben und Anwesenheit sind Teil der Scheinleistung. Voraussetzung Aufgrund der Übungen ist die Teilnehmerzahl auf 30 Studierende begrenzt. Um vorherige Anmeldung per E-Mail wird gebeten. Bei mehr als 30 Anmeldungen haben Studierende der Computerlinguistik Vorrang. Logische Grundlagen für die Computerlinguistik - FF-L, B11

IASK: Computerlinguistik Block; 10:00 - 17:00; 31.03.2008 ... fileSommer 2008 1 IASK: Computerlinguistik Zusätzliche Lehrveranstaltungen und weitere Informationen werden durch Aushang

Embed Size (px)

Citation preview

Sommer 2008 1

IASK: ComputerlinguistikZusätzliche Lehrveranstaltungen und weitere Informationen werden durch Aushang am schwarzen Brett in INF 325,1. Stock und auf unseren Internet-Seiten bekanntgegeben.

Fachstudienberater: Nils Reiter , Di 15.00-17.00 Uhr, Zi. 109, Tel. 06221-543169

VorbereitungskurseEinführung in die Nutzung computerlinguistischer Ressourcen

Ü

Block; 10:00 - 17:00; 31.03.2008 - 04.04.2008; INF 325 PCPool; Reiter, N.

Kommentar Blockkurs; kein Leistungsnachweis; begrenzte Teilnehmerzahl; ggf. Vorzug fürTeilnehmerInnen am Software-Projekt.

Inhalt Der Blockkurs gibt eine Übersicht über computerlinguistische Ressourcen und Tools,die im Software-Projekt sowie in Bachelor-, Master- und Magisterarbeiten eingesetztwerden können. Darüber hinaus geben wir Anleitungen zur technischen Nutzung dervorhandenen Soft- und Lingware. Die Teilnahme am Blockkurs ist Voraussetzung fürdas Softwareprojekt.

Voraussetzung bestandene Programmierprüfung Mathematisches Propädeutikum

Ü

Block; 10:00 - 16:00; 31.03.2008 - 02.04.2008; INF 325 SR 24; Fendrich, S.

Kommentar Blockkurs; kein Leistungsnachweis; begrenzte Teilnehmerzahl; ggf. Vorzug fürMagister-Studierende, die die Vorlesung "Algorithmen und Datenstrukturen" besuchen.

Inhalt Das Propädeutikum dient als mathematischer Vorkurs vor allem als Vorbereitungfür die Vorlesung "Algorithmen und Datenstrukturen", steht aber auch anderenStudierenden offen.

Behandelt werden u.a.: algebraische Grundlagen, Induktion, Vektorräume, lineareAbbildungen, Grenzwerte, Logarithmen.

Literatur Literatur wird noch vor Kursbeginn auf der Webseite zum Kurs bekanntgegeben.

Bachelor (alte Prüfungsordnung)Arbeitstechniken in der CL - ÜK, E02

Ü; SWS: 2; ECTS: 3

Di; wöch; 11:15 - 12:45; INF 325 SR 24; Reiter, N.

Kommentar Dieser Kurs wird (i) in zunehmendem Maße als Maßstab dafür dienen, was vonStudierenden erwartet wird und (ii) mittelfristig als Teilnahmevoraussetzung für mancheKurse festgeschrieben.

Inhalt Im Kurs 'Arbeitstechniken in der Computerlinguistik' wird es um technische undnicht-technische Fähigkeiten gehen, die man als Computerlinguist früher oderspäter braucht oder die das Leben sehr vereinfachen. Dazu zählen u.a. dasTextsatzsystem LaTeX, das Referenzenverwaltungssystem BibTeX und dieUnix-Kommandozeile. Beschäftigen werden wir uns außerdem mit dem komplettenZyklus wissenschaftlichen Arbeitens, vom Recherchieren über Schreiben undStrukturieren von wissenschaftlichen Texten bis hin zur

Vorbereitung von Vorträgen und Präsentationen.Leistungsnachweis Regelmäßige Hausaufgaben und Anwesenheit sind Teil der Scheinleistung.Voraussetzung Aufgrund der Übungen ist die Teilnehmerzahl auf 30 Studierende begrenzt.

Um vorherige Anmeldung per E-Mail wird gebeten. Bei mehr als 30 Anmeldungenhaben

Studierende der Computerlinguistik Vorrang. Logische Grundlagen für die Computerlinguistik - FF-L, B11

Sommer 2008 2

V/Ü; SWS: 2

Mo; wöch; 18:15 - 19:45; INF 306 SR 19; Herweg, M.

Kommentar Termine für das Tutorium werden zu Beginn des Semesters festgelegt

Leistungspunkte:

FF-LF Bachelor (neue Prüfungsordnung): 6

B11 Bachelor (alte Prüfungsordnung): 4Inhalt Fundierte Logikkenntnisse sind unverzichtbar für Anwendungen in der

Computerlinguistik und theoretischen Linguistik. Dies gilt für die gängigenBeschreibungsformate in nahezu allen (computer-)linguistischen Teildisziplinen(Syntax, Semantik, Morphologie, Phonologie, ...) ebenso wie für sprachtechnologischeImplementierungen. Der Kurs bietet eine Einführung in die Logik und legt dabeibesonderen Wert auf die praktische Einübung grundlegender logischer Methodenund Techniken. Behandelt werden Syntax und Semantik der Aussagenlogik und derPrädikatenlogik 1. Stufe mit einem Ausblick auf weiterführende Logiksysteme undlogikbasierte Formalismen für (computer-)linguistische Anwendungen.

Leistungsnachweis Scheinerwerb durch Teilnahme am Tutorium und eine KlausurVoraussetzung Keine Voraussetzungen; Scheinerwerb durch Teilnahme am Tutorium und eine KlausurLiteratur wird in der Veranstaltung bekanntgegeben Formale Syntax - FSyn, B08

V/Ü; SWS: 4

Di; wöch; 09:15 - 10:45; INF 350 OMZ R U013; Frank, A.

Do; wöch; 09:15 - 10:45; INF 350 OMZ R U013; Frank, A.

Kommentar Leistungspunkte:

FSyn Bachelor (neue Prüfungsordnung): 6

B08 Bachelor (alte Prüfungsordnung): 5Inhalt Die Vorlesung vermittelt vertiefte Kenntnisse der syntaktischen Sprachbeschreibung

am Beispiel eines theoretisch fundierten Grammatikformalismus.

Wir beginnen mit einer Übersicht über die Grundannahmen verschiedenerGrammatikformalismen (GB, LFG, HPSG) und vertiefen insbesondere die formalenGrundlagen der Lexikalisch-funktionalen Grammatik (LFG), als einer der bedeutendenlexikalischen constraint-basierten Grammatikformalismen.

Die Vorlesung gibt einen Überblick über die Kernbereiche und einige speziellePhänomene der syntaktischen Analyse und ihrer formalen Beschreibung im Rahmender Lexikalisch-funktionalen Grammatik:

* Satzstruktur, funktionale Kategorien und Wortstellung

* Subkategorisierung, Diathesen und Argumentstruktur

* Lange Abhängigkeiten

* Anhebung und Kontrolle

* Bindung

* Koordination

* Kongruenz, Inkorporation und Wortstellung

Die Vorlesung wird begleitet durch theoretische Aufgaben und praktische Übungen mitder LFG-Grammatikentwicklungsumgebung Xerox Linguistic Environment (XLE).

Leistungsnachweis Leistungsnachweis: Klausur

Voraussetzung für den Scheinerwerb sind regelmäßige Präsenz, aktive Teilnahme unddie erfolgreiche Bearbeitung der Übungsaufgaben (60%).

Sommer 2008 3

Literatur * Yehuda Falk (2001): Lexical-Functional Grammar. An Introduction to ParallelConstraint-Based Syntax. University of Chicago Press.

* Joan Bresnan (2001). Lexical-Functional Syntax. Oxford: Blackwell. Mary Dalrymple(2001). Lexical Functional Grammar. Volume 34, Syntax and Semantics. AcademicPress.

* Peter Sells (1985). Lectures on Contemporary Syntactic Theories. An Introductionto Government-Binding Theory, Generalized Phrase Structure Grammar, andLexical-Functional Grammar. CSLI Lecture Notes No. 3, CSLI Publications, Stanford,CA. (Chapter 3)

* Tracy Holloway King, Stefanie Dipper, Anette Frank, Jonas Kuhn, John Maxwell(2004): "Ambiguity Management in Grammar Writing". In Research on Language andComputation, 2 (2): 259-280, Kluwer Academic Publications.

Weitere Literatur wird im Laufe des Semesters bekannt gegeben. Computationelle Morphologie - CS-CL, BS-CL, BS-FL, B06

V/Ü; SWS: 2; ECTS: 4

Fr; wöch; 11:15 - 12:45; INF 325 SR 24; Zielinski, A.

Inhalt Die Vorlesung bietet eine Einführung in finite-state basierte Methoden für diemorphologische Analyse. Anhand des Buches von Beesley&Kartunnen (2003) wird dieTwo-Level-Morphologie vorgestellt und durch praktische Übungen mit der finite-stateSoftware xfst/lexc ergänzt.

Leistungsnachweis regelmäßige Teilnahme, erfolgreiche Bearbeitung der Übungsaufgaben (mindestens50%), Abschlussklausur.

Voraussetzung Vorkenntnisse in Grundlagen der Morphologie und Automatentheorie sind von Vorteil,aber nicht erforderlich. Im Kurs werden Übungsaufgaben in xsft und lexc gelöst.Programmiererfahrungen sind daher ebenfalls von Nutzen.

Literatur Kenneth R. Beesley und Lauri Karttunen (2003): Finite State Morphology, CSLIPublications, Stanford, California.

Programmieren II: Fortgeschrittene - PII, B04

V/Ü; SWS: 4

Di; wöch; 14:15 - 15:45; INF 350 OMZ R U013; Sporleder, C.

Do; wöch; 14:15 - 15:45; INF 350 OMZ R U013; Sporleder, C.

Kommentar Leistungspunkte:

PII Bachelor (neue Prüfungsordnung): 6

B04 Bachelor (alte Prüfungsordnung): 5Inhalt In dem Kurs sollen die in "Programmieren I" erworbenen Grundkenntnisse anhand

einer zweiten Programmiersprache erweitert und vertieft werden. Neben einerallgemeinen Einführung in Java werden dabei auch computerlinguistische Algorithmenin dieser Sprache vorgestellt und erbarbeitet. Dabei werden u.a. die folgenden Themenbehandelt: reguläre Ausdrücke, Automaten, Graphen, Baum- und Merkmalsstrukturen.

Leistungsnachweis Die Leistungsanforderungen für den Scheinerwerb umfassen:

- erfolgreiche und regelmäßige Bearbeitung der Übungsaufgaben

- Bestehen der AbschlussklausurVoraussetzung Teilnahmevoraussetzungen: erfolgreiche Teilnahme an Programmieren ILiteratur als Referenz: David Flanagan: Java in a Nutshell, O'Reilly, 2005 Computerlexikographie - CS-CL, BS-CL, BS-FL, A15

PS; SWS: 2; ECTS: 4

Mo; wöch; 16:15 - 17:45; INF 306 SR 19; Kunze, C.

Kommentar Anmeldung ab sofort per Email bzw. in der 1. Semesterwoche.

Sommer 2008 4

Inhalt Computerlexikographie ist Lexikographie mit dem Computer und für den Computer.Da die lexikographische Arbeit sich äußerst datenintensiv gestaltet, ist die maschinelleUnterstützung dieses Prozesses unabdingbar. Zum einen erhält der LexikographUnterstützung bei der Erhebung, Bearbeitung, Darstellung und Verarbeitung seinerlexikographischen Daten, zum anderen profitieren Wörterbuchbenutzer vom flexiblerenUmgang mit elektronischen Wörterbüchern im Vergleich zum gedruckten Wörterbuch.Sprachverarbeitende Systeme wiederum benötigen ein Lexikon, welches relevantelexikalische Informationen über ein Inventar von Wörtern einer oder mehrerer Sprachenbereitstellt. Je mehr Anwendungen in Forschung und Industrie die Verarbeitungnatürlicher Sprache voraussetzen, umso größer wird auch der Bedarf an allgemeinenund spezialisierten elektronischen Wörterbüchern.

Im Seminar werden neben der Klärung lexikographischer Grundbegriffe die u.a. diefolgenden Themenbereiche fokussiert und anhand von Übungen vertieft: lexikalischeDatenbanken, lexikalische Akquisition, lexikalische Statistik, lexikalische Regeln,Mark-up Sprachen die und Standardisierung lexikographischer Einträge.

Voraussetzung Das Proseminar richtet sich an Studierende, die bereits erfolgreich eine Einführung indie Computerlingusitik absolviert haben.

Literatur Als Kursbuch dient das von Lothar Lemnitzer und mir gemeinsam verfasste eBook"Computerlexikographie - eine Einführung" (2007), erschienen im Narr VerlagTübingen.

Weitere Literatur wird zu Beginn des Seminars genannt. Informationsextraktion - CS-CL, BS-CL, BS-AC, A12

PS; SWS: 2

Do; wöch; 11:15 - 12:45; INF 306 SR 13; Hartung, M.

Kommentar Leistungspunkte:

CS-CL (Bachelor neue Prüfungsordnung): wahlweise 6 oder 4 LP

BS-CL, BS-AC (Bachelor neue Prüfungsordnung): 4 LP

A12 (Bachelor alte Prüfungsordnung): 4 LP

Inhalt Informationsextraktionssysteme haben zum Ziel, domänenspezifische Informationaus unrestringierten Texten zu gewinnen und zu strukturieren. Es geht dabei nichtum eine vollständige Inhaltsanalyse eines Textes, sondern um das gezielte Auffindenrelevanter Textausschnitte und deren Analyse mithilfe robuster und effizientercomputerlinguistischer Techniken. Dabei ist es die Aufgabe des Benutzers, die Musterzu spezifizieren, in denen relevante Information in Texten sprachlich realisiert wird(z.B. in Form bestimmter syntaktischer Patterns oder semantischer Relationen). Inneueren Informationsextraktionssystemen wird allerdings zunehmend versucht, denSpezifikationsaufwand für den Benutzer zu reduzieren und relevante Muster mithilfevon Techniken des Maschinellen Lernens vom System selbst akquirieren zu lassen.

Wir werden uns in diesem Kurs zunächst mit den einzelnen Komponenten einesInformationsextraktionssystems befassen: lexikalische Analyse, Named EntityRecognition, Chunk-Parsing, Anaphernresolution. Maschinelle Lernverfahren werdenan verschiedenen Punkten angesprochen, aber nicht vertieft. Der Kurs richtet sich inerster Linie an Bachelor-Studierende, die sich erste Einblicke in ein Anwendungsfeldder Computerlinguistik verschaffen wollen, kann aber auch von Magister-Studierendenbesucht werden.

Die Leistungsanforderungen in diesem Kurs umfassen neben der Lektüreeinschlägiger Literatur die Lösung kursbegleitender Übungsaufgaben (darunterauch kleinere Programmieraufgaben) sowie die Lösung einer umfangreicherenImplementierungsaufgabe (in Gruppenarbeit) während der vorlesungsfreien Zeit.Programmierkenntnisse sind daher unverzichtbare Voraussetzung für die Teilnahme.

Achtung, Terminabweichung: Die erste Sitzung am 10.04. findet von 12.00-13.00 Uhr statt.

Sommer 2008 5

Leistungsnachweis * Lektüre einschlägiger Literatur

* die Lösung kursbegleitender Übungsaufgaben (darunter auch kleinereProgrammieraufgaben)

* die Lösung einer umfangreicheren Implementierungsaufgabe (in Gruppenarbeit)während der vorlesungsfreien Zeit.

Voraussetzung ProgrammierkenntnisseLiteratur Literatur zur Einführung:

Feldman, Ronen & Sanger, James (2006): The Text Mining Handbook. AdvancedApproaches in Analyzing Unstructured Knowledge. Cambridge University Press.

Grishman, Ralph (2003): Information Extraction, in: Mitkov, Ruslan (Hrsg.): The OxfordHandbook of Computational Linguistics. Oxford University Press: 545-59.

Neumann, Günter (2001): Informationsextraktion, in: Carstensen, Kai-Uwe et al.(Hrsg.): Computerlinguistik und Sprachtechnologie. Eine Einführung. Heidelberg,Spektrum: 448-55.

Proceedings der Message Understanding Conferences (MUC):http://www-nlpir.nist.gov/related_projects/muc/

Weitere Literatur wird im Kurs bekannt gegeben. Spracherkennung - CS-CL, BS-CL, BS-AC, A18

PS; SWS: 2; ECTS: 4

Fr; 14täg.; 10:15 - 13:45; INF 325 PCPool; Günther, C.;Klehr, M.

Kommentar Das Seminar wird 14-tägig gehalten.Inhalt Der Kurs wird die Grundlagen der Spracherkennung behandeln. Es werden

die verschiedenen Verarbeitungsschritte der automatischen Spracherkennungbehandelt: von der Signalverarbeitung bis zum Sprachmodell. Dabei wird auf aktuelleForschungen auf diesem Gebiet eingegangen. Aber auch aktuelle Implementationenund Systeme (wie der IBM WebSphere Voice Server) sollen vorgestellt werden.

Im praktischen Teil des Seminars wird auf der Grundlage von VoiceXML einSprachdialogsystem implementiert. Es werden die einzelnen Schritte des Entwurfs undder Implementierung behandelt (Wizard-of-Oz Test, Dialogmodell, Grammatikentwurf,Prompt-Design, Test). Es werden dabei die verschiedenen Einflussfaktoren wieVokabulargröße oder Grammatikkomplexität auf das Erkennungsergebnis untersucht.

Leistungsnachweis Ausarbeitung einer Programmieraufgabe (Sprachdialog-Modul)Voraussetzung Kenntnisse in Statistik und Signalverarbeitung sind von Vorteil aber nicht

erforderlich. Im Kurs werden Übungsaufgaben in VoiceXML gelöst, so dassProgrammiererfahrungen (Java Script, XML) ebenfalls von Vorteil sind.

Literatur * C. Günther, M. Klehr: VoiceXML 2.0, mitp 2003

* F. Jelinek: Statistical Methods for Speech Recognition, MIT Press 1997

* E. G. Schukat-Talamazzini: Automatisch Spracherkennung, Vieweg 1995

* B. Eppinger, E. Herter: Sprachverarbeitung, Hanser 1993 Automatische Textzusammenfassung - CS-CL, BS-CL, BS-AC, A08

PS; SWS: 2; ECTS: 4

Di; wöch; 16:15 - 17:45; INF 327 SR 20; Strube, M.

Inhalt Die Menge an (online) verfügbarer Information steigt ständig. Suchmaschinenermöglichen Zugriff auf Dokumentebene. Die automatische Zusammenfassung kanndagegen die verfügbare Information verkürzt und den Interessen des Benutzersentsprechend zu präsentieren.

Im Seminar werden anhand klassischer Arbeiten (aus Mani & Maybury 1999) zunächstdie statistischen Methoden eingeführt, die der automatischen Textzusammenfassung

Sommer 2008 6

zugrundeliegen. Danach soll auf verschiedene Arten der Zusammenfassungeingegangen werden (abstraktiv vs. extraktiv, Multi-document Summarization,Topic-based Summarization, Multimedia-Zusammenfassung, etc.) und aufverschiedene Methoden (rein statistisch, lexikalische Ketten, diskursbasierte Methoden,wissensbasierte Methoden, etc.). Schließlich soll das Problem der Evaluierungvon Methoden automatischer Zusammenfassung diskutiert werden. Hierbei wirddie Evaluierung, die im Rahmen der Document Understanding Conference (DUC)durchgeführt wird, eine zentrale Rolle spielen.

Leistungsnachweis Vortrag/Präsentation und Seminararbeit (max. 10 Seiten)Literatur Mani, Inderjeet and Maybury, Mark T. (Eds.) (1999). Advances in Automatic Text

Summarization. Cambridge, Mass.: MIT Press.

Mani, Inderjeet (2001). Automatic Summarization. Amsterdam, The Netherlands: JohnBenjamins.

Einführung in die künstliche Intelligenz - A04

V; SWS: 2

Do; wöch; 14:15 - 15:45; INF 328 SR 25; Rudolph, S.

Inhalt Schon weit vor der Konstruktion des ersten Computers gab es die Idee, menschlicheDenkprozesse maschinell auszuführen. Angeregt von aktuellen Nachrichten übererstaunliche "Verstandesleistungen" von Rechnern z.B. im Schachspiel, geht mitinteressanten philosophischen Betrachtungen auch die Frage nach dem "Wie", d.h.nach der technischen Realisierung dieser Erfolge einher. In dieser Lehrveranstaltungwird in grundlegende Techniken der Künstlichen Intelligenz eingeführt. Ziel diesesWissenschaftsgebietes ist

es, für Problemstellungen, für deren erfolgreiche Bearbeitung allgemeinhin "Intelligenz"vorausgesetzt wird, möglichst universelle, auf Berechnungsprozessen beruhendeLösungsmethoden bereitzustellen. Thematisch unterteilt sich die Veranstaltung in dieTeilgebiete

* Problemlösungsstrategien

* Maschinelles Lernen

* Wissensrepräsentation und automatisches BeweisenLeistungsnachweis Leistungsnachweis ist über eine Klausur möglich.Voraussetzung Vorausgesetzt werden Grundkenntnisse in formaler Logik.Literatur Stuart Russel, Peter Norvig: Artificial Intelligence: A Modern Approach. Prentice Hall

Series in Artificial Intelligence, Second Edition, 2002.

Günther Görz, Claus-Rainer Rollinger, Josef Schneeberger (Hrsg.): Handbuch derkünstlichen Intelligenz, 4. Auflage, Oldenbourg, 2003.

Pascal Hitzler, Markus Krötzsch, Sebastian Rudolph, York Sure: Semantic Web -Grundlagen, Springer, 2008.

Maschinelle Übersetzung - CS-CL, BS-CL, BS-AC, A20

PS; SWS: 2; ECTS: 4

Mi; wöch; 18:15 - 19:45; INF 327 SR 6; Eberle, K.

Inhalt Nach einem kurzen Überblick über die Geschichte der Maschinellen Übersetzungwerden die verschiedenen sog. regel-basierten Architekturen vorgestellt die bis Endeder 90er Jahre die Maschinelle Übersetzung bestimmt haben (das sind vor allem diedirekte Übersetzung, Transfer- und Interlingua-Verfahren). An Übersetzungsbeispielenund -schwierigkeiten werden die Vor- und Nachteile der Verfahren exemplifiziert.

Anhand der Entwicklungsumgebung des Übersetzungssystems translate wird Einblickin die Umsetzung von Spielarten der Transfer-Konzeption in einem kommerziellenSystem gegeben, insbesondere werden dabei Regeln aus verschiedenenSystem-Komponenten, wie lexikalischer Lookup, grammatische Analyse, Transferund Generierung, exemplarisch skizziert und deren Wirkungsweise an Testbeispielendemonstriert.

Sommer 2008 7

Seit den 90er Jahren werden vermehrt andere, Korpus-basierte, Methoden fürdie Maschinelle Übersetzung diskutiert. Im zweiten Teil der Veranstaltung wird insolche Methoden, insbesondere die Grundlagen der sog. Statistik-basierten und derBeispiel-basierten Übersetzung eingeführt und am Beispiel von translate motiviert, wieMethoden kombiniert werden können.

Angesichts der zur Verfügung stehenden Zeit und der Vorkenntnisse ist das Lernziel,einen Eindruck zu vermitteln, über die Schwierigkeiten mit der eine Maschine beider Übersetzung konfrontiert ist, über gegangene und mögliche Wege, die Aufgabealgorithmisch zu bewältigen und über die Vor- und Nachteile die den verschiedenenKonzeptionen immanent sind.

Leistungsnachweis Die Veranstaltung ist nur erfolgreich absolviert, wenn eine Klausur am Ende desSemesters mit ausreichendem Erfolg geschrieben wurde. Sporadisch werden zurSelbstkontrolle Hausaufgaben gestellt. Die Note ist die Note der Klausur.

Literatur einführende Literatur :

* Arnold, D., L. Balkan, R.L. Humphreys, S. Meijer & L. Sadler (1994):Machine Translation: An Introductory Guide, Oxford, NCC Blackwell.http:/www.essex.ac.uk/linguistics/clmt/MTbook/HTML/book.html

* Nirenburg, Sergei (ed.) (2003) Readings in Machine Translation.Cambridge: MITPress.

* Schwanke, M. (1991): Maschinelle Übersetzung- Ein Überblick über Theorie undPraxis, Springer Verlag.

* Trujillo, A. (1999): Translation Engines: Techniques for Machine Translation, SpringerVerlag.

weiterführende Literatur zu verschiedenen Methoden :

* Beaven, J. (1992): Shake and Bake Machine Translation, in COLING92.

* P. F. Brown, J. Cocke, S. Della Pietra, V. Della Pietra, F. Jelinek, R. Mercer, & P.Roossin, "A Statistical Approach to Machine Translation," Computational Linguistics16(2), 1990.

* Carl, M., Way, A. (ed.) (2003): Recent Advances in Example-Based MachineTranslation, Kluwer Academic Publishers, Dordrecht.

* Manning, Christopher D., Schütze, Hinrich: Chap. 13 Statistical Alignment andMachine Translation. In: Manning, Schütze: Foundations of Statistical NLP, 1999

* Michael McCord: Design of LMT, in: Computational Linguistics (15) 1989

* E Sumita, H Iida, H Kohyama: Translating with Examples: A New Approachto Machine Translation. The Third International Conference on Theoretical andMethodological Issues in Machine Translation, 1990.

Semantikkonstruktion - V01, SS-CL1, SS-CL2, SS-FAL

HpS; SWS: 2

Di; wöch; 16:15 - 17:45; INF 325 SR 24; Frank, A.;Hartung, M.

Kommentar Vorlesung mit Übungen und Referaten. Zur Erleichterung der Seminarplanung

bitten wir um Anmeldung per Mail bis zum 21.03.2008.

Leistungspunkte:

V01 Bachelor (alte Prüfungsordnung): 6

SS-CL1, SS-CL2, SS-FAL Master: 8Inhalt Der Begriff der Semantikkonstruktion bezeichnet den Prozess der automatischen

Konstruktion einer semantischen Repräsentation auf Basis einer syntaktischenAnalyse. Voraussetzung sind: a) ein geeigneter syntaktischer Formalismus, b) eine

Sommer 2008 8

geeignete semantische Repräsentationssprache und c) eine exakte Modellierung derSchnittstelle zwischen syntaktischer und semantischer Repräsentation.

Bekannte Modelle der Semantikkonstruktion im Sinne von c) sind u.a. derLambda-Kalkül, "Glue"-Ansätze auf Basis von Linearer Logik (Dalrymple et al.1995, Dalrymple 2001) und neuere Ansätze für eine "Algebra" zur Konstruktionunterspezifizierter semantischer Repräsentationen (Copestake et al. 2001).

Wir arbeiten charakteristische Unterschiede und Gemeinsamkeiten dieserSemantikkonstruktionsverfahren heraus, auch im Hinblick auf unterschiedlichezugrundeliegende Grammatikmodelle (wie z.B. CCG, HPSG, TAG und LFG).

Im zweiten Teil wenden wir uns offenen Fragen der Semantikkonstruktion zu, die wiranhand von ausgewählter Literatur mit Referaten diskutieren:

(i) Wie können nichtkompositionelle Phänomene (Idiome, Funktionsverbgefüge, etc.)der lexikalischen Semantik in einem allgemeinen Semantikkonstruktionsverfahrenbehandelt werden?

(ii) Welchen Status besitzen Paraphrasen in einem Modell derSyntax-Semantik-Schnittstelle?

(iii) In welchem Verhältnis stehen semantische Repräsentationen zu Ontologien?

(iv) Lassen sich strukturelle und/oder lexikalische Komponenten derSemantikkonstruktion durch Lernverfahren automatisieren?

Der Kurs wird begleitet durch praktische Übungen zu Aspekten derSemantikkonstruktion. Im Verlauf des Kurses sollen dabei kleine Fragmente zuausgewählten Aspekten der Semantikkonstruktion entstehen.

Leistungsnachweis Lektüre der zugrunde gelegten Literatur, Bearbeitung der praktischen Übungsaufgaben,Referat + schriftliche Ausarbeitung oder Projekt + schriftliche Ausarbeitung.

Regelmäßige Präsenz und aktive Teilnahme sind Voraussetzung für den Scheinerwerb.Voraussetzung Programmierprüfung, Kenntnisse in Prädikatenlogik und Semantik.Literatur Patrick Blackburn, Johan Bos (2005): Representation and Inference for Natural

Language. A First Course in Computational Semantics. CSLI Press.

Johan Bos, Stephen Clark, Mark Steedman, James R. Curran, Julia Hockenmaier(2004): Wide-Coverage Semantic Representations from a CCG Parser, in: Proceedingsof the 20th International Conference on Computational Linguistics (COLING '04).Geneva, Switzerland.

Philipp Cimiano, Uwe Reyle (2003): Ontology-based semantic constructionunderspecification and disambiguation, in: Proceedings of the Workshop on Prospectsand Recent Advances in the Syntax-Semantics Interface. Nancy, France: 33-38.

Philipp Cimiano, Anette Frank, Uwe Reyle (2007): UDRT-based semantics constructionfor LTAG -- and what it tells us about the role of adjunction in LTAG, in: Proceedingsof the 7th International Workshop on Computational Semantics (IWCS-7). Tilburg, TheNetherlands.

Ann Copestake, Alex Lascarides, Dan Flickinger (2001): An Algebra for SemanticConstruction in Constraint-based Grammars, in: Proceedings of the 39th AnnualMeeting of the Association for Computational Linguistics (ACL 2001). Toulouse,France.

Ann Copestake, Dan Flickinger, Ivan Sag, Carl Pollard (2005): Minimal RecursionSemantics. An Introduction, in: Journal of Research on Language and Computation3(2-3): 281-332.

Mary Dalrymple, John Lamping, Fernando C. N. Pereira, Vijay Saraswat (1995): LinearLogic for Meaning Assembly, in: Proceedings of the Workshop on Computational Logicfor Natural Language Processing, Edinburgh, UK.

Sommer 2008 9

Mary Dalrymple (2001): Meaning and Semantic Composition, in: Lexical FunctionalGrammar. Syntax and Semantics, Vol. 34. Academic Press.

Weitere Literatur wird im Laufe des Semesters bekannt gegeben. Grammatikinduktion - V01, SS-CL1, SS-CL2, SS-FAL

HpS; SWS: 2

Mi; wöch; 11:15 - 12:45; INF 325 SR 7; Frank, A.

Kommentar Zur Erleichterung der Seminarplanung bitten wir um Anmeldung per Email bis zum21.3.2008.

Achtung, Terminabweichung: Die erste Sitzung am 09.04. findet von 12.00-13.00 Uhr statt.

Leistungspunkte:

V01 Bachelor (alte Prüfungsordnung): 6

SS-CL1, SS-CL2 Master: 8Inhalt Seit den 80/90er Jahren wurden linguistisch motivierte und formal wohldefinierte

Grammatikformalismen entwickelt, insbesondere Lexical-Functional Grammar (LFG),Combinatory Categorial Grammar (CCG), Head-driven Phrase-Structure Grammar(HPSG) und Lexicalised Tree-Adjoining Grammar(LTAG). Durch die Entwicklungeffizienter Parsingalgorithmen ist der Einsatz dieser Grammatikformalismen incomputerlinguistischen Anwendungen realistisch geworden. Die Entwicklungumfangreicher manuell definierter Grammatiken ist zeitaufwendig und teuer;für multilinguale Sprachverarbeitung müssen jedoch umfangreiche und robusteGrammatiken in kurzer Zeit entwickelt werden.

Das Seminar führt ein in die Methodik der automatischen Induktion probabilistischerGrammatiken aus Baumbanken am Beispiel von PCFGs. Wir diskutieren insbesonderespezielle Verfahren für die automatische

Induktion lexikalisierter und constraint-basierter Grammatiken (wie LFG, TAG, CCGund HPSG) aus angereicherten Baumbanken bzw. Baumbankgrammatiken. Hierbeiwerden wir die Charakteristiken

der jeweiligen Grammatikformalismen und die entsprechenden Unterschiede derentsprechenden Grammatikinduktionsverfahren herausarbeiten. Abschließlich widmenwir uns neueren Ansätzen für die Grammatikinduktion auf Basis paralleler Korpora.

Leistungsnachweis Lektüre der zugrundegelegten Literatur, Referat und Hausarbeit oder Referat undProjekt

Regelmäßige Präsenz und aktive Teilnahme sind Voraussetzung für den Scheinerwerb.Voraussetzung Programmierprüfung, Kenntnisse in Syntax, insbesondere LFG. Ggf. begleitende

Belegung von "Formale Syntax".

Literatur Literatur wird auf der Kurshomepage bekanntgegeben.

Endliche Automaten - V01, SS-CL1, SS-CL2, SS-TAC

HpS; SWS: 2

Mo; wöch; 11:15 - 12:45; INF 325 SR 24; Haenelt, K.

Kommentar Leistungspunkte:

V01 Bachelor (alte Prüfungsordnung): 6

SS-CL1, SS-CL2, SS-TAC Master: 8Inhalt Viele grundlegende Aufgaben der Sprachverarbeitung von der Zerlegung eines

Textes in Wörter bis zur phonologischen und morphologischen Analyse, zurRechtschreibkorrektur und zum flachem Parsing können mit endlichen Automatenund Transduktoren sehr effizient durchgeführt werden. Im Seminar sollen die formalen

Sommer 2008 10

Grundlagen, Anwendungsbeispiele und Implementierungen erarbeitet und vermitteltwerden.

Voraussetzung Zwischenprüfung in Computerlinguistik oder vergleichbare Kenntnisse,Programmierkenntnisse

Links Veranstaltungsseite auf der CL-Homepage -http://www.cl.uni-heidelberg.de/courses/ss08/automaten

Computerlinguistisches Kolloquium - Coll, V02

K; SWS: 2

Do; wöch; 16:15 - 17:45; INF 325 SR 24; Frank, A.;Sporleder, C.

Kommentar Leistungspunkte:

V02 Bachelor (alte Prüfungsordnung): 4

Coll Master: 2Inhalt Das Computerlinguistische Kolloquium bietet BA-, MA- und Magisterstudierenden ein

Forum für die Vorstellung und Diskussion ihrer Abschlussarbeiten. Die Studierendenpräsentieren den aktuellen Stand ihrer Arbeit und erhalten in der DiskussionAnregungen von Seiten der Studierenden und der Dozenten.

Darüber hinaus bietet das Computerlinguistische Kolloquium allen Studierendendurch Vorträge geladener Gäste Einblicke in aktuelle Forschungsfragen derComputerlinguistik. Externe Vorträge im Kolloquium werden auf der Homepage desSeminars für Computerlinguistik bekanntgegeben.

Leistungsnachweis ABA: Vortrag und Ausarbeitung

Regelmässige Präsenz ist Voraussetzung für den Scheinerwerb.Voraussetzung Ein Leistungserwerb in der Veranstaltung ist nur für Examenskandidat/innen im

Bachelor- und Masterstudiengang vorgesehen. Jedoch sind alle Studierendeneingeladen, den Vorträgen zuzuhören und sich an den folgenden Diskussionen zubeteiligen.

Begleitveranstaltung zum Software-Projekt - SP, V03

S; SWS: 2

Mi; wöch; 14:15 - 15:45; INF 325 SR 24; Sporleder, C.

Mi; wöch; 16:15 - 17:45; INF 325 SR 24; Reiter, N.

Kommentar Leistungspunkte:

SP Bachelor (neue Prüfungsordnung): 6 + 4 (ÜK)

V03 Bachelor (alte Prüfungsordnung): 6Inhalt Im Softwareprojekt soll eine computerlinguistische Aufgabenstellung weitgehend

eigenverantwortlich und in Teamarbeit geplant, softwaretechnisch durchgeführt,dokumentiert und abschließend präsentiert werden. Neben der Vertiefung praktischerProgrammierkenntnisse (Techniken und Werkzeuge für verteilte Programmerstellung,Testverfahren und Qualitätskontrolle, Dokumentation, etc.) sollen Teamfähigkeit undplanerische Fähigkeiten geübt werden. Daneben werden grundlegende Techniken undMethoden wissenschaftlichen Arbeitens vermittelt.

Aus organisatorischen Gründen bitten wir um vorherige Anmeldung per E-Mail bei NilsReiter.

Leistungsnachweis * Teilnahme an allen Einführungsvorlesungen

* Projekt-Spezifikationsvortrag

* Projekt-Abschlussvortrag und Demo

* Programmdokumentation und Archivierung

Präsenz bei allen Spezifikations- und Abschlussvorträgen ist Voraussetzung für denScheinerwerb.

Sommer 2008 11

Notenkriterien:

* 30% Spezifikationsvortrag,

* 60% Praesentation (Demo+Talk)

* 10% DokumentationVoraussetzung * bestandene Programmierprüfung

Vor Beginn des Sommersemesters wird es einen Blockkurs zur Benutzung derinstallierten

Software geben. Der Blockkurs findet vom 31. März bis zum 4. April zwischen 10 und17 Uhr

im CIP-Pool statt. Teilnahme am Blockkurs ist Vorraussetzung für das Softwareprojekt.

Nähere Informationen dazu finden Sie auf der Kurshomepage.Literatur abhängig vom Projekt, wird zu Begin des Semesters bekannt gegeben Algorithmen und Datenstrukturen

GV; SWS: 4

Mi; wöch; 11:00 - 13:00; INF 227 HS 2; Weitere Informationen:http://hci.iwr.uni-heidelberg.de/teaching.php; Köthe, U.

Do; wöch; 11:00 - 13:00; INF 308 HS 2; Köthe, U.

Bachelor (neue Prüfungsordnung)Arbeitstechniken in der CL - ÜK, E02

Ü; SWS: 2; ECTS: 3

Di; wöch; 11:15 - 12:45; INF 325 SR 24; Reiter, N.

Kommentar Dieser Kurs wird (i) in zunehmendem Maße als Maßstab dafür dienen, was vonStudierenden erwartet wird und (ii) mittelfristig als Teilnahmevoraussetzung für mancheKurse festgeschrieben.

Inhalt Im Kurs 'Arbeitstechniken in der Computerlinguistik' wird es um technische undnicht-technische Fähigkeiten gehen, die man als Computerlinguist früher oderspäter braucht oder die das Leben sehr vereinfachen. Dazu zählen u.a. dasTextsatzsystem LaTeX, das Referenzenverwaltungssystem BibTeX und dieUnix-Kommandozeile. Beschäftigen werden wir uns außerdem mit dem komplettenZyklus wissenschaftlichen Arbeitens, vom Recherchieren über Schreiben undStrukturieren von wissenschaftlichen Texten bis hin zur

Vorbereitung von Vorträgen und Präsentationen.Leistungsnachweis Regelmäßige Hausaufgaben und Anwesenheit sind Teil der Scheinleistung.Voraussetzung Aufgrund der Übungen ist die Teilnehmerzahl auf 30 Studierende begrenzt.

Um vorherige Anmeldung per E-Mail wird gebeten. Bei mehr als 30 Anmeldungenhaben

Studierende der Computerlinguistik Vorrang. Logische Grundlagen für die Computerlinguistik - FF-L, B11

V/Ü; SWS: 2

Mo; wöch; 18:15 - 19:45; INF 306 SR 19; Herweg, M.

Kommentar Termine für das Tutorium werden zu Beginn des Semesters festgelegt

Leistungspunkte:

FF-LF Bachelor (neue Prüfungsordnung): 6

B11 Bachelor (alte Prüfungsordnung): 4Inhalt Fundierte Logikkenntnisse sind unverzichtbar für Anwendungen in der

Computerlinguistik und theoretischen Linguistik. Dies gilt für die gängigenBeschreibungsformate in nahezu allen (computer-)linguistischen Teildisziplinen

Sommer 2008 12

(Syntax, Semantik, Morphologie, Phonologie, ...) ebenso wie für sprachtechnologischeImplementierungen. Der Kurs bietet eine Einführung in die Logik und legt dabeibesonderen Wert auf die praktische Einübung grundlegender logischer Methodenund Techniken. Behandelt werden Syntax und Semantik der Aussagenlogik und derPrädikatenlogik 1. Stufe mit einem Ausblick auf weiterführende Logiksysteme undlogikbasierte Formalismen für (computer-)linguistische Anwendungen.

Leistungsnachweis Scheinerwerb durch Teilnahme am Tutorium und eine KlausurVoraussetzung Keine Voraussetzungen; Scheinerwerb durch Teilnahme am Tutorium und eine KlausurLiteratur wird in der Veranstaltung bekanntgegeben Formale Syntax - FSyn, B08

V/Ü; SWS: 4

Di; wöch; 09:15 - 10:45; INF 350 OMZ R U013; Frank, A.

Do; wöch; 09:15 - 10:45; INF 350 OMZ R U013; Frank, A.

Kommentar Leistungspunkte:

FSyn Bachelor (neue Prüfungsordnung): 6

B08 Bachelor (alte Prüfungsordnung): 5Inhalt Die Vorlesung vermittelt vertiefte Kenntnisse der syntaktischen Sprachbeschreibung

am Beispiel eines theoretisch fundierten Grammatikformalismus.

Wir beginnen mit einer Übersicht über die Grundannahmen verschiedenerGrammatikformalismen (GB, LFG, HPSG) und vertiefen insbesondere die formalenGrundlagen der Lexikalisch-funktionalen Grammatik (LFG), als einer der bedeutendenlexikalischen constraint-basierten Grammatikformalismen.

Die Vorlesung gibt einen Überblick über die Kernbereiche und einige speziellePhänomene der syntaktischen Analyse und ihrer formalen Beschreibung im Rahmender Lexikalisch-funktionalen Grammatik:

* Satzstruktur, funktionale Kategorien und Wortstellung

* Subkategorisierung, Diathesen und Argumentstruktur

* Lange Abhängigkeiten

* Anhebung und Kontrolle

* Bindung

* Koordination

* Kongruenz, Inkorporation und Wortstellung

Die Vorlesung wird begleitet durch theoretische Aufgaben und praktische Übungen mitder LFG-Grammatikentwicklungsumgebung Xerox Linguistic Environment (XLE).

Leistungsnachweis Leistungsnachweis: Klausur

Voraussetzung für den Scheinerwerb sind regelmäßige Präsenz, aktive Teilnahme unddie erfolgreiche Bearbeitung der Übungsaufgaben (60%).

Literatur * Yehuda Falk (2001): Lexical-Functional Grammar. An Introduction to ParallelConstraint-Based Syntax. University of Chicago Press.

* Joan Bresnan (2001). Lexical-Functional Syntax. Oxford: Blackwell. Mary Dalrymple(2001). Lexical Functional Grammar. Volume 34, Syntax and Semantics. AcademicPress.

* Peter Sells (1985). Lectures on Contemporary Syntactic Theories. An Introductionto Government-Binding Theory, Generalized Phrase Structure Grammar, andLexical-Functional Grammar. CSLI Lecture Notes No. 3, CSLI Publications, Stanford,CA. (Chapter 3)

Sommer 2008 13

* Tracy Holloway King, Stefanie Dipper, Anette Frank, Jonas Kuhn, John Maxwell(2004): "Ambiguity Management in Grammar Writing". In Research on Language andComputation, 2 (2): 259-280, Kluwer Academic Publications.

Weitere Literatur wird im Laufe des Semesters bekannt gegeben. Computationelle Morphologie - CS-CL, BS-CL, BS-FL, B06

V/Ü; SWS: 2; ECTS: 4

Fr; wöch; 11:15 - 12:45; INF 325 SR 24; Zielinski, A.

Inhalt Die Vorlesung bietet eine Einführung in finite-state basierte Methoden für diemorphologische Analyse. Anhand des Buches von Beesley&Kartunnen (2003) wird dieTwo-Level-Morphologie vorgestellt und durch praktische Übungen mit der finite-stateSoftware xfst/lexc ergänzt.

Leistungsnachweis regelmäßige Teilnahme, erfolgreiche Bearbeitung der Übungsaufgaben (mindestens50%), Abschlussklausur.

Voraussetzung Vorkenntnisse in Grundlagen der Morphologie und Automatentheorie sind von Vorteil,aber nicht erforderlich. Im Kurs werden Übungsaufgaben in xsft und lexc gelöst.Programmiererfahrungen sind daher ebenfalls von Nutzen.

Literatur Kenneth R. Beesley und Lauri Karttunen (2003): Finite State Morphology, CSLIPublications, Stanford, California.

Programmieren II: Fortgeschrittene - PII, B04

V/Ü; SWS: 4

Di; wöch; 14:15 - 15:45; INF 350 OMZ R U013; Sporleder, C.

Do; wöch; 14:15 - 15:45; INF 350 OMZ R U013; Sporleder, C.

Kommentar Leistungspunkte:

PII Bachelor (neue Prüfungsordnung): 6

B04 Bachelor (alte Prüfungsordnung): 5Inhalt In dem Kurs sollen die in "Programmieren I" erworbenen Grundkenntnisse anhand

einer zweiten Programmiersprache erweitert und vertieft werden. Neben einerallgemeinen Einführung in Java werden dabei auch computerlinguistische Algorithmenin dieser Sprache vorgestellt und erbarbeitet. Dabei werden u.a. die folgenden Themenbehandelt: reguläre Ausdrücke, Automaten, Graphen, Baum- und Merkmalsstrukturen.

Leistungsnachweis Die Leistungsanforderungen für den Scheinerwerb umfassen:

- erfolgreiche und regelmäßige Bearbeitung der Übungsaufgaben

- Bestehen der AbschlussklausurVoraussetzung Teilnahmevoraussetzungen: erfolgreiche Teilnahme an Programmieren ILiteratur als Referenz: David Flanagan: Java in a Nutshell, O'Reilly, 2005 Automatische Textzusammenfassung - CS-CL, BS-CL, BS-AC, A08

PS; SWS: 2; ECTS: 4

Di; wöch; 16:15 - 17:45; INF 327 SR 20; Strube, M.

Inhalt Die Menge an (online) verfügbarer Information steigt ständig. Suchmaschinenermöglichen Zugriff auf Dokumentebene. Die automatische Zusammenfassung kanndagegen die verfügbare Information verkürzt und den Interessen des Benutzersentsprechend zu präsentieren.

Im Seminar werden anhand klassischer Arbeiten (aus Mani & Maybury 1999) zunächstdie statistischen Methoden eingeführt, die der automatischen Textzusammenfassungzugrundeliegen. Danach soll auf verschiedene Arten der Zusammenfassungeingegangen werden (abstraktiv vs. extraktiv, Multi-document Summarization,Topic-based Summarization, Multimedia-Zusammenfassung, etc.) und aufverschiedene Methoden (rein statistisch, lexikalische Ketten, diskursbasierte Methoden,wissensbasierte Methoden, etc.). Schließlich soll das Problem der Evaluierungvon Methoden automatischer Zusammenfassung diskutiert werden. Hierbei wird

Sommer 2008 14

die Evaluierung, die im Rahmen der Document Understanding Conference (DUC)durchgeführt wird, eine zentrale Rolle spielen.

Leistungsnachweis Vortrag/Präsentation und Seminararbeit (max. 10 Seiten)Literatur Mani, Inderjeet and Maybury, Mark T. (Eds.) (1999). Advances in Automatic Text

Summarization. Cambridge, Mass.: MIT Press.

Mani, Inderjeet (2001). Automatic Summarization. Amsterdam, The Netherlands: JohnBenjamins.

Computerlexikographie - CS-CL, BS-CL, BS-FL, A15

PS; SWS: 2; ECTS: 4

Mo; wöch; 16:15 - 17:45; INF 306 SR 19; Kunze, C.

Kommentar Anmeldung ab sofort per Email bzw. in der 1. Semesterwoche.Inhalt Computerlexikographie ist Lexikographie mit dem Computer und für den Computer.

Da die lexikographische Arbeit sich äußerst datenintensiv gestaltet, ist die maschinelleUnterstützung dieses Prozesses unabdingbar. Zum einen erhält der LexikographUnterstützung bei der Erhebung, Bearbeitung, Darstellung und Verarbeitung seinerlexikographischen Daten, zum anderen profitieren Wörterbuchbenutzer vom flexiblerenUmgang mit elektronischen Wörterbüchern im Vergleich zum gedruckten Wörterbuch.Sprachverarbeitende Systeme wiederum benötigen ein Lexikon, welches relevantelexikalische Informationen über ein Inventar von Wörtern einer oder mehrerer Sprachenbereitstellt. Je mehr Anwendungen in Forschung und Industrie die Verarbeitungnatürlicher Sprache voraussetzen, umso größer wird auch der Bedarf an allgemeinenund spezialisierten elektronischen Wörterbüchern.

Im Seminar werden neben der Klärung lexikographischer Grundbegriffe die u.a. diefolgenden Themenbereiche fokussiert und anhand von Übungen vertieft: lexikalischeDatenbanken, lexikalische Akquisition, lexikalische Statistik, lexikalische Regeln,Mark-up Sprachen die und Standardisierung lexikographischer Einträge.

Voraussetzung Das Proseminar richtet sich an Studierende, die bereits erfolgreich eine Einführung indie Computerlingusitik absolviert haben.

Literatur Als Kursbuch dient das von Lothar Lemnitzer und mir gemeinsam verfasste eBook"Computerlexikographie - eine Einführung" (2007), erschienen im Narr VerlagTübingen.

Weitere Literatur wird zu Beginn des Seminars genannt. Informationsextraktion - CS-CL, BS-CL, BS-AC, A12

PS; SWS: 2

Do; wöch; 11:15 - 12:45; INF 306 SR 13; Hartung, M.

Kommentar Leistungspunkte:

CS-CL (Bachelor neue Prüfungsordnung): wahlweise 6 oder 4 LP

BS-CL, BS-AC (Bachelor neue Prüfungsordnung): 4 LP

A12 (Bachelor alte Prüfungsordnung): 4 LP

Inhalt Informationsextraktionssysteme haben zum Ziel, domänenspezifische Informationaus unrestringierten Texten zu gewinnen und zu strukturieren. Es geht dabei nichtum eine vollständige Inhaltsanalyse eines Textes, sondern um das gezielte Auffindenrelevanter Textausschnitte und deren Analyse mithilfe robuster und effizientercomputerlinguistischer Techniken. Dabei ist es die Aufgabe des Benutzers, die Musterzu spezifizieren, in denen relevante Information in Texten sprachlich realisiert wird(z.B. in Form bestimmter syntaktischer Patterns oder semantischer Relationen). Inneueren Informationsextraktionssystemen wird allerdings zunehmend versucht, denSpezifikationsaufwand für den Benutzer zu reduzieren und relevante Muster mithilfevon Techniken des Maschinellen Lernens vom System selbst akquirieren zu lassen.

Wir werden uns in diesem Kurs zunächst mit den einzelnen Komponenten einesInformationsextraktionssystems befassen: lexikalische Analyse, Named Entity

Sommer 2008 15

Recognition, Chunk-Parsing, Anaphernresolution. Maschinelle Lernverfahren werdenan verschiedenen Punkten angesprochen, aber nicht vertieft. Der Kurs richtet sich inerster Linie an Bachelor-Studierende, die sich erste Einblicke in ein Anwendungsfeldder Computerlinguistik verschaffen wollen, kann aber auch von Magister-Studierendenbesucht werden.

Die Leistungsanforderungen in diesem Kurs umfassen neben der Lektüreeinschlägiger Literatur die Lösung kursbegleitender Übungsaufgaben (darunterauch kleinere Programmieraufgaben) sowie die Lösung einer umfangreicherenImplementierungsaufgabe (in Gruppenarbeit) während der vorlesungsfreien Zeit.Programmierkenntnisse sind daher unverzichtbare Voraussetzung für die Teilnahme.

Achtung, Terminabweichung: Die erste Sitzung am 10.04. findet von 12.00-13.00 Uhr statt.

Leistungsnachweis * Lektüre einschlägiger Literatur

* die Lösung kursbegleitender Übungsaufgaben (darunter auch kleinereProgrammieraufgaben)

* die Lösung einer umfangreicheren Implementierungsaufgabe (in Gruppenarbeit)während der vorlesungsfreien Zeit.

Voraussetzung ProgrammierkenntnisseLiteratur Literatur zur Einführung:

Feldman, Ronen & Sanger, James (2006): The Text Mining Handbook. AdvancedApproaches in Analyzing Unstructured Knowledge. Cambridge University Press.

Grishman, Ralph (2003): Information Extraction, in: Mitkov, Ruslan (Hrsg.): The OxfordHandbook of Computational Linguistics. Oxford University Press: 545-59.

Neumann, Günter (2001): Informationsextraktion, in: Carstensen, Kai-Uwe et al.(Hrsg.): Computerlinguistik und Sprachtechnologie. Eine Einführung. Heidelberg,Spektrum: 448-55.

Proceedings der Message Understanding Conferences (MUC):http://www-nlpir.nist.gov/related_projects/muc/

Weitere Literatur wird im Kurs bekannt gegeben. Spracherkennung - CS-CL, BS-CL, BS-AC, A18

PS; SWS: 2; ECTS: 4

Fr; 14täg.; 10:15 - 13:45; INF 325 PCPool; Günther, C.;Klehr, M.

Kommentar Das Seminar wird 14-tägig gehalten.Inhalt Der Kurs wird die Grundlagen der Spracherkennung behandeln. Es werden

die verschiedenen Verarbeitungsschritte der automatischen Spracherkennungbehandelt: von der Signalverarbeitung bis zum Sprachmodell. Dabei wird auf aktuelleForschungen auf diesem Gebiet eingegangen. Aber auch aktuelle Implementationenund Systeme (wie der IBM WebSphere Voice Server) sollen vorgestellt werden.

Im praktischen Teil des Seminars wird auf der Grundlage von VoiceXML einSprachdialogsystem implementiert. Es werden die einzelnen Schritte des Entwurfs undder Implementierung behandelt (Wizard-of-Oz Test, Dialogmodell, Grammatikentwurf,Prompt-Design, Test). Es werden dabei die verschiedenen Einflussfaktoren wieVokabulargröße oder Grammatikkomplexität auf das Erkennungsergebnis untersucht.

Leistungsnachweis Ausarbeitung einer Programmieraufgabe (Sprachdialog-Modul)Voraussetzung Kenntnisse in Statistik und Signalverarbeitung sind von Vorteil aber nicht

erforderlich. Im Kurs werden Übungsaufgaben in VoiceXML gelöst, so dassProgrammiererfahrungen (Java Script, XML) ebenfalls von Vorteil sind.

Literatur * C. Günther, M. Klehr: VoiceXML 2.0, mitp 2003

* F. Jelinek: Statistical Methods for Speech Recognition, MIT Press 1997

* E. G. Schukat-Talamazzini: Automatisch Spracherkennung, Vieweg 1995

Sommer 2008 16

* B. Eppinger, E. Herter: Sprachverarbeitung, Hanser 1993

Maschinelle Übersetzung - CS-CL, BS-CL, BS-AC, A20

PS; SWS: 2; ECTS: 4

Mi; wöch; 18:15 - 19:45; INF 327 SR 6; Eberle, K.

Inhalt Nach einem kurzen Überblick über die Geschichte der Maschinellen Übersetzungwerden die verschiedenen sog. regel-basierten Architekturen vorgestellt die bis Endeder 90er Jahre die Maschinelle Übersetzung bestimmt haben (das sind vor allem diedirekte Übersetzung, Transfer- und Interlingua-Verfahren). An Übersetzungsbeispielenund -schwierigkeiten werden die Vor- und Nachteile der Verfahren exemplifiziert.

Anhand der Entwicklungsumgebung des Übersetzungssystems translate wird Einblickin die Umsetzung von Spielarten der Transfer-Konzeption in einem kommerziellenSystem gegeben, insbesondere werden dabei Regeln aus verschiedenenSystem-Komponenten, wie lexikalischer Lookup, grammatische Analyse, Transferund Generierung, exemplarisch skizziert und deren Wirkungsweise an Testbeispielendemonstriert.

Seit den 90er Jahren werden vermehrt andere, Korpus-basierte, Methoden fürdie Maschinelle Übersetzung diskutiert. Im zweiten Teil der Veranstaltung wird insolche Methoden, insbesondere die Grundlagen der sog. Statistik-basierten und derBeispiel-basierten Übersetzung eingeführt und am Beispiel von translate motiviert, wieMethoden kombiniert werden können.

Angesichts der zur Verfügung stehenden Zeit und der Vorkenntnisse ist das Lernziel,einen Eindruck zu vermitteln, über die Schwierigkeiten mit der eine Maschine beider Übersetzung konfrontiert ist, über gegangene und mögliche Wege, die Aufgabealgorithmisch zu bewältigen und über die Vor- und Nachteile die den verschiedenenKonzeptionen immanent sind.

Leistungsnachweis Die Veranstaltung ist nur erfolgreich absolviert, wenn eine Klausur am Ende desSemesters mit ausreichendem Erfolg geschrieben wurde. Sporadisch werden zurSelbstkontrolle Hausaufgaben gestellt. Die Note ist die Note der Klausur.

Literatur einführende Literatur :

* Arnold, D., L. Balkan, R.L. Humphreys, S. Meijer & L. Sadler (1994):Machine Translation: An Introductory Guide, Oxford, NCC Blackwell.http:/www.essex.ac.uk/linguistics/clmt/MTbook/HTML/book.html

* Nirenburg, Sergei (ed.) (2003) Readings in Machine Translation.Cambridge: MITPress.

* Schwanke, M. (1991): Maschinelle Übersetzung- Ein Überblick über Theorie undPraxis, Springer Verlag.

* Trujillo, A. (1999): Translation Engines: Techniques for Machine Translation, SpringerVerlag.

weiterführende Literatur zu verschiedenen Methoden :

* Beaven, J. (1992): Shake and Bake Machine Translation, in COLING92.

* P. F. Brown, J. Cocke, S. Della Pietra, V. Della Pietra, F. Jelinek, R. Mercer, & P.Roossin, "A Statistical Approach to Machine Translation," Computational Linguistics16(2), 1990.

* Carl, M., Way, A. (ed.) (2003): Recent Advances in Example-Based MachineTranslation, Kluwer Academic Publishers, Dordrecht.

* Manning, Christopher D., Schütze, Hinrich: Chap. 13 Statistical Alignment andMachine Translation. In: Manning, Schütze: Foundations of Statistical NLP, 1999

* Michael McCord: Design of LMT, in: Computational Linguistics (15) 1989

Sommer 2008 17

* E Sumita, H Iida, H Kohyama: Translating with Examples: A New Approachto Machine Translation. The Third International Conference on Theoretical andMethodological Issues in Machine Translation, 1990.

Computerlinguistisches Kolloquium - Coll, V02

K; SWS: 2

Do; wöch; 16:15 - 17:45; INF 325 SR 24; Frank, A.;Sporleder, C.

Kommentar Leistungspunkte:

V02 Bachelor (alte Prüfungsordnung): 4

Coll Master: 2Inhalt Das Computerlinguistische Kolloquium bietet BA-, MA- und Magisterstudierenden ein

Forum für die Vorstellung und Diskussion ihrer Abschlussarbeiten. Die Studierendenpräsentieren den aktuellen Stand ihrer Arbeit und erhalten in der DiskussionAnregungen von Seiten der Studierenden und der Dozenten.

Darüber hinaus bietet das Computerlinguistische Kolloquium allen Studierendendurch Vorträge geladener Gäste Einblicke in aktuelle Forschungsfragen derComputerlinguistik. Externe Vorträge im Kolloquium werden auf der Homepage desSeminars für Computerlinguistik bekanntgegeben.

Leistungsnachweis ABA: Vortrag und Ausarbeitung

Regelmässige Präsenz ist Voraussetzung für den Scheinerwerb.Voraussetzung Ein Leistungserwerb in der Veranstaltung ist nur für Examenskandidat/innen im

Bachelor- und Masterstudiengang vorgesehen. Jedoch sind alle Studierendeneingeladen, den Vorträgen zuzuhören und sich an den folgenden Diskussionen zubeteiligen.

Begleitveranstaltung zum Software-Projekt - SP, V03

S; SWS: 2

Mi; wöch; 14:15 - 15:45; INF 325 SR 24; Sporleder, C.

Mi; wöch; 16:15 - 17:45; INF 325 SR 24; Reiter, N.

Kommentar Leistungspunkte:

SP Bachelor (neue Prüfungsordnung): 6 + 4 (ÜK)

V03 Bachelor (alte Prüfungsordnung): 6Inhalt Im Softwareprojekt soll eine computerlinguistische Aufgabenstellung weitgehend

eigenverantwortlich und in Teamarbeit geplant, softwaretechnisch durchgeführt,dokumentiert und abschließend präsentiert werden. Neben der Vertiefung praktischerProgrammierkenntnisse (Techniken und Werkzeuge für verteilte Programmerstellung,Testverfahren und Qualitätskontrolle, Dokumentation, etc.) sollen Teamfähigkeit undplanerische Fähigkeiten geübt werden. Daneben werden grundlegende Techniken undMethoden wissenschaftlichen Arbeitens vermittelt.

Aus organisatorischen Gründen bitten wir um vorherige Anmeldung per E-Mail bei NilsReiter.

Leistungsnachweis * Teilnahme an allen Einführungsvorlesungen

* Projekt-Spezifikationsvortrag

* Projekt-Abschlussvortrag und Demo

* Programmdokumentation und Archivierung

Präsenz bei allen Spezifikations- und Abschlussvorträgen ist Voraussetzung für denScheinerwerb.

Notenkriterien:

* 30% Spezifikationsvortrag,

* 60% Praesentation (Demo+Talk)

Sommer 2008 18

* 10% Dokumentation

Voraussetzung * bestandene Programmierprüfung

Vor Beginn des Sommersemesters wird es einen Blockkurs zur Benutzung derinstallierten

Software geben. Der Blockkurs findet vom 31. März bis zum 4. April zwischen 10 und17 Uhr

im CIP-Pool statt. Teilnahme am Blockkurs ist Vorraussetzung für das Softwareprojekt.

Nähere Informationen dazu finden Sie auf der Kurshomepage.Literatur abhängig vom Projekt, wird zu Begin des Semesters bekannt gegeben Algorithmen und Datenstrukturen

GV; SWS: 4

Mi; wöch; 11:00 - 13:00; INF 227 HS 2; Weitere Informationen:http://hci.iwr.uni-heidelberg.de/teaching.php; Köthe, U.

Do; wöch; 11:00 - 13:00; INF 308 HS 2; Köthe, U.

MasterGrammatikinduktion - V01, SS-CL1, SS-CL2, SS-FAL

HpS; SWS: 2

Mi; wöch; 11:15 - 12:45; INF 325 SR 7; Frank, A.

Kommentar Zur Erleichterung der Seminarplanung bitten wir um Anmeldung per Email bis zum21.3.2008.

Achtung, Terminabweichung: Die erste Sitzung am 09.04. findet von 12.00-13.00 Uhr statt.

Leistungspunkte:

V01 Bachelor (alte Prüfungsordnung): 6

SS-CL1, SS-CL2 Master: 8Inhalt Seit den 80/90er Jahren wurden linguistisch motivierte und formal wohldefinierte

Grammatikformalismen entwickelt, insbesondere Lexical-Functional Grammar (LFG),Combinatory Categorial Grammar (CCG), Head-driven Phrase-Structure Grammar(HPSG) und Lexicalised Tree-Adjoining Grammar(LTAG). Durch die Entwicklungeffizienter Parsingalgorithmen ist der Einsatz dieser Grammatikformalismen incomputerlinguistischen Anwendungen realistisch geworden. Die Entwicklungumfangreicher manuell definierter Grammatiken ist zeitaufwendig und teuer;für multilinguale Sprachverarbeitung müssen jedoch umfangreiche und robusteGrammatiken in kurzer Zeit entwickelt werden.

Das Seminar führt ein in die Methodik der automatischen Induktion probabilistischerGrammatiken aus Baumbanken am Beispiel von PCFGs. Wir diskutieren insbesonderespezielle Verfahren für die automatische

Induktion lexikalisierter und constraint-basierter Grammatiken (wie LFG, TAG, CCGund HPSG) aus angereicherten Baumbanken bzw. Baumbankgrammatiken. Hierbeiwerden wir die Charakteristiken

der jeweiligen Grammatikformalismen und die entsprechenden Unterschiede derentsprechenden Grammatikinduktionsverfahren herausarbeiten. Abschließlich widmenwir uns neueren Ansätzen für die Grammatikinduktion auf Basis paralleler Korpora.

Leistungsnachweis Lektüre der zugrundegelegten Literatur, Referat und Hausarbeit oder Referat undProjekt

Regelmäßige Präsenz und aktive Teilnahme sind Voraussetzung für den Scheinerwerb.

Sommer 2008 19

Voraussetzung Programmierprüfung, Kenntnisse in Syntax, insbesondere LFG. Ggf. begleitendeBelegung von "Formale Syntax".

Literatur Literatur wird auf der Kurshomepage bekanntgegeben.

Semantikkonstruktion - V01, SS-CL1, SS-CL2, SS-FAL

HpS; SWS: 2

Di; wöch; 16:15 - 17:45; INF 325 SR 24; Frank, A.;Hartung, M.

Kommentar Vorlesung mit Übungen und Referaten. Zur Erleichterung der Seminarplanung

bitten wir um Anmeldung per Mail bis zum 21.03.2008.

Leistungspunkte:

V01 Bachelor (alte Prüfungsordnung): 6

SS-CL1, SS-CL2, SS-FAL Master: 8Inhalt Der Begriff der Semantikkonstruktion bezeichnet den Prozess der automatischen

Konstruktion einer semantischen Repräsentation auf Basis einer syntaktischenAnalyse. Voraussetzung sind: a) ein geeigneter syntaktischer Formalismus, b) einegeeignete semantische Repräsentationssprache und c) eine exakte Modellierung derSchnittstelle zwischen syntaktischer und semantischer Repräsentation.

Bekannte Modelle der Semantikkonstruktion im Sinne von c) sind u.a. derLambda-Kalkül, "Glue"-Ansätze auf Basis von Linearer Logik (Dalrymple et al.1995, Dalrymple 2001) und neuere Ansätze für eine "Algebra" zur Konstruktionunterspezifizierter semantischer Repräsentationen (Copestake et al. 2001).

Wir arbeiten charakteristische Unterschiede und Gemeinsamkeiten dieserSemantikkonstruktionsverfahren heraus, auch im Hinblick auf unterschiedlichezugrundeliegende Grammatikmodelle (wie z.B. CCG, HPSG, TAG und LFG).

Im zweiten Teil wenden wir uns offenen Fragen der Semantikkonstruktion zu, die wiranhand von ausgewählter Literatur mit Referaten diskutieren:

(i) Wie können nichtkompositionelle Phänomene (Idiome, Funktionsverbgefüge, etc.)der lexikalischen Semantik in einem allgemeinen Semantikkonstruktionsverfahrenbehandelt werden?

(ii) Welchen Status besitzen Paraphrasen in einem Modell derSyntax-Semantik-Schnittstelle?

(iii) In welchem Verhältnis stehen semantische Repräsentationen zu Ontologien?

(iv) Lassen sich strukturelle und/oder lexikalische Komponenten derSemantikkonstruktion durch Lernverfahren automatisieren?

Der Kurs wird begleitet durch praktische Übungen zu Aspekten derSemantikkonstruktion. Im Verlauf des Kurses sollen dabei kleine Fragmente zuausgewählten Aspekten der Semantikkonstruktion entstehen.

Leistungsnachweis Lektüre der zugrunde gelegten Literatur, Bearbeitung der praktischen Übungsaufgaben,Referat + schriftliche Ausarbeitung oder Projekt + schriftliche Ausarbeitung.

Regelmäßige Präsenz und aktive Teilnahme sind Voraussetzung für den Scheinerwerb.Voraussetzung Programmierprüfung, Kenntnisse in Prädikatenlogik und Semantik.Literatur Patrick Blackburn, Johan Bos (2005): Representation and Inference for Natural

Language. A First Course in Computational Semantics. CSLI Press.

Johan Bos, Stephen Clark, Mark Steedman, James R. Curran, Julia Hockenmaier(2004): Wide-Coverage Semantic Representations from a CCG Parser, in: Proceedingsof the 20th International Conference on Computational Linguistics (COLING '04).Geneva, Switzerland.

Philipp Cimiano, Uwe Reyle (2003): Ontology-based semantic constructionunderspecification and disambiguation, in: Proceedings of the Workshop on Prospectsand Recent Advances in the Syntax-Semantics Interface. Nancy, France: 33-38.

Sommer 2008 20

Philipp Cimiano, Anette Frank, Uwe Reyle (2007): UDRT-based semantics constructionfor LTAG -- and what it tells us about the role of adjunction in LTAG, in: Proceedingsof the 7th International Workshop on Computational Semantics (IWCS-7). Tilburg, TheNetherlands.

Ann Copestake, Alex Lascarides, Dan Flickinger (2001): An Algebra for SemanticConstruction in Constraint-based Grammars, in: Proceedings of the 39th AnnualMeeting of the Association for Computational Linguistics (ACL 2001). Toulouse,France.

Ann Copestake, Dan Flickinger, Ivan Sag, Carl Pollard (2005): Minimal RecursionSemantics. An Introduction, in: Journal of Research on Language and Computation3(2-3): 281-332.

Mary Dalrymple, John Lamping, Fernando C. N. Pereira, Vijay Saraswat (1995): LinearLogic for Meaning Assembly, in: Proceedings of the Workshop on Computational Logicfor Natural Language Processing, Edinburgh, UK.

Mary Dalrymple (2001): Meaning and Semantic Composition, in: Lexical FunctionalGrammar. Syntax and Semantics, Vol. 34. Academic Press.

Weitere Literatur wird im Laufe des Semesters bekannt gegeben.

Endliche Automaten - V01, SS-CL1, SS-CL2, SS-TAC

HpS; SWS: 2

Mo; wöch; 11:15 - 12:45; INF 325 SR 24; Haenelt, K.

Kommentar Leistungspunkte:

V01 Bachelor (alte Prüfungsordnung): 6

SS-CL1, SS-CL2, SS-TAC Master: 8Inhalt Viele grundlegende Aufgaben der Sprachverarbeitung von der Zerlegung eines

Textes in Wörter bis zur phonologischen und morphologischen Analyse, zurRechtschreibkorrektur und zum flachem Parsing können mit endlichen Automatenund Transduktoren sehr effizient durchgeführt werden. Im Seminar sollen die formalenGrundlagen, Anwendungsbeispiele und Implementierungen erarbeitet und vermitteltwerden.

Voraussetzung Zwischenprüfung in Computerlinguistik oder vergleichbare Kenntnisse,Programmierkenntnisse

Links Veranstaltungsseite auf der CL-Homepage -http://www.cl.uni-heidelberg.de/courses/ss08/automaten

Induktion linguistischer Ressourcen - SS-CL1, SS-CL2, SS-TAC

HpS; SWS: 2; ECTS: 8

Mo; wöch; 14:15 - 15:45; INF 325 SR 24; Frank, A.;Hartung, M.

Kommentar Das Projektseminar ist konzipiert als ein fortgeschrittenes Seminar mitWerkstattcharakter. Im Zentrum steht die Aufgabe der automatischen Induktion(computer-)linguistischer Ressourcen mit Hilfe

moderner Techniken des Maschinellen Lernens.

Zur Erleichterung der Seminarplanung bitten wir um Anmeldung per email (bis21.3.2008).

Inhalt In einem Vorlesungsteil führen wir ein in den Gegenstand und aktuelle Ansätze zurautomatischen Resourceninduktion, mit Schwerpunkt auf einigen ausgesuchtenThemenbereichen (Morphologie, Eigennamen, semantische Relationen, sowieFaktizität/Modalität/Subjektivität). Wir vertiefen dann spezielle methodische Verfahrenfür Training, Optimierung und Evaluation, die in einem Projekt experimentelldurchgeführt werden sollen.

Sommer 2008 21

Die Seminarteilnehmer konzipieren danach in Gruppen und Gruppenvorträgendie Ausarbeitung verschiedener Projekte zur Ressourceninduktion, unter jeweilsbestimmten Fragestellungen (z.B. Performanz verschiedener Ansätze desmaschinellen Lernens, Qualität von Features, Optimierungsverfahren).

Schwerpunkt ist die Konzeption und Durchführung eines vollständigenwissenschaftlichen Experiments - von der Definition der Fragestellung überExperimentaufbau und Optimierung bis zur Evaluation.

Leistungsnachweis Gruppenvorträge (20%), Projektdurchführung (60%) und Ausarbeitung (20%).

Regelmäßige Präsenz und aktive Teilnahme sind Voraussetzung für den Scheinerwerb.Voraussetzung Programmierprüfung, Grundkenntnisse in Statistik und Maschinellem Lernen.Literatur Ian H. Witten and Eibe Frank (2000): Data Mining: Practical Machine Learning Tools

and Techniques with Java Implementations. Morgan Kaufmann.

Weitere Literatur wird im Laufe des Semesters bekannt gegeben.

Text Mining - SS-CL1, SS-CL2, SS-TAC

HpS; SWS: 2; ECTS: 8

Do; wöch; 11:15 - 12:45; INF 325 SR 24; Sporleder, C.

Inhalt Dieses Seminar behandelt aktuelle Forschungsthemen im Bereich "TextMining". Der Begriff "Text Mining" bezieht sich auf Anwendungen, in denen dieInformationsgewinnung aus textuellen Daten im Vordergrund steht (im Gegensatz zum"Data Mining", d.h.der Informationsgewinnung aus Daten, die nicht primär textuell sind).Geplante Seminarthemen sind: Named Entity Disambiguierung, Relationsextraktion,Web Mining, Verarbeitung wissenschaftlicher Aufsätze (Autorenerkennung, Analysevon Referenzen, Erkennung von Plagiaten), Sentiment Analysis, Text Mining fürverschiedene Domänen (Cultural Heritage, Bio Medicine).

Voraussetzung * Grundkenntnisse in maschinellen Lernverfahren und statistischen Methoden

* Bestehen der Programmierprüfung

Teilnehmer werden gebeten, sich für dieses Seminar bis zum 25.3.2008 anzumelden.

Literatur aktuelle Forschungsaufsätze, wird zu Semesterbeginn bekannt gegeben Computerlinguistisches Kolloquium - Coll, V02

K; SWS: 2

Do; wöch; 16:15 - 17:45; INF 325 SR 24; Frank, A.;Sporleder, C.

Kommentar Leistungspunkte:

V02 Bachelor (alte Prüfungsordnung): 4

Coll Master: 2Inhalt Das Computerlinguistische Kolloquium bietet BA-, MA- und Magisterstudierenden ein

Forum für die Vorstellung und Diskussion ihrer Abschlussarbeiten. Die Studierendenpräsentieren den aktuellen Stand ihrer Arbeit und erhalten in der DiskussionAnregungen von Seiten der Studierenden und der Dozenten.

Darüber hinaus bietet das Computerlinguistische Kolloquium allen Studierendendurch Vorträge geladener Gäste Einblicke in aktuelle Forschungsfragen derComputerlinguistik. Externe Vorträge im Kolloquium werden auf der Homepage desSeminars für Computerlinguistik bekanntgegeben.

Leistungsnachweis ABA: Vortrag und Ausarbeitung

Regelmässige Präsenz ist Voraussetzung für den Scheinerwerb.Voraussetzung Ein Leistungserwerb in der Veranstaltung ist nur für Examenskandidat/innen im

Bachelor- und Masterstudiengang vorgesehen. Jedoch sind alle Studierendeneingeladen, den Vorträgen zuzuhören und sich an den folgenden Diskussionen zubeteiligen.

Sommer 2008 22

Magister

Algorithmische LinguistikInformationsextraktion - CS-CL, BS-CL, BS-AC, A12

PS; SWS: 2

Do; wöch; 11:15 - 12:45; INF 306 SR 13; Hartung, M.

Kommentar Leistungspunkte:

CS-CL (Bachelor neue Prüfungsordnung): wahlweise 6 oder 4 LP

BS-CL, BS-AC (Bachelor neue Prüfungsordnung): 4 LP

A12 (Bachelor alte Prüfungsordnung): 4 LP

Inhalt Informationsextraktionssysteme haben zum Ziel, domänenspezifische Informationaus unrestringierten Texten zu gewinnen und zu strukturieren. Es geht dabei nichtum eine vollständige Inhaltsanalyse eines Textes, sondern um das gezielte Auffindenrelevanter Textausschnitte und deren Analyse mithilfe robuster und effizientercomputerlinguistischer Techniken. Dabei ist es die Aufgabe des Benutzers, die Musterzu spezifizieren, in denen relevante Information in Texten sprachlich realisiert wird(z.B. in Form bestimmter syntaktischer Patterns oder semantischer Relationen). Inneueren Informationsextraktionssystemen wird allerdings zunehmend versucht, denSpezifikationsaufwand für den Benutzer zu reduzieren und relevante Muster mithilfevon Techniken des Maschinellen Lernens vom System selbst akquirieren zu lassen.

Wir werden uns in diesem Kurs zunächst mit den einzelnen Komponenten einesInformationsextraktionssystems befassen: lexikalische Analyse, Named EntityRecognition, Chunk-Parsing, Anaphernresolution. Maschinelle Lernverfahren werdenan verschiedenen Punkten angesprochen, aber nicht vertieft. Der Kurs richtet sich inerster Linie an Bachelor-Studierende, die sich erste Einblicke in ein Anwendungsfeldder Computerlinguistik verschaffen wollen, kann aber auch von Magister-Studierendenbesucht werden.

Die Leistungsanforderungen in diesem Kurs umfassen neben der Lektüreeinschlägiger Literatur die Lösung kursbegleitender Übungsaufgaben (darunterauch kleinere Programmieraufgaben) sowie die Lösung einer umfangreicherenImplementierungsaufgabe (in Gruppenarbeit) während der vorlesungsfreien Zeit.Programmierkenntnisse sind daher unverzichtbare Voraussetzung für die Teilnahme.

Achtung, Terminabweichung: Die erste Sitzung am 10.04. findet von 12.00-13.00 Uhr statt.

Leistungsnachweis * Lektüre einschlägiger Literatur

* die Lösung kursbegleitender Übungsaufgaben (darunter auch kleinereProgrammieraufgaben)

* die Lösung einer umfangreicheren Implementierungsaufgabe (in Gruppenarbeit)während der vorlesungsfreien Zeit.

Voraussetzung ProgrammierkenntnisseLiteratur Literatur zur Einführung:

Feldman, Ronen & Sanger, James (2006): The Text Mining Handbook. AdvancedApproaches in Analyzing Unstructured Knowledge. Cambridge University Press.

Grishman, Ralph (2003): Information Extraction, in: Mitkov, Ruslan (Hrsg.): The OxfordHandbook of Computational Linguistics. Oxford University Press: 545-59.

Neumann, Günter (2001): Informationsextraktion, in: Carstensen, Kai-Uwe et al.(Hrsg.): Computerlinguistik und Sprachtechnologie. Eine Einführung. Heidelberg,Spektrum: 448-55.

Sommer 2008 23

Proceedings der Message Understanding Conferences (MUC):http://www-nlpir.nist.gov/related_projects/muc/

Weitere Literatur wird im Kurs bekannt gegeben. Spracherkennung - CS-CL, BS-CL, BS-AC, A18

PS; SWS: 2; ECTS: 4

Fr; 14täg.; 10:15 - 13:45; INF 325 PCPool; Günther, C.;Klehr, M.

Kommentar Das Seminar wird 14-tägig gehalten.Inhalt Der Kurs wird die Grundlagen der Spracherkennung behandeln. Es werden

die verschiedenen Verarbeitungsschritte der automatischen Spracherkennungbehandelt: von der Signalverarbeitung bis zum Sprachmodell. Dabei wird auf aktuelleForschungen auf diesem Gebiet eingegangen. Aber auch aktuelle Implementationenund Systeme (wie der IBM WebSphere Voice Server) sollen vorgestellt werden.

Im praktischen Teil des Seminars wird auf der Grundlage von VoiceXML einSprachdialogsystem implementiert. Es werden die einzelnen Schritte des Entwurfs undder Implementierung behandelt (Wizard-of-Oz Test, Dialogmodell, Grammatikentwurf,Prompt-Design, Test). Es werden dabei die verschiedenen Einflussfaktoren wieVokabulargröße oder Grammatikkomplexität auf das Erkennungsergebnis untersucht.

Leistungsnachweis Ausarbeitung einer Programmieraufgabe (Sprachdialog-Modul)Voraussetzung Kenntnisse in Statistik und Signalverarbeitung sind von Vorteil aber nicht

erforderlich. Im Kurs werden Übungsaufgaben in VoiceXML gelöst, so dassProgrammiererfahrungen (Java Script, XML) ebenfalls von Vorteil sind.

Literatur * C. Günther, M. Klehr: VoiceXML 2.0, mitp 2003

* F. Jelinek: Statistical Methods for Speech Recognition, MIT Press 1997

* E. G. Schukat-Talamazzini: Automatisch Spracherkennung, Vieweg 1995

* B. Eppinger, E. Herter: Sprachverarbeitung, Hanser 1993 Maschinelle Übersetzung - CS-CL, BS-CL, BS-AC, A20

PS; SWS: 2; ECTS: 4

Mi; wöch; 18:15 - 19:45; INF 327 SR 6; Eberle, K.

Inhalt Nach einem kurzen Überblick über die Geschichte der Maschinellen Übersetzungwerden die verschiedenen sog. regel-basierten Architekturen vorgestellt die bis Endeder 90er Jahre die Maschinelle Übersetzung bestimmt haben (das sind vor allem diedirekte Übersetzung, Transfer- und Interlingua-Verfahren). An Übersetzungsbeispielenund -schwierigkeiten werden die Vor- und Nachteile der Verfahren exemplifiziert.

Anhand der Entwicklungsumgebung des Übersetzungssystems translate wird Einblickin die Umsetzung von Spielarten der Transfer-Konzeption in einem kommerziellenSystem gegeben, insbesondere werden dabei Regeln aus verschiedenenSystem-Komponenten, wie lexikalischer Lookup, grammatische Analyse, Transferund Generierung, exemplarisch skizziert und deren Wirkungsweise an Testbeispielendemonstriert.

Seit den 90er Jahren werden vermehrt andere, Korpus-basierte, Methoden fürdie Maschinelle Übersetzung diskutiert. Im zweiten Teil der Veranstaltung wird insolche Methoden, insbesondere die Grundlagen der sog. Statistik-basierten und derBeispiel-basierten Übersetzung eingeführt und am Beispiel von translate motiviert, wieMethoden kombiniert werden können.

Angesichts der zur Verfügung stehenden Zeit und der Vorkenntnisse ist das Lernziel,einen Eindruck zu vermitteln, über die Schwierigkeiten mit der eine Maschine beider Übersetzung konfrontiert ist, über gegangene und mögliche Wege, die Aufgabealgorithmisch zu bewältigen und über die Vor- und Nachteile die den verschiedenenKonzeptionen immanent sind.

Sommer 2008 24

Leistungsnachweis Die Veranstaltung ist nur erfolgreich absolviert, wenn eine Klausur am Ende desSemesters mit ausreichendem Erfolg geschrieben wurde. Sporadisch werden zurSelbstkontrolle Hausaufgaben gestellt. Die Note ist die Note der Klausur.

Literatur einführende Literatur :

* Arnold, D., L. Balkan, R.L. Humphreys, S. Meijer & L. Sadler (1994):Machine Translation: An Introductory Guide, Oxford, NCC Blackwell.http:/www.essex.ac.uk/linguistics/clmt/MTbook/HTML/book.html

* Nirenburg, Sergei (ed.) (2003) Readings in Machine Translation.Cambridge: MITPress.

* Schwanke, M. (1991): Maschinelle Übersetzung- Ein Überblick über Theorie undPraxis, Springer Verlag.

* Trujillo, A. (1999): Translation Engines: Techniques for Machine Translation, SpringerVerlag.

weiterführende Literatur zu verschiedenen Methoden :

* Beaven, J. (1992): Shake and Bake Machine Translation, in COLING92.

* P. F. Brown, J. Cocke, S. Della Pietra, V. Della Pietra, F. Jelinek, R. Mercer, & P.Roossin, "A Statistical Approach to Machine Translation," Computational Linguistics16(2), 1990.

* Carl, M., Way, A. (ed.) (2003): Recent Advances in Example-Based MachineTranslation, Kluwer Academic Publishers, Dordrecht.

* Manning, Christopher D., Schütze, Hinrich: Chap. 13 Statistical Alignment andMachine Translation. In: Manning, Schütze: Foundations of Statistical NLP, 1999

* Michael McCord: Design of LMT, in: Computational Linguistics (15) 1989

* E Sumita, H Iida, H Kohyama: Translating with Examples: A New Approachto Machine Translation. The Third International Conference on Theoretical andMethodological Issues in Machine Translation, 1990.

Automatische Textzusammenfassung - CS-CL, BS-CL, BS-AC, A08

PS; SWS: 2; ECTS: 4

Di; wöch; 16:15 - 17:45; INF 327 SR 20; Strube, M.

Inhalt Die Menge an (online) verfügbarer Information steigt ständig. Suchmaschinenermöglichen Zugriff auf Dokumentebene. Die automatische Zusammenfassung kanndagegen die verfügbare Information verkürzt und den Interessen des Benutzersentsprechend zu präsentieren.

Im Seminar werden anhand klassischer Arbeiten (aus Mani & Maybury 1999) zunächstdie statistischen Methoden eingeführt, die der automatischen Textzusammenfassungzugrundeliegen. Danach soll auf verschiedene Arten der Zusammenfassungeingegangen werden (abstraktiv vs. extraktiv, Multi-document Summarization,Topic-based Summarization, Multimedia-Zusammenfassung, etc.) und aufverschiedene Methoden (rein statistisch, lexikalische Ketten, diskursbasierte Methoden,wissensbasierte Methoden, etc.). Schließlich soll das Problem der Evaluierungvon Methoden automatischer Zusammenfassung diskutiert werden. Hierbei wirddie Evaluierung, die im Rahmen der Document Understanding Conference (DUC)durchgeführt wird, eine zentrale Rolle spielen.

Leistungsnachweis Vortrag/Präsentation und Seminararbeit (max. 10 Seiten)Literatur Mani, Inderjeet and Maybury, Mark T. (Eds.) (1999). Advances in Automatic Text

Summarization. Cambridge, Mass.: MIT Press.

Mani, Inderjeet (2001). Automatic Summarization. Amsterdam, The Netherlands: JohnBenjamins.

Einführung in die künstliche Intelligenz - A04

Sommer 2008 25

V; SWS: 2

Do; wöch; 14:15 - 15:45; INF 328 SR 25; Rudolph, S.

Inhalt Schon weit vor der Konstruktion des ersten Computers gab es die Idee, menschlicheDenkprozesse maschinell auszuführen. Angeregt von aktuellen Nachrichten übererstaunliche "Verstandesleistungen" von Rechnern z.B. im Schachspiel, geht mitinteressanten philosophischen Betrachtungen auch die Frage nach dem "Wie", d.h.nach der technischen Realisierung dieser Erfolge einher. In dieser Lehrveranstaltungwird in grundlegende Techniken der Künstlichen Intelligenz eingeführt. Ziel diesesWissenschaftsgebietes ist

es, für Problemstellungen, für deren erfolgreiche Bearbeitung allgemeinhin "Intelligenz"vorausgesetzt wird, möglichst universelle, auf Berechnungsprozessen beruhendeLösungsmethoden bereitzustellen. Thematisch unterteilt sich die Veranstaltung in dieTeilgebiete

* Problemlösungsstrategien

* Maschinelles Lernen

* Wissensrepräsentation und automatisches BeweisenLeistungsnachweis Leistungsnachweis ist über eine Klausur möglich.Voraussetzung Vorausgesetzt werden Grundkenntnisse in formaler Logik.Literatur Stuart Russel, Peter Norvig: Artificial Intelligence: A Modern Approach. Prentice Hall

Series in Artificial Intelligence, Second Edition, 2002.

Günther Görz, Claus-Rainer Rollinger, Josef Schneeberger (Hrsg.): Handbuch derkünstlichen Intelligenz, 4. Auflage, Oldenbourg, 2003.

Pascal Hitzler, Markus Krötzsch, Sebastian Rudolph, York Sure: Semantic Web -Grundlagen, Springer, 2008.

Algorithmen und Datenstrukturen

GV; SWS: 4

Mi; wöch; 11:00 - 13:00; INF 227 HS 2; Weitere Informationen:http://hci.iwr.uni-heidelberg.de/teaching.php; Köthe, U.

Do; wöch; 11:00 - 13:00; INF 308 HS 2; Köthe, U.

Grammatikinduktion - V01, SS-CL1, SS-CL2, SS-FAL

HpS; SWS: 2

Mi; wöch; 11:15 - 12:45; INF 325 SR 7; Frank, A.

Kommentar Zur Erleichterung der Seminarplanung bitten wir um Anmeldung per Email bis zum21.3.2008.

Achtung, Terminabweichung: Die erste Sitzung am 09.04. findet von 12.00-13.00 Uhr statt.

Leistungspunkte:

V01 Bachelor (alte Prüfungsordnung): 6

SS-CL1, SS-CL2 Master: 8Inhalt Seit den 80/90er Jahren wurden linguistisch motivierte und formal wohldefinierte

Grammatikformalismen entwickelt, insbesondere Lexical-Functional Grammar (LFG),Combinatory Categorial Grammar (CCG), Head-driven Phrase-Structure Grammar(HPSG) und Lexicalised Tree-Adjoining Grammar(LTAG). Durch die Entwicklungeffizienter Parsingalgorithmen ist der Einsatz dieser Grammatikformalismen incomputerlinguistischen Anwendungen realistisch geworden. Die Entwicklungumfangreicher manuell definierter Grammatiken ist zeitaufwendig und teuer;für multilinguale Sprachverarbeitung müssen jedoch umfangreiche und robusteGrammatiken in kurzer Zeit entwickelt werden.

Sommer 2008 26

Das Seminar führt ein in die Methodik der automatischen Induktion probabilistischerGrammatiken aus Baumbanken am Beispiel von PCFGs. Wir diskutieren insbesonderespezielle Verfahren für die automatische

Induktion lexikalisierter und constraint-basierter Grammatiken (wie LFG, TAG, CCGund HPSG) aus angereicherten Baumbanken bzw. Baumbankgrammatiken. Hierbeiwerden wir die Charakteristiken

der jeweiligen Grammatikformalismen und die entsprechenden Unterschiede derentsprechenden Grammatikinduktionsverfahren herausarbeiten. Abschließlich widmenwir uns neueren Ansätzen für die Grammatikinduktion auf Basis paralleler Korpora.

Leistungsnachweis Lektüre der zugrundegelegten Literatur, Referat und Hausarbeit oder Referat undProjekt

Regelmäßige Präsenz und aktive Teilnahme sind Voraussetzung für den Scheinerwerb.Voraussetzung Programmierprüfung, Kenntnisse in Syntax, insbesondere LFG. Ggf. begleitende

Belegung von "Formale Syntax".

Literatur Literatur wird auf der Kurshomepage bekanntgegeben.

Induktion linguistischer Ressourcen - SS-CL1, SS-CL2, SS-TAC

HpS; SWS: 2; ECTS: 8

Mo; wöch; 14:15 - 15:45; INF 325 SR 24; Frank, A.;Hartung, M.

Kommentar Das Projektseminar ist konzipiert als ein fortgeschrittenes Seminar mitWerkstattcharakter. Im Zentrum steht die Aufgabe der automatischen Induktion(computer-)linguistischer Ressourcen mit Hilfe

moderner Techniken des Maschinellen Lernens.

Zur Erleichterung der Seminarplanung bitten wir um Anmeldung per email (bis21.3.2008).

Inhalt In einem Vorlesungsteil führen wir ein in den Gegenstand und aktuelle Ansätze zurautomatischen Resourceninduktion, mit Schwerpunkt auf einigen ausgesuchtenThemenbereichen (Morphologie, Eigennamen, semantische Relationen, sowieFaktizität/Modalität/Subjektivität). Wir vertiefen dann spezielle methodische Verfahrenfür Training, Optimierung und Evaluation, die in einem Projekt experimentelldurchgeführt werden sollen.

Die Seminarteilnehmer konzipieren danach in Gruppen und Gruppenvorträgendie Ausarbeitung verschiedener Projekte zur Ressourceninduktion, unter jeweilsbestimmten Fragestellungen (z.B. Performanz verschiedener Ansätze desmaschinellen Lernens, Qualität von Features, Optimierungsverfahren).

Schwerpunkt ist die Konzeption und Durchführung eines vollständigenwissenschaftlichen Experiments - von der Definition der Fragestellung überExperimentaufbau und Optimierung bis zur Evaluation.

Leistungsnachweis Gruppenvorträge (20%), Projektdurchführung (60%) und Ausarbeitung (20%).

Regelmäßige Präsenz und aktive Teilnahme sind Voraussetzung für den Scheinerwerb.Voraussetzung Programmierprüfung, Grundkenntnisse in Statistik und Maschinellem Lernen.Literatur Ian H. Witten and Eibe Frank (2000): Data Mining: Practical Machine Learning Tools

and Techniques with Java Implementations. Morgan Kaufmann.

Weitere Literatur wird im Laufe des Semesters bekannt gegeben.

Endliche Automaten - V01, SS-CL1, SS-CL2, SS-TAC

HpS; SWS: 2

Mo; wöch; 11:15 - 12:45; INF 325 SR 24; Haenelt, K.

Kommentar Leistungspunkte:

V01 Bachelor (alte Prüfungsordnung): 6

Sommer 2008 27

SS-CL1, SS-CL2, SS-TAC Master: 8

Inhalt Viele grundlegende Aufgaben der Sprachverarbeitung von der Zerlegung einesTextes in Wörter bis zur phonologischen und morphologischen Analyse, zurRechtschreibkorrektur und zum flachem Parsing können mit endlichen Automatenund Transduktoren sehr effizient durchgeführt werden. Im Seminar sollen die formalenGrundlagen, Anwendungsbeispiele und Implementierungen erarbeitet und vermitteltwerden.

Voraussetzung Zwischenprüfung in Computerlinguistik oder vergleichbare Kenntnisse,Programmierkenntnisse

Links Veranstaltungsseite auf der CL-Homepage -http://www.cl.uni-heidelberg.de/courses/ss08/automaten

Text Mining - SS-CL1, SS-CL2, SS-TAC

HpS; SWS: 2; ECTS: 8

Do; wöch; 11:15 - 12:45; INF 325 SR 24; Sporleder, C.

Inhalt Dieses Seminar behandelt aktuelle Forschungsthemen im Bereich "TextMining". Der Begriff "Text Mining" bezieht sich auf Anwendungen, in denen dieInformationsgewinnung aus textuellen Daten im Vordergrund steht (im Gegensatz zum"Data Mining", d.h.der Informationsgewinnung aus Daten, die nicht primär textuell sind).Geplante Seminarthemen sind: Named Entity Disambiguierung, Relationsextraktion,Web Mining, Verarbeitung wissenschaftlicher Aufsätze (Autorenerkennung, Analysevon Referenzen, Erkennung von Plagiaten), Sentiment Analysis, Text Mining fürverschiedene Domänen (Cultural Heritage, Bio Medicine).

Voraussetzung * Grundkenntnisse in maschinellen Lernverfahren und statistischen Methoden

* Bestehen der Programmierprüfung

Teilnehmer werden gebeten, sich für dieses Seminar bis zum 25.3.2008 anzumelden.

Literatur aktuelle Forschungsaufsätze, wird zu Semesterbeginn bekannt gegeben Computerlinguistisches Kolloquium - Coll, V02

K; SWS: 2

Do; wöch; 16:15 - 17:45; INF 325 SR 24; Frank, A.;Sporleder, C.

Kommentar Leistungspunkte:

V02 Bachelor (alte Prüfungsordnung): 4

Coll Master: 2Inhalt Das Computerlinguistische Kolloquium bietet BA-, MA- und Magisterstudierenden ein

Forum für die Vorstellung und Diskussion ihrer Abschlussarbeiten. Die Studierendenpräsentieren den aktuellen Stand ihrer Arbeit und erhalten in der DiskussionAnregungen von Seiten der Studierenden und der Dozenten.

Darüber hinaus bietet das Computerlinguistische Kolloquium allen Studierendendurch Vorträge geladener Gäste Einblicke in aktuelle Forschungsfragen derComputerlinguistik. Externe Vorträge im Kolloquium werden auf der Homepage desSeminars für Computerlinguistik bekanntgegeben.

Leistungsnachweis ABA: Vortrag und Ausarbeitung

Regelmässige Präsenz ist Voraussetzung für den Scheinerwerb.Voraussetzung Ein Leistungserwerb in der Veranstaltung ist nur für Examenskandidat/innen im

Bachelor- und Masterstudiengang vorgesehen. Jedoch sind alle Studierendeneingeladen, den Vorträgen zuzuhören und sich an den folgenden Diskussionen zubeteiligen.

Informatik und ProgrammierpraxisProgrammieren II: Fortgeschrittene - PII, B04

Sommer 2008 28

V/Ü; SWS: 4

Di; wöch; 14:15 - 15:45; INF 350 OMZ R U013; Sporleder, C.

Do; wöch; 14:15 - 15:45; INF 350 OMZ R U013; Sporleder, C.

Kommentar Leistungspunkte:

PII Bachelor (neue Prüfungsordnung): 6

B04 Bachelor (alte Prüfungsordnung): 5Inhalt In dem Kurs sollen die in "Programmieren I" erworbenen Grundkenntnisse anhand

einer zweiten Programmiersprache erweitert und vertieft werden. Neben einerallgemeinen Einführung in Java werden dabei auch computerlinguistische Algorithmenin dieser Sprache vorgestellt und erbarbeitet. Dabei werden u.a. die folgenden Themenbehandelt: reguläre Ausdrücke, Automaten, Graphen, Baum- und Merkmalsstrukturen.

Leistungsnachweis Die Leistungsanforderungen für den Scheinerwerb umfassen:

- erfolgreiche und regelmäßige Bearbeitung der Übungsaufgaben

- Bestehen der AbschlussklausurVoraussetzung Teilnahmevoraussetzungen: erfolgreiche Teilnahme an Programmieren ILiteratur als Referenz: David Flanagan: Java in a Nutshell, O'Reilly, 2005 Begleitveranstaltung zum Software-Projekt - SP, V03

S; SWS: 2

Mi; wöch; 14:15 - 15:45; INF 325 SR 24; Sporleder, C.

Mi; wöch; 16:15 - 17:45; INF 325 SR 24; Reiter, N.

Kommentar Leistungspunkte:

SP Bachelor (neue Prüfungsordnung): 6 + 4 (ÜK)

V03 Bachelor (alte Prüfungsordnung): 6Inhalt Im Softwareprojekt soll eine computerlinguistische Aufgabenstellung weitgehend

eigenverantwortlich und in Teamarbeit geplant, softwaretechnisch durchgeführt,dokumentiert und abschließend präsentiert werden. Neben der Vertiefung praktischerProgrammierkenntnisse (Techniken und Werkzeuge für verteilte Programmerstellung,Testverfahren und Qualitätskontrolle, Dokumentation, etc.) sollen Teamfähigkeit undplanerische Fähigkeiten geübt werden. Daneben werden grundlegende Techniken undMethoden wissenschaftlichen Arbeitens vermittelt.

Aus organisatorischen Gründen bitten wir um vorherige Anmeldung per E-Mail bei NilsReiter.

Leistungsnachweis * Teilnahme an allen Einführungsvorlesungen

* Projekt-Spezifikationsvortrag

* Projekt-Abschlussvortrag und Demo

* Programmdokumentation und Archivierung

Präsenz bei allen Spezifikations- und Abschlussvorträgen ist Voraussetzung für denScheinerwerb.

Notenkriterien:

* 30% Spezifikationsvortrag,

* 60% Praesentation (Demo+Talk)

* 10% DokumentationVoraussetzung * bestandene Programmierprüfung

Vor Beginn des Sommersemesters wird es einen Blockkurs zur Benutzung derinstallierten

Software geben. Der Blockkurs findet vom 31. März bis zum 4. April zwischen 10 und17 Uhr

Sommer 2008 29

im CIP-Pool statt. Teilnahme am Blockkurs ist Vorraussetzung für das Softwareprojekt.

Nähere Informationen dazu finden Sie auf der Kurshomepage.Literatur abhängig vom Projekt, wird zu Begin des Semesters bekannt gegeben

Theoretische und empirische Grundlagen der LinguistikFormale Syntax - FSyn, B08

V/Ü; SWS: 4

Di; wöch; 09:15 - 10:45; INF 350 OMZ R U013; Frank, A.

Do; wöch; 09:15 - 10:45; INF 350 OMZ R U013; Frank, A.

Kommentar Leistungspunkte:

FSyn Bachelor (neue Prüfungsordnung): 6

B08 Bachelor (alte Prüfungsordnung): 5Inhalt Die Vorlesung vermittelt vertiefte Kenntnisse der syntaktischen Sprachbeschreibung

am Beispiel eines theoretisch fundierten Grammatikformalismus.

Wir beginnen mit einer Übersicht über die Grundannahmen verschiedenerGrammatikformalismen (GB, LFG, HPSG) und vertiefen insbesondere die formalenGrundlagen der Lexikalisch-funktionalen Grammatik (LFG), als einer der bedeutendenlexikalischen constraint-basierten Grammatikformalismen.

Die Vorlesung gibt einen Überblick über die Kernbereiche und einige speziellePhänomene der syntaktischen Analyse und ihrer formalen Beschreibung im Rahmender Lexikalisch-funktionalen Grammatik:

* Satzstruktur, funktionale Kategorien und Wortstellung

* Subkategorisierung, Diathesen und Argumentstruktur

* Lange Abhängigkeiten

* Anhebung und Kontrolle

* Bindung

* Koordination

* Kongruenz, Inkorporation und Wortstellung

Die Vorlesung wird begleitet durch theoretische Aufgaben und praktische Übungen mitder LFG-Grammatikentwicklungsumgebung Xerox Linguistic Environment (XLE).

Leistungsnachweis Leistungsnachweis: Klausur

Voraussetzung für den Scheinerwerb sind regelmäßige Präsenz, aktive Teilnahme unddie erfolgreiche Bearbeitung der Übungsaufgaben (60%).

Literatur * Yehuda Falk (2001): Lexical-Functional Grammar. An Introduction to ParallelConstraint-Based Syntax. University of Chicago Press.

* Joan Bresnan (2001). Lexical-Functional Syntax. Oxford: Blackwell. Mary Dalrymple(2001). Lexical Functional Grammar. Volume 34, Syntax and Semantics. AcademicPress.

* Peter Sells (1985). Lectures on Contemporary Syntactic Theories. An Introductionto Government-Binding Theory, Generalized Phrase Structure Grammar, andLexical-Functional Grammar. CSLI Lecture Notes No. 3, CSLI Publications, Stanford,CA. (Chapter 3)

* Tracy Holloway King, Stefanie Dipper, Anette Frank, Jonas Kuhn, John Maxwell(2004): "Ambiguity Management in Grammar Writing". In Research on Language andComputation, 2 (2): 259-280, Kluwer Academic Publications.

Weitere Literatur wird im Laufe des Semesters bekannt gegeben.

Sommer 2008 30

Computerlexikographie - CS-CL, BS-CL, BS-FL, A15

PS; SWS: 2; ECTS: 4

Mo; wöch; 16:15 - 17:45; INF 306 SR 19; Kunze, C.

Kommentar Anmeldung ab sofort per Email bzw. in der 1. Semesterwoche.Inhalt Computerlexikographie ist Lexikographie mit dem Computer und für den Computer.

Da die lexikographische Arbeit sich äußerst datenintensiv gestaltet, ist die maschinelleUnterstützung dieses Prozesses unabdingbar. Zum einen erhält der LexikographUnterstützung bei der Erhebung, Bearbeitung, Darstellung und Verarbeitung seinerlexikographischen Daten, zum anderen profitieren Wörterbuchbenutzer vom flexiblerenUmgang mit elektronischen Wörterbüchern im Vergleich zum gedruckten Wörterbuch.Sprachverarbeitende Systeme wiederum benötigen ein Lexikon, welches relevantelexikalische Informationen über ein Inventar von Wörtern einer oder mehrerer Sprachenbereitstellt. Je mehr Anwendungen in Forschung und Industrie die Verarbeitungnatürlicher Sprache voraussetzen, umso größer wird auch der Bedarf an allgemeinenund spezialisierten elektronischen Wörterbüchern.

Im Seminar werden neben der Klärung lexikographischer Grundbegriffe die u.a. diefolgenden Themenbereiche fokussiert und anhand von Übungen vertieft: lexikalischeDatenbanken, lexikalische Akquisition, lexikalische Statistik, lexikalische Regeln,Mark-up Sprachen die und Standardisierung lexikographischer Einträge.

Voraussetzung Das Proseminar richtet sich an Studierende, die bereits erfolgreich eine Einführung indie Computerlingusitik absolviert haben.

Literatur Als Kursbuch dient das von Lothar Lemnitzer und mir gemeinsam verfasste eBook"Computerlexikographie - eine Einführung" (2007), erschienen im Narr VerlagTübingen.

Weitere Literatur wird zu Beginn des Seminars genannt. Computationelle Morphologie - CS-CL, BS-CL, BS-FL, B06

V/Ü; SWS: 2; ECTS: 4

Fr; wöch; 11:15 - 12:45; INF 325 SR 24; Zielinski, A.

Inhalt Die Vorlesung bietet eine Einführung in finite-state basierte Methoden für diemorphologische Analyse. Anhand des Buches von Beesley&Kartunnen (2003) wird dieTwo-Level-Morphologie vorgestellt und durch praktische Übungen mit der finite-stateSoftware xfst/lexc ergänzt.

Leistungsnachweis regelmäßige Teilnahme, erfolgreiche Bearbeitung der Übungsaufgaben (mindestens50%), Abschlussklausur.

Voraussetzung Vorkenntnisse in Grundlagen der Morphologie und Automatentheorie sind von Vorteil,aber nicht erforderlich. Im Kurs werden Übungsaufgaben in xsft und lexc gelöst.Programmiererfahrungen sind daher ebenfalls von Nutzen.

Literatur Kenneth R. Beesley und Lauri Karttunen (2003): Finite State Morphology, CSLIPublications, Stanford, California.

Logische Grundlagen für die Computerlinguistik - FF-L, B11

V/Ü; SWS: 2

Mo; wöch; 18:15 - 19:45; INF 306 SR 19; Herweg, M.

Kommentar Termine für das Tutorium werden zu Beginn des Semesters festgelegt

Leistungspunkte:

FF-LF Bachelor (neue Prüfungsordnung): 6

B11 Bachelor (alte Prüfungsordnung): 4Inhalt Fundierte Logikkenntnisse sind unverzichtbar für Anwendungen in der

Computerlinguistik und theoretischen Linguistik. Dies gilt für die gängigenBeschreibungsformate in nahezu allen (computer-)linguistischen Teildisziplinen(Syntax, Semantik, Morphologie, Phonologie, ...) ebenso wie für sprachtechnologischeImplementierungen. Der Kurs bietet eine Einführung in die Logik und legt dabeibesonderen Wert auf die praktische Einübung grundlegender logischer Methoden

Sommer 2008 31

und Techniken. Behandelt werden Syntax und Semantik der Aussagenlogik und derPrädikatenlogik 1. Stufe mit einem Ausblick auf weiterführende Logiksysteme undlogikbasierte Formalismen für (computer-)linguistische Anwendungen.

Leistungsnachweis Scheinerwerb durch Teilnahme am Tutorium und eine KlausurVoraussetzung Keine Voraussetzungen; Scheinerwerb durch Teilnahme am Tutorium und eine KlausurLiteratur wird in der Veranstaltung bekanntgegeben Semantikkonstruktion - V01, SS-CL1, SS-CL2, SS-FAL

HpS; SWS: 2

Di; wöch; 16:15 - 17:45; INF 325 SR 24; Frank, A.;Hartung, M.

Kommentar Vorlesung mit Übungen und Referaten. Zur Erleichterung der Seminarplanung

bitten wir um Anmeldung per Mail bis zum 21.03.2008.

Leistungspunkte:

V01 Bachelor (alte Prüfungsordnung): 6

SS-CL1, SS-CL2, SS-FAL Master: 8Inhalt Der Begriff der Semantikkonstruktion bezeichnet den Prozess der automatischen

Konstruktion einer semantischen Repräsentation auf Basis einer syntaktischenAnalyse. Voraussetzung sind: a) ein geeigneter syntaktischer Formalismus, b) einegeeignete semantische Repräsentationssprache und c) eine exakte Modellierung derSchnittstelle zwischen syntaktischer und semantischer Repräsentation.

Bekannte Modelle der Semantikkonstruktion im Sinne von c) sind u.a. derLambda-Kalkül, "Glue"-Ansätze auf Basis von Linearer Logik (Dalrymple et al.1995, Dalrymple 2001) und neuere Ansätze für eine "Algebra" zur Konstruktionunterspezifizierter semantischer Repräsentationen (Copestake et al. 2001).

Wir arbeiten charakteristische Unterschiede und Gemeinsamkeiten dieserSemantikkonstruktionsverfahren heraus, auch im Hinblick auf unterschiedlichezugrundeliegende Grammatikmodelle (wie z.B. CCG, HPSG, TAG und LFG).

Im zweiten Teil wenden wir uns offenen Fragen der Semantikkonstruktion zu, die wiranhand von ausgewählter Literatur mit Referaten diskutieren:

(i) Wie können nichtkompositionelle Phänomene (Idiome, Funktionsverbgefüge, etc.)der lexikalischen Semantik in einem allgemeinen Semantikkonstruktionsverfahrenbehandelt werden?

(ii) Welchen Status besitzen Paraphrasen in einem Modell derSyntax-Semantik-Schnittstelle?

(iii) In welchem Verhältnis stehen semantische Repräsentationen zu Ontologien?

(iv) Lassen sich strukturelle und/oder lexikalische Komponenten derSemantikkonstruktion durch Lernverfahren automatisieren?

Der Kurs wird begleitet durch praktische Übungen zu Aspekten derSemantikkonstruktion. Im Verlauf des Kurses sollen dabei kleine Fragmente zuausgewählten Aspekten der Semantikkonstruktion entstehen.

Leistungsnachweis Lektüre der zugrunde gelegten Literatur, Bearbeitung der praktischen Übungsaufgaben,Referat + schriftliche Ausarbeitung oder Projekt + schriftliche Ausarbeitung.

Regelmäßige Präsenz und aktive Teilnahme sind Voraussetzung für den Scheinerwerb.Voraussetzung Programmierprüfung, Kenntnisse in Prädikatenlogik und Semantik.Literatur Patrick Blackburn, Johan Bos (2005): Representation and Inference for Natural

Language. A First Course in Computational Semantics. CSLI Press.

Johan Bos, Stephen Clark, Mark Steedman, James R. Curran, Julia Hockenmaier(2004): Wide-Coverage Semantic Representations from a CCG Parser, in: Proceedingsof the 20th International Conference on Computational Linguistics (COLING '04).Geneva, Switzerland.

Sommer 2008 32

Philipp Cimiano, Uwe Reyle (2003): Ontology-based semantic constructionunderspecification and disambiguation, in: Proceedings of the Workshop on Prospectsand Recent Advances in the Syntax-Semantics Interface. Nancy, France: 33-38.

Philipp Cimiano, Anette Frank, Uwe Reyle (2007): UDRT-based semantics constructionfor LTAG -- and what it tells us about the role of adjunction in LTAG, in: Proceedingsof the 7th International Workshop on Computational Semantics (IWCS-7). Tilburg, TheNetherlands.

Ann Copestake, Alex Lascarides, Dan Flickinger (2001): An Algebra for SemanticConstruction in Constraint-based Grammars, in: Proceedings of the 39th AnnualMeeting of the Association for Computational Linguistics (ACL 2001). Toulouse,France.

Ann Copestake, Dan Flickinger, Ivan Sag, Carl Pollard (2005): Minimal RecursionSemantics. An Introduction, in: Journal of Research on Language and Computation3(2-3): 281-332.

Mary Dalrymple, John Lamping, Fernando C. N. Pereira, Vijay Saraswat (1995): LinearLogic for Meaning Assembly, in: Proceedings of the Workshop on Computational Logicfor Natural Language Processing, Edinburgh, UK.

Mary Dalrymple (2001): Meaning and Semantic Composition, in: Lexical FunctionalGrammar. Syntax and Semantics, Vol. 34. Academic Press.

Weitere Literatur wird im Laufe des Semesters bekannt gegeben.

Übergreifende FachkompetenzenArbeitstechniken in der CL - ÜK, E02

Ü; SWS: 2; ECTS: 3

Di; wöch; 11:15 - 12:45; INF 325 SR 24; Reiter, N.

Kommentar Dieser Kurs wird (i) in zunehmendem Maße als Maßstab dafür dienen, was vonStudierenden erwartet wird und (ii) mittelfristig als Teilnahmevoraussetzung für mancheKurse festgeschrieben.

Inhalt Im Kurs 'Arbeitstechniken in der Computerlinguistik' wird es um technische undnicht-technische Fähigkeiten gehen, die man als Computerlinguist früher oderspäter braucht oder die das Leben sehr vereinfachen. Dazu zählen u.a. dasTextsatzsystem LaTeX, das Referenzenverwaltungssystem BibTeX und dieUnix-Kommandozeile. Beschäftigen werden wir uns außerdem mit dem komplettenZyklus wissenschaftlichen Arbeitens, vom Recherchieren über Schreiben undStrukturieren von wissenschaftlichen Texten bis hin zur

Vorbereitung von Vorträgen und Präsentationen.Leistungsnachweis Regelmäßige Hausaufgaben und Anwesenheit sind Teil der Scheinleistung.Voraussetzung Aufgrund der Übungen ist die Teilnehmerzahl auf 30 Studierende begrenzt.

Um vorherige Anmeldung per E-Mail wird gebeten. Bei mehr als 30 Anmeldungenhaben

Studierende der Computerlinguistik Vorrang.