123
© 2002 Hans Uszkoreit Vorlesung Vorlesung Einführung in die Computerlinguistik Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum für Künstliche Intelligenz

© 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

Embed Size (px)

Citation preview

Page 1: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit

Vorlesung Vorlesung

Einführung in die ComputerlinguistikEinführung in die Computerlinguistik

Teil 2 SprachtechnologieTeil 2 Sprachtechnologie

Hans Uszkoreit

Universität des Saarlandesund

Deutsches Forschungszentrum für Künstliche Intelligenz

Page 2: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

ÜberblickÜberblick

Aufgaben und Probleme der Sprachtechnologie

Gesprochene Sprache

Texttechnologien

Ausblick

Page 3: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

WWAS IST AS IST SSPRACHTECHNOLOGIEPRACHTECHNOLOGIE

Eigentlich eine Klasse von Technologien in der Informations-technologie, die Wissen über die Struktur des menschlichen Sprachen verwenden, um die maschinelle Verarbeitung der Sprache zu ermöglichen bzw. zu verbessern.

Beispiel: Microsoft Word verarbeitet zwar Sprache, enthält aber im Kern nur sehr wenig Sprachtechnologie.

Sprachtechnologie steckt aber in der Erkennung von Satzgrenzen für die Formatierung, in der automatischen Silbentrennung, in der Rechtschreibkontrolle und in der Grammatikkontrolle.

Nach Meinung der führenden Experten in der Computerindustrie ist die Sprachtechnologie eine Schlüsseltechnologie für den weiteren Fortschritt in der Computertechnik.

Page 4: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

AkzeptanzAkzeptanz

Das Hauptproblem für die Akzeptanz des Computers ist das Sprachproblem

Der Standardanwender beherrscht keine Computersprachen.

Der Standardanwender mag Computersprachen nicht.

Der Standardanwender will auch keine Computersprachen lernen.

Die Sprache, die der Mensch bestens beherrscht, ist seine Muttersprache.

Das natürlichste Medium für die unmittelbare Übermittlung von Information ist die gesprochene Sprache.

Die wichtigste Klasse von Daten sind Texte.

Der Standardanwender verwendet die Maschine zur Produktion von Texten in menschlicher Sprache.

Computer tun sich schwer in der Verarbeitung und Verwaltung von Texten

Aber der Computer beherrscht die menschliche Sprache nicht!

Page 5: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

phonetische Verarbeitung orthographische Verarbeitung

morphonologische Verarbeitung

syntaktische Verarbeitung

semantische Verarbeitung

pragmatische Verarbeitung - Wissensverarbeitung

akustische Form geschriebene Form

morphonologische Repräsentation

phonetische o. graphemische Repräsentation

syntaktische Repräsentation

semantische Repräsentation

Repräsentation der vollen Bedeutung

Textverstehen

Page 6: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

akustische Form geschriebene Form

morphonologische Repräsentation

phonetische o. graphemische Repräsentation

syntaktische Repräsentation

semantische Repräsentation

Repräsentation der vollen Bedeutung

Diktat

das Boot auf dem Main

oder

daß bot auf dem mein

phonetische Verarbeitung orthographische Verarbeitung

morphonologische Verarbeitung

syntaktische Verarbeitung

semantische Verarbeitung

pragmatische Verarbeitung - Wissensverarbeitung

Page 7: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

akustische Form geschriebene Form

morphonologische Repräsentation

phonetische o. graphemische Repräsentation

syntaktische Repräsentation

semantische Repräsentation

Repräsentation der vollen Bedeutung

MaschinelleÜbersetzung

phonetische Verarbeitung orthographische Verarbeitung

morphonologische Verarbeitung

syntaktische Verarbeitung

semantische Verarbeitung

pragmatische Verarbeitung - Wissensverarbeitung

Page 8: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

PerformanzkriterienPerformanzkriterien

efficiency geringer Zeit- und Speicherbedarf

accuracy Fähigkeit, linguistisch korrekte Lösungen zu liefern

robustness Fähigkeit, mit allen möglichen Eingaben fertigzuwerden

coverage größtmögliche Abdeckung der Sprache

specificity Fähigkeit, die richtige Analyse zu selegieren

Page 9: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Dimensionen des ProblemsDimensionen des Problems

Sprachumfang

Sprachtiefe

Gegenstandsbereich(e)

Morphologie

Syntax

Semantik

Pragmatik

Wissensverarbeitung

Worterkennung

Das Problem der Sprachbeherrschung ist zu komplex

Es gibt viele Anwendungen, die nur begrenzte Sprachbeherrschung benötigen!

Page 10: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Grenzen der TechnologieGrenzen der Technologie

Der Computer wird so bald nicht sprechen und schreiben wie wir

KEINE SPRACHBEHERRSCHUNG OHNE ALLGEMEINES WISSEN

Wörterbücher und Grammatiken können wir formalisieren

Bei der Semantik wird es schon schwerer

Dialog kann nur recht einfach modelliert werden

Begrenztes Domänenwissen ist machbar

Beim Allgemeinwissen und großem Fachwissen hört es auf

Wir müssen das Problem begrenzen, um zu vernünftigen Anwendungen zu gelangen

Page 11: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

Diese Anwendung ist die bisher meistverkaufte Sprachanwendung

Sprachumfang

Sprachtiefe

Gegenstandsbereich(e)

Lexikon

Morphologie

Syntax

Semantik

Pragmatik

Wissensverarbeitung

Rechtschreibkontrolle

Page 12: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

Hier beginnt das Geschäft erst gerade

GRAMMATIKKONTROLLE

Sprachumfang

Sprachtiefe

Gegenstandsbereich(e)

Lexikon

Morphologie

Syntax

Semantik

Pragmatik

Wissensverarbeitung

Grammatikkontrolle

Page 13: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

Der Bedarf kommt mit der akustischen Spracherkennung

EINFACHE ABFRAGESYSTEME

Sprachumfang

Sprachtiefe

Gegenstandsbereich(e)

Worterkennung

Morphologie

Syntax

Semantik

Pragmatik

Wissensverarbeitung

Page 14: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

Sprachumfang

Sprachtiefe

Gegenstandsbereich(e)

Page 15: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Speech Technologies

speaker recognition

language verification

command recognition

speech-to-text

speech translation

spoken dialogue systems

text-to-speech

concept-to-speech

report generation

text generation

Text Technologies

indexing

summarization

categorization

information extraction

spell checking

grammar checking

text translation

abstracting

written dialogue systems

Language Technologies

Page 16: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

ProblemeProbleme

Die Sprache hat Seiten, die dem Menschen leichtfallen, dem Computer hingegen schwer.

Insbesondere:

Ambiguität: viele Wörter und Phrasen haben mehrere Bedeutungen

Paraphrasen: es gibt viele Möglichkeiten, das Gleiche auszudrücken

Ungenauigkeit: oft ist die Bedeutung von Ausdrücken unscharf

Page 17: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Speech TechnologiesSpeech Technologies

Spoken Dialogue SystemsSpoken Dialogue Systems

Speech Translation SystemsSpeech Translation Systems

Voice Recognition/Voice Recognition/Speaker IdentificationSpeaker Identification

Language IndentificationLanguage Indentification

Speech VerificationSpeech VerificationSpeech RecognitionSpeech Recognition

Voice ModellingVoice Modelling

Speech SynthesisSpeech SynthesisSpeech ProductionSpeech Production

Page 18: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Speech Technology ApplicationsSpeech Technology Applications

Voice Control Systems

Dication Systems

Text-to-Speech Systems

Identification and Verification Systems

Information Access

Spoken Dialogue Systems

Speech Translation Systems

Page 19: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Call Center ApplicationsCall Center Applications

Call Routing Dialogues

Simple Information Dialogues

Information Access by Call Center Agents

Speech-Synthesis of Information for Customer

Retrieval of Recorded Calls

Text Technologies for Information Retrieval

Text Technologies for Information Fusion/reporting

Page 20: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

SL (D) S Eigenschaften und KriterienSL (D) S Eigenschaften und Kriterien

Vokabular (vorgegeben und erweiterbar)

Sprecherabhängigkeit (Trainingsaufwand)

Einzelwort vs. kontinuierlich

Spontansprache

Sprachmodell

Initiative

Barge-in

Bandweite und Eingabegeräte

Archivierung

Page 21: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Systeme zum AusprobierenSysteme zum Ausprobieren

Nuance's Travel Plan Demo (Fluginformation) Firma: Nuance Corporation (Technologie von SRI International)Tel.: +1 650 847 7427 URL:

http://www.nuancecom.com/demos/travel.htm Flugverbindungen zwischen 250 Städten in den USA

PureSpeech Travel Planning Firma: PureSpeech Inc. Tel.:+1 617 497 7973 Info zu 850 Reisezielen Noch kein echter Datenbankzugriff Philips Intercity Zugauskunft Firma: Philips Research Laboratories

Deutschland (Testsystem) Tel.:+49 241 604020 Schweiz (im Einsatz bei den SBB): Tel.: +41 157 02 22

Page 22: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Text TechnologiesText Technologies

Written Dialogue SystemsWritten Dialogue Systems

Text Translation SystemsText Translation Systems

Language IndentificationLanguage IndentificationInformation RetrievalInformation Retrieval

Document CategorizationDocument CategorizationDocument ClusteringDocument ClusteringText SummarizationText Summarization

Information ExtractionInformation ExtractionSpell CheckingSpell Checking

Grammar/Style CheckingGrammar/Style Checking

Abstract GenerationAbstract GenerationReport GenerationReport GenerationText GenerationText Generation

Document ProductionDocument Production

Page 23: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Text Technology ApplicationsText Technology Applications

Spell Checkers

Machine-Assisted Human Translation

Indicative Machine Translation

Grammar Checkers

Human Assisted Machine Translation

High Quality Text Translation

Text Generation Systems

Page 24: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Heutige SuchtechnologieHeutige Suchtechnologie

Wort-Index

Boolsche Kombinationen

verschiedene Indexierungsverfahren

eingeschränkte Morphologie

Sortierung nach Relevanz

Suche in mehreren Sprachen

More than 35 terabytes served

surch the web for:

Lyca Lyca SurchaSurcha

First 10 of 45.677 matches:

1. research in mutlilingual IR an easier...

Order your free beer today

sweat AND tears

2. Sir Winston S. Churchill homepage of...

4. 60s Rock Timeline remember the best...

3. Shinjuku Yamabuki B$h$&$3$=;%5!

Page 25: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

SucheSuche

Sie finden nicht genug!

Andere Wortformen

der Herzog, des Herzogs, die Herzöge

Unter- und Überbegriffe

Alfa Romeo Zagato roadster sports car car motor vehicle vehicle

Paraphrasen

steuerliche Gründe, Steuergründe, steuerliche Erwägungen,

steuerliche Überlegungen, fiskalische Erwägungen, um Steuern zu sparen, ...

Page 26: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

SucheSuche

Nehmen wir an, Sie suchten nach Automobilfirmen

und gäben daher der Suchmaschine (z.B. HOTBOT) den Suchbegriff

“Automobilfirmen”

Im Englischen suchten Sie nach:

“automobile companies”

Page 27: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

SucheSuche

automobile companies automobile companies 704 704 AutomobilfirmenAutomobilfirmen 55 55

Page 28: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

SucheSuche

automobile companies automobile companies 704 704car builders car builders

233233car makerscar makers 18461846auto makersauto makers

23072307automobile makersautomobile makers

181181car companiescar companies

30463046cars companiescars companies

1414motor companiesmotor companies 194 194auto companiesauto companies 13451345car manufacturerscar manufacturers 30563056motor manufacturersmotor manufacturers

582582automobile manufacturersautomobile manufacturers 42634263manufacturers of carsmanufacturers of cars

151151manufacturers of autosmanufacturers of autos

1515manufacturers of automobilesmanufacturers of automobiles

165165manufacturers of motor vehiclesmanufacturers of motor vehicles 55 55

AutomobilfirmenAutomobilfirmen 55 55 AutoherstellerAutohersteller

320320AutobauerAutobauer 131 131AutoproduzentenAutoproduzenten 26 26AutofabrikantAutofabrikant

8989AutofirmenAutofirmen

8686Pkw HerstellerPkw Hersteller

1515Automobilunternehmen Automobilunternehmen 57 57AutomobilherstellerAutomobilhersteller

602602Kfz-HerstellerKfz-Hersteller

4242Autounternehmen Autounternehmen 9 9AutomobilkonzerneAutomobilkonzerne

8383Unternehmen der Automobilbranche 4Unternehmen der Automobilbranche 4Hersteller von Autos Hersteller von Autos

4 4Hersteller von Automobilen Hersteller von Automobilen

1313Hersteller von Kraftfahrzeugen Hersteller von Kraftfahrzeugen 3 3

Page 29: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

SucheSuche

Sie finden zu viel!Sie finden zu viel!

AmbiguitätAmbiguität

deutsch: deutsch: Zug, Bahn, Leitung, SchalterZug, Bahn, Leitung, Schalter englisch:englisch: terminal, line, engine terminal, line, engine

PolysemiePolysemie

Buch, Schule, printerBuch, Schule, printer

EigennamenEigennamen

Personennamen: Personennamen: Maurer, Washington, ChaseMaurer, Washington, Chase Ortsbezeichnungen: Ortsbezeichnungen: Essen, Halle, BismarckEssen, Halle, Bismarck

Page 30: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Die Aufgabe des Informationsmanagements ist die Verwaltung und Nutzbarmachung von sehr großen Informationsmengen, wie wie sie heute bereits auf dem WWW, in Intranets und in großen Text-Datenbanken finden.

Das Netz macht sie erst einmal nur verfügbar.

Im Gegensatz zu herkömmlichen Datenbanken ist die Information viel weniger vorstrukturiert (in Sinne der Strukturierung von Computerdaten). Auf der anderen Seiten sind die relevanten inhaltlichen Strukturen natürlich weitaus komplexer. Durch die Digitalisierung von großen Teilen des menschlichen Wissen (z.B. digitale Bibiliotheken, Filmarchive etc.) wird dieses Problem noch zunehmen.

AAUFGABEN DESUFGABEN DES IM IM

Page 31: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

PPROBLEMEROBLEME DESDES I INFORMATIONNFORMATION M MANAGEMENTANAGEMENT

DistributivitätDie Information liegt auf verschiedenen Maschinen

HeterogenitätVielzahl von DokumentformatenMultilingualitätMultimedialität (z.B. Sprache, Bilder, Klänge), Multimodalität (z.B. geschr. u. gesprochene Sprache, Filmdateien o. Realzeitübertragungen)

Unstrukturiertheitkeine einheitliche Klassifikation, keine einheitliche interne Strukturierung. keine einheitliche u. verläßliche Hypertextverknüpfung

RedundanzViele Informationen sind mehrfach vorhanden.

Page 32: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

SSPRACHTECHNOLOGIEN FÜR DAS PRACHTECHNOLOGIEN FÜR DAS I&WMI&WM

Sammeln (gathering)

Indizieren (indexing)

Kategorisierung (categorization)

Gruppierung (clustering)

Zusammenfassung (summarization)

Informationsextraktion (information extraction)

Automatische Verknüpfung (automatic hyperlinking)

Datenschürfen (text data mining)

Informationsfusion (information fusion)

Berichtsgenerierung (report generation)

Textübersetzung (text translation)

Page 33: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

IINFORMATIONSGEWINNUNGNFORMATIONSGEWINNUNG

Sammeln (gathering)

Data Mining auch Text Mining

Konversion z.B. Einscannen, OCR, Transkription

Agenten z.B. NetBots, WebBots

Page 34: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

SSTRUKTURIERUNG UND TRUKTURIERUNG UND SSPEICHERUNGPEICHERUNG

Indizieren (indexing)

Kategorisierung (categorization)

Gruppierung (clustering)

Zusammenfassung (summarization)

Page 35: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

IINFORMATIONSAUFBEREITUNGNFORMATIONSAUFBEREITUNG

Informationsextraktion (information extraction)

Hyperverknüpfung (hyperlinking)

Informationsfusion (information fusion)

Trendanalyse (trend analysis)

Berichtsgenerierung (report generation)

Page 36: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

IINFORMATIONSZUGRIFFNFORMATIONSZUGRIFF

Suchschlüsselerweiterung (query expansion)

Relevanzsortierung (relevance ranking)

Dublettenerkennung (redundancy check)

thematische Gruppierung (thematic clustering)

Erkennung verwandter Information (information association)

Page 37: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

PPRÄSENTATIONRÄSENTATION

Ergebnispräsentation (result presentation)

Informationsvisualisierung (information visualization)

virtuelle Navigation (virtual navigation)

Page 38: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

IINFORMATIONSEXTRAKTIONNFORMATIONSEXTRAKTION

Robuste Extraktion von relevanten Begriffen, Phrasen, Aussagen aus Texten.

Erfolgsraten (Vollständigkeit und Präzision) hängen von der Aufgabe und vom Gegenstandsbereich ab.

Bereits eingesetzt in verschiedenen Anwendungen, z.B. für Firmennamenerkennung,

Nachrichtenkategorisierung,

Übersichten zu Firmenindikatoren (Umsatz, Gewinn, Kurse)

Nachrichtenübersichten zu speziellen Themenbereichen

Page 39: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

InformationsextraktionInformationsextraktion

In der IE werden gezielt relevante Informationen aus Texten In der IE werden gezielt relevante Informationen aus Texten herausgesucht und strukturiert.herausgesucht und strukturiert.

Bremen, 14. 10. 1997, wiwo: Lagersoftware weiter im Aufwind

Die Bremer Firma Trade Consult hat auf einer Pressekonferenz in Hannover die Version 2.0 ihrer erfolgreichen Lagerverwal-tungssoftware Store Age vorgestellt.. Die neue Version ermöglicht jetzt auch ... Auf der Pressekonferenz gab Geschäftsführer Franz Merleback auch die Umsatzzahlen der Softwareschmiede für das 3. Quartal bekannt. Wurden im zweiten Quartal bereits über 30 Millionen Mark umgesetzt, so konnte Merleback jetzt das stolze Ergebnis von 42,5 Millionen verkünden.

... ...

Page 40: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

InformationsextraktionInformationsextraktion

In der IE werden gezielt relevante Informationen aus Texten In der IE werden gezielt relevante Informationen aus Texten herausgesucht und strukturiert.herausgesucht und strukturiert.

Bremen, 14. 10. 1997, wiwo: Lagersoftware weiter im Aufwind

Die Bremer Firma Trade Consult hat auf einer Pressekonferenz in Hannover die Version 2.0 ihrer erfolgreichen Lagerverwal-tungssoftware Store Age vorgestellt.. Die neue Version ermöglicht jetzt auch ... Auf der Pressekonferenz gab Geschäftsführer Franz Merleback auch die Umsatzzahlen der Softwareschmiede für das 3. Quartal bekannt. Wurden im zweiten Quartal bereits über 30 Millionen Mark umgesetzt, so konnte Merleback jetzt das stolze Ergebnis von 42,5 Millionen verkünden.

... ...

Page 41: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

BBEISPIEL:EISPIEL: I INFORMATIONSEXTRAKTION (2)NFORMATIONSEXTRAKTION (2)

Firma 96Q4 1996 97Q1 97Q2 97Q3 97Q4 1997 Diff

ComSoft 120Mio 110Mio

Trade Consult 30 Mio 42,5Mio

Z&M 71,0Mio

Page 42: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Crosslingual Information Retrieval (CLIR)Crosslingual Information Retrieval (CLIR)

multilingualemultilingualeSucheSuche

multilingualemultilingualeSchnittstelleSchnittstelle

für die für dieNavigationNavigation

mehrsprachigesmehrsprachigesAngebot im WebAngebot im Web

Page 43: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

MULINEX SystemMULINEX System

Page 44: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Suchschlüssel-EingabeSuchschlüssel-Eingabe

Page 45: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

AnfrageassistentAnfrageassistent

Page 46: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

ScopeScope

Classical Areas of Computational Linguistics:

computational morphology, computational syntax computational semantics computational pragmatics

Text Applications of Language Technology:

indexing categorization summarization information extraction report generation

Page 47: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Different GoalsDifferent Goals

Classical Goal:understanding and production of text

Die Bremer Firma Trade Consult hat auf einer Pressekonferenz in Hannover die Version 2.0 ihrer erfolgreichen Lagerverwaltungssoftware Store Age vorgestellt.

Die neue Version ermöglicht jetzt auch die zentrale Verwaltung mehrerer Lager und integriert die Lagerhaltung in das Supply Chain Management auf der Basis von SAP Software.

Auf der Pressekonferenz gab Geschäftsführer Franz Merleback auch die Umsatzzahlen der Softwareschmiede für das 3.Quartal bekannt. Wurden im zweiten Quartal bereits über 30 Millionen Mark umgesetzt, so konnte Merleback jetzt das stolze Ergebnis von 42,5 Millionen verkünden.

Die neue Version ermöglicht jetzt auch die zentrale Verwaltung mehrerer Lager und integriert die Lagerhaltung in das Supply Chain Management auf der Basis von SAP Software.

.

PHON/anoldpenny/

SYN

CATNP

HEADCASEobjectiveNUMBERsingPERSONthird

VALENCEvstruc

SEM

QUANTexistVARX1

RESTR

RELold'VARX1

ARGpenny'

n Lagerverwaltungssoftware

N

NP

A

NDetV

VP

NP

S

Sue gave Paul an old penny.

NP

erfolgreichen Lagerverwaltungssoftware Store Age

Page 48: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Different GoalsDifferent Goals

Classical Goal:understanding and production of text

Die Bremer Firma Trade Consult hat auf einer Pressekonferenz in Hannover die Version 2.0 ihrer erfolgreichen Lagerverwaltungssoftware Store Age vorgestellt.

Die neue Version ermöglicht jetzt auch die zentrale Verwaltung mehrerer Lager und integriert die Lagerhaltung in das Supply Chain Management auf der Basis von SAP Software.

Auf der Pressekonferenz gab Geschäftsführer Franz Merleback auch die Umsatzzahlen der Softwareschmiede für das 3.Quartal bekannt. Wurden im zweiten Quartal bereits über 30 Millionen Mark umgesetzt, so konnte Merleback jetzt das stolze Ergebnis von 42,5 Millionen verkünden.

Die neue Version ermöglicht jetzt auch die zentrale Verwaltung mehrerer Lager und integriert die Lagerhaltung in das Supply Chain Management auf der Basis von SAP Software.

.

PHON/anoldpenny/

SYN

CATNP

HEADCASEobjectiveNUMBERsingPERSONthird

VALENCEvstruc

SEM

QUANTexistVARX1

RESTR

RELold'VARX1

ARGpenny'

n Lagerverwaltungssoftware

N

NP

A

NDetV

VP

NP

S

Sue gave Paul an old penny.

NP

erfolgreichen Lagerverwaltungssoftware Store Age

Page 49: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Different GoalsDifferent Goals

Classical Goal:understanding and production of text

highly accurate and comprehensive in depthcould be used by automatic inferencingbut lacking efficiency, robustness, coverage

Page 50: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Classical Goal:understanding and production of text

Goals of Text Technologiesrecognition of relevant elementsor generation of short passages from DB entries

Die Bremer Firma Trade Consult hat auf einer Pressekonferenz in Hannover die Version 2.0 ihrer erfolgreichen Lagerverwaltungssoftware Store Age vorgestellt.

Die neue Version ermöglicht jetzt auch die zentrale Verwaltung mehrerer Lager und integriert die Lagerhaltung in das Supply Chain Management auf der Basis von SAP Software.

Auf der Pressekonferenz gab Geschäftsführer Franz Merleback auch die Umsatzzahlen der Softwareschmiede für das 3.Quartal bekannt. Wurden im zweiten Quartal bereits über 30 Millionen Mark umgesetzt, so konnte Merleback jetzt das stolze Ergebnis von 42,5 Millionen verkünden.

Die neue Version ermöglicht jetzt auch die zentrale Verwaltung mehrerer Lager und integriert die Lagerhaltung in das Supply Chain Management auf der Basis von SAP Software.

Different GoalsDifferent Goals

building an index

Page 51: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Classical Goal:understanding and production of text

Goals of Text Technologiesrecognition of relevant elementsor generation of short passages from DB entries

Die Bremer Firma Trade Consult hat auf einer Pressekonferenz in Hannover die Version 2.0 ihrer erfolgreichen Lagerverwaltungssoftware Store Age vorgestellt.

Die neue Version ermöglicht jetzt auch die zentrale Verwaltung mehrerer Lager und integriert die Lagerhaltung in das Supply Chain Management auf der Basis von SAP Software.

Auf der Pressekonferenz gab Geschäftsführer Franz Merleback auch die Umsatzzahlen der Softwareschmiede für das 3.Quartal bekannt. Wurden im zweiten Quartal bereits über 30 Millionen Mark umgesetzt, so konnte Merleback jetzt das stolze Ergebnis von 42,5 Millionen verkünden.

Die neue Version ermöglicht jetzt auch die zentrale Verwaltung mehrerer Lager und integriert die Lagerhaltung in das Supply Chain Management auf der Basis von SAP Software.

Different GoalsDifferent Goals

Trade Consult Umsatzzahlen

extracting the topic

Page 52: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Classical Goal:understanding and production of text

Goals of Text Technologiesrecognition of relevant elementsor generation of short passages from DB entries

Different GoalsDifferent Goals

Firma 96Q4 1996 97Q1 97Q2 97Q3 97Q4 1997 Diff

Hahnemann 105 Mio 110Mio

Trade Consult 30 Mio 42,5Mio

Z&M 12,0Mio 14 Mio

extracting relationsDie Bremer Firma Trade Consult hat auf einer Pressekonferenz in Hannover die Version 2.0 ihrer erfolgreichen Lagerverwaltungssoftware Store Age vorgestellt.

Die neue Version ermöglicht jetzt auch die zentrale Verwaltung mehrerer Lager und integriert die Lagerhaltung in das Supply Chain Management auf der Basis von SAP Software.

Auf der Pressekonferenz gab Geschäftsführer Franz Merleback auch die Umsatzzahlen der Softwareschmiede für das 3.Quartal bekannt. Wurden im zweiten Quartal bereits über 30 Millionen Mark umgesetzt, so konnte Merleback jetzt das stolze Ergebnis von 42,5 Millionen verkünden.

Die neue Version ermöglicht jetzt auch die zentrale Verwaltung mehrerer Lager und integriert die Lagerhaltung in das Supply Chain Management auf der Basis von SAP Software.

Page 53: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Information ExtractionInformation Extraction

Bremen, 14. 10. 1997, wiwo: Lagersoftware weiter im Aufwind

Die Bremer Firma Trade Consult hat auf einer Pressekonferenz in Hannover die Version 2.0 ihrer erfolgreichen Lagerverwaltungssoftware Store Age vorgestellt.

Die neue Version ermöglicht jetzt auch die zentrale Verwaltung mehrerer Lager und integriert die Lagerhaltung in das Supply Chain Management auf der Basis von SAP Software.

Auf der Pressekonferenz gab Geschäftsführer Franz Merleback auch die Umsatzzahlen der Softwareschmiede für das 3.Quartal bekannt. Wurden im zweiten Quartal bereits über 30 Millionen Mark umgesetzt, so konnte Merleback jetzt das stolze Ergebnis von 42,5 Millionen verkünden.

Page 54: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

IE ResultIE Result

Firma 96Q4 1996 97Q1 97Q2 97Q3 97Q4 1997 Diff

ComSoft 120Mio 110Mio

Trade Consult 30 Mio 42,5Mio

Z&M 71,0Mio

Page 55: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Classical Goal:understanding and production of text

Goals of Text Technologiesrecognition of relevant elementsor generation of short passages from DB entries

Die Bremer Firma Trade Consult hat auf einer Pressekonferenz in Hannover die Version 2.0 ihrer erfolgreichen Lagerverwaltungssoftware Store Age vorgestellt.

Die neue Version ermöglicht jetzt auch die zentrale Verwaltung mehrerer Lager und integriert die Lagerhaltung in das Supply Chain Management auf der Basis von SAP Software.

Auf der Pressekonferenz gab Geschäftsführer Franz Merleback auch die Umsatzzahlen der Softwareschmiede für das 3.Quartal bekannt. Wurden im zweiten Quartal bereits über 30 Millionen Mark umgesetzt, so konnte Merleback jetzt das stolze Ergebnis von 42,5 Millionen verkünden.

Die neue Version ermöglicht jetzt auch die zentrale Verwaltung mehrerer Lager und integriert die Lagerhaltung in das Supply Chain Management auf der Basis von SAP Software.

Different GoalsDifferent Goals

Firma 96Q4 1996 97Q1 97Q2 97Q3 97Q4 1997 Diff

ComSoft 120Mio 110Mio

Trade Consult 30 Mio 42,5Mio

Z&M 71,0 Mio 88,0 Mio

extracting relations

Page 56: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Classical Goal:understanding and production of text

Goals of Text Technologiesrecognition of relevant elementsor generation of short passages from DB entries

robust and efficientsupport for human inferencingbut shallow -- do not get to the contents -- lacking accuracy

Different GoalsDifferent Goals

Page 57: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Application and FoundationApplication and Foundation

Deep Methods Shallow Methods

App

licat

ion

Fou

ndat

ion

Page 58: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Empirical MethodologyEmpirical Methodology

formal methods

algorithmic methods

empirical methods

availability of large electronic corpora computational tools for handling large sets of data

increased computing power

means for data interpretation

Page 59: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Statistical MethodsStatistical Methods

deep processing

shallow processing categorization

deep parsingwith semantic

construction

deep parsing

PS parsing

shallow parsing

summarization

inf. extraction

answer extraction

statisticalmethods

symbolicmethods

Page 60: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Statistical MethodsStatistical Methods

deep processing

shallow processing categorization

deep parsingwith semantic

construction

deep parsing

PS parsing

shallow parsing

summarization

inf. extraction

answer extraction

statisticalmethods

symbolicmethods

hybridmethods

Page 61: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Corpus-Based MethodsCorpus-Based Methods

Corpus-based statistical methods are especially relevant for:

acquisition of grammar and lexicon

acquisition and modelling of soft constraints

acquisition and modelling of performance preferences

However, we need linguistically interpreted corpora.

Page 62: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Combinig Shallow and DeepCombinig Shallow and Deep

Three ways of combining shallow and deep processing:

shallow processing as a preprocessor for deep processing

deep processing as a servant to shallow processing

deep processing techniques are integrated into shallow processing

Page 63: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Information ExtractionInformation Extraction

Instead of extraction -Enrichment of texts by structural information

Structuring of information through IE technology

Transformation of unstructured text into semi-structured documents

Application in document conversion to XML and in XML document authoring

Page 64: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

A Continuum from Shallow to DeepA Continuum from Shallow to Deep

Topic RecognitionTerminology RecognitionNamed Entity RecognitionSimple Relation RecognitionComplex Relation Recognition (template filling)Answer Recognition

Information Fusion - Template Merging

Page 65: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Performance Modelling in the Past Performance Modelling in the Past

Coverage large scale HPSG grammar development in several

languages lexical work on the morphological and syntactic side first steps towards learning from corpora

Robustness robust semantic processing with underspecification work on soft constraints and preferences

Efficiency efficient HPSG and DG processing efficiency in semantic processing by ambiguity reduction

Page 66: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Weitere ProblemeWeitere Probleme

Sie finden zu viel!Sie finden zu viel!

AmbiguitätAmbiguität

deutsch: deutsch: Zug, Bahn, Leitung, SchalterZug, Bahn, Leitung, Schalter

englisch:englisch: terminal, line, engine terminal, line, engine

PolysemiePolysemie

Buch, Schule, printerBuch, Schule, printer

EigennamenEigennamen

Personennamen: Personennamen: Maurer, Washington, ChaseMaurer, Washington, Chase

Ortsbezeichnungen: Ortsbezeichnungen: Essen, Halle, BismarckEssen, Halle, Bismarck

Page 67: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Das Web ist mutlilingualDas Web ist mutlilingual

Das WWW war anfangs vorherrschend monolingualDas WWW war anfangs vorherrschend monolingual

(1994 - 96% aller WWW Seiten englisch)(1994 - 96% aller WWW Seiten englisch)

Nicht-englische Inhalte nehmen schneller zu. Nicht-englische Inhalte nehmen schneller zu.

(1996 - 91% englisch, heute ca. 85%)(1996 - 91% englisch, heute ca. 85%)

Page 68: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

GGLOBALIZATIONLOBALIZATION OF THE OF THE UUSERSER B BASEASE

Share of US Web Users

0102030405060708090

100

1991 1995 1998 2000

US Web Users in %

Source: ComputerIndustry Almanac Inc.January 1998

80

6555

40

Page 69: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Relevante FaktorenRelevante Faktoren

Entwicklung vom Avantgardemedium zum MassenmediumEntwicklung vom Avantgardemedium zum Massenmedium

Ausbreitung in neue Regionen (Lateinamerika, Asien, arabische Welt)Ausbreitung in neue Regionen (Lateinamerika, Asien, arabische Welt)

Digitalisierung großer Bibliotheken in vielen LändernDigitalisierung großer Bibliotheken in vielen Ländern

Rolle des WWW als globaler HandelsplatzRolle des WWW als globaler Handelsplatz

Rolle des WWW als Medium für politische Information und PropagandaRolle des WWW als Medium für politische Information und Propaganda

Zunahme sozialer und kultureller Inhalte Zunahme sozialer und kultureller Inhalte

Die Zukunft des WWW ist vielsprachig.Die Zukunft des WWW ist vielsprachig.

Page 70: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Noch mehr Probleme! Noch mehr Probleme!

Andere Schriftsysteme müssen kodiert und dargestellt werden:

Chinesisch, Japanisch, Arabisch, Griechisch,...

Die Wortbildungsregeln der Sprachen geraten sich ins Gehege:

Skat skatingLimes lime

Sprachübergreifende Ambiguität stört bei der Suche:

Brief brief overviewPost post messagesPorto Porto travel informationHaut Haut Barrcute cute girls

Page 71: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Multilingualität als HerausforderungMultilingualität als Herausforderung

Eine große Chance tut sich auf:

Es wird möglich sein, durch das niedergeschriebene Wissen der Menschheit zu navigieren, ohne an der Sprachgrenze stehenbleiben zu müssen.

Diese technologische Herausforderung erfordert aber Fortschritte auf den folgenden Gebieten:

lexikalische Semantik konzeptuelle Strukturierung Verbesserungen in maschineller Übersetzung

Page 72: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Sprache im WWWSprache im WWW

Sprache ist nur ein Medium auf dem WWW.

Aber unter den verschiedenen Medien hat die Sprache einen besonderen Status.

Bücher, Filme, Bilder, Musikstücke und Computerprogramme beschreiben und finden wir am besten mit Sprache.

Nur mithilfe der Sprache können wir Wissen strukturieren und sinnvoll vernetzen.

Die Sprache ist das Gewebe des World Wide Web

Page 73: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Menschliche SpracheMenschliche Sprache

Die Sprache hat Seiten, die dem Menschen leichtfallen, dem Computer hingegen schwer.

Insbesondere:

Ambiguität: viele Wörter und Phrasen haben mehrere Bedeutungen

Paraphrasen: es gibt viele Möglichkeiten, das Gleiche auszudrücken

Ungenauigkeit: oft ist die Bedeutung von Ausdrücken unscharf

Page 74: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Maschinelle ÜbersetzungMaschinelle Übersetzung

Die vollautomatische maschinelle Übersetzung (fully automatic maschine translation – FAMT) beliebiger Texte ist heute nicht möglich.

Das liegt nicht an der linguistischen Verarbeitung der Texte, sondern am fehlenden Wissen der Maschine über die Inhalte.

Für sehr eingeschränkte Gegenstandsbereiche und Textarten können aber brauchbare Übersetzungen geliefert werden.

Ansonsten dient die maschinelle Übersetzung heute erfolgreich als Vorstufe für menschliche Übersetzung (machine-assisted human translation – MAHT).

Page 75: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

MÜ ist dennoch brauchbarMÜ ist dennoch brauchbar

Eine zufriedenstellende automatische Übersetzung beliebiger Texte ist heute also nicht möglich.

Aber die Technologie liefert Übersetzungen, die den Leser sehr wohl das Thema und die wesentlichsten Inhalte erkennen lassen.

Wir arbeiten mit dem Übersetzungssystem LOGOS.

Andere große Übersetzungssysteme (SYSTRAN, METAL) werden ebenfalls für WWW Anwendungen eingesetzt.

Die Übersetzungen nennen wir indikative Übersetzungen.

Page 76: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Indikative ÜbersetzungIndikative Übersetzung

Page 77: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Multilinguale NavigationMultilinguale Navigation

multilingualemultilingualeSucheSuche

multilingualemultilingualeSchnittstelleSchnittstelle

für die für dieNavigationNavigation

mehrsprachigesmehrsprachigesAngebot im WebAngebot im Web

Page 78: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

carcar

KonzeptindexKonzeptindex

Page 79: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

carcarPersonenautoPersonenautoAutoAutomobil

KonzeptindexKonzeptindex

Page 80: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

carcarPersonenautoPersonenautoAutoAutomobil

KonzeptindexKonzeptindex

...Kraftfahrzeuge für Personen...

Page 81: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

carcarPersonenautoPersonenautoAutoAutomobil

automobile autocar

KonzeptindexKonzeptindex

...Kraftfahrzeuge für Personen...

Page 82: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

carcarPersonenautoPersonenautoAutoAutomobil

automobile autocar

KonzeptindexKonzeptindex

...location de voitures......Kraftfahrzeuge für Personen...

Page 83: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

KonzeptindexKonzeptindex

motor vehiclemotor vehicle

carcar trucktruck

sports carsports car

...Kraftfahrzeuge für Personen...

tank trucktank truck

PersonenautoPersonenautoAutoAutomobil

automobile autocar

...location de voitures...

Page 84: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

KonzeptindexKonzeptindex

Sprachidentifikation

Lexikalische Desambiguierung

Flache syntaktische Analysetechniken

Aufbau eines phrasalen Index

multilinguale Terminologien

Paraphrasen-Glossare

BenötigteTechnologien:BenötigteTechnologien:

Page 85: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

AusblickAusblick

Die Strukturierung des digitalen menschlichen Wissens ist eine der großen Herausforderungen des nächsten Jahrhunderts.

Die Sprachtechnologie ist eine Schlüsseltechnologie für dieses ehrgeizige Vorhaben,

denn die Sprache ist das Gewebe des Wissens.

Page 86: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

ZieleZiele

Verbesserung der Informationsvernetzung durch automatisches Erstellen, Einfügen und Verwalten von getypten Hyperlinks in WWW-Dokumenten

Methode Hyperlinks (Anchors und Targets) werden unabhängig von

Dokumenten gespeichert und verwaltet Mithilfe von modernen Methoden der Sprachtechnologie

werden in WWW-Dokumente Stellen (Begriffe, Textteile) identifiziert, die einem vordefinierten Anchor entsprechen

Mit diesem Anchor wird offline oder online der entsprechende Hyperlink assoziiert und in das Dokument automatisch eingefügt,

Der Typ des Target (z.B. Begriffesdefinition, Homepage, Hintergrundinformation, Bildmaterial, etc.) wird bereits in dem Ausgangsdokument markiert

Page 87: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

TTHEHE O ONENE-C-CLICKLICK A APPROACHPPROACH

New wireless voice technology introduced Posted at 5:09 PM PT, Feb 8, 1999

By Stephen Lawson, InfoWorld Electric

NTT Labs on Monday brought Dick Tracy into the enterprise, introducing a wireless voice and data system that can use a wrist radio at the Demo 99 conference.

AirWave technology, demonstrated for the first time in the United States at this week's confe- rence in Indian Wells, Calif., is based on a wireless PBX. Small, handheld phones -- and a wrist radio that looks like an oversized watch -- can be used to make voice calls and exchange data around a building or campus. The handheld phones can be switched to a public cellular mode to become conventional cell phones.

Company representatives touted the system as offering higher voice quality than a typical PBX. Airwave is based on NTT's Personal Handyphone System, which is currently deployed by more than 600 users in Japan, according to the company.

Modems built in to both devices allow users to plug in a notebook or portable device for dial-up data connections as fast as 64Kbps. Users can exchange files or e-mail, or access a LAN or the Internet. There is no airtime charge for AirWave communications in the building or campus. AirWave systems are scheduled to be available through distribution partners by the end of this year, priced as low as $400 per user.

NTT Labs, the research and development arm of NTT Corp., in Tokyo, can be reached at www.nttlabs.com.

Page 88: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

TTHEHE O ONENE-C-CLICKLICK A APPROACHPPROACH

New wireless voice technology introduced Posted at 5:09 PM PT, Feb 8, 1999

By Stephen Lawson, InfoWorld Electric

NTT Labs on Monday brought Dick Tracy into the enterprise, introducing a wireless voice and data system that can use a wrist radio at the Demo 99 conference.

AirWave technology, demonstrated for the first time in the United States at this week's confe- rence in Indian Wells, Calif., is based on a wireless PBX. Small, handheld phones -- and a wrist radio that looks like an oversized watch -- can be used to make voice calls and exchange data around a building or campus. The handheld phones can be switched to a public cellular mode to become conventional cell phones.

Company representatives touted the system as offering higher voice quality than a typical PBX. Airwave is based on NTT's Personal Handyphone System, which is currently deployed by more than 600 users in Japan, according to the company.

Modems built in to both devices allow users to plug in a notebook or portable device for dial-up data connections as fast as 64Kbps. Users can exchange files or e-mail, or access a LAN or the Internet. There is no airtime charge for AirWave communications in the building or campus. AirWave systems are scheduled to be available through distribution partners by the end of this year, priced as low as $400 per user.

NTT Labs, the research and development arm of NTT Corp., in Tokyo, can be reached at www.nttlabs.com.

Page 89: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

TTHEHE O ONENE-C-CLICKLICK A APPROACHPPROACH

New wireless voice technology introduced Posted at 5:09 PM PT, Feb 8, 1999

By Stephen Lawson, InfoWorld Electric

NTT Labs on Monday brought Dick Tracy into the enterprise, introducing a wireless voice and data system that can use a wrist radio at the Demo 99 conference.

AirWave technology, demonstrated for the first time in the United States at this week's confe- rence in Indian Wells, Calif., is based on a wireless PBX. Small, handheld phones -- and a wrist radio that looks like an oversized watch -- can be used to make voice calls and exchange data around a building or campus. The handheld phones can be switched to a public cellular mode to become conventional cell phones.

Company representatives touted the system as offering higher voice quality than a typical PBX. Airwave is based on NTT's Personal Handyphone System, which is currently deployed by more than 600 users in Japan, according to the company.

Modems built in to both devices allow users to plug in a notebook or portable device for dial-up data connections as fast as 64Kbps. Users can exchange files or e-mail, or access a LAN or the Internet. There is no airtime charge for AirWave communications in the building or campus. AirWave systems are scheduled to be available through distribution partners by the end of this year, priced as low as $400 per user.

NTT Labs, the research and development arm of NTT Corp., in Tokyo, can be reached at www.nttlabs.com.

Page 90: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

New wireless voice technology introduced Posted at 5:09 PM PT, Feb 8, 1999

By Stephen Lawson, InfoWorld Electric

NTT Labs on Monday brought Dick Tracy into the enterprise, introducing a wireless voice and data system that can use a wrist radio at the Demo 99 conference.

AirWave technology, demonstrated for the first time in the United States at this week's confe- rence in Indian Wells, Calif., is based on a wireless PBX. Small, handheld phones -- and a wrist radio that looks like an oversized watch -- can be used to make voice calls and exchange data around a building or campus. The handheld phones can be switched to a public cellular mode to become conventional cell phones.

Company representatives touted the system as offering higher voice quality than a typical PBX. Airwave is based on NTT's Personal Handyphone System, which is currently deployed by more than 600 users in Japan, according to the company.

Modems built in to both devices allow users to plug in a notebook or portable device for dial-up data connections as fast as 64Kbps. Users can exchange files or e-mail, or access a LAN or the Internet. There is no airtime charge for AirWave communications in the building or campus. AirWave systems are scheduled to be available through distribution partners by the end of this year, priced as low as $400 per user.

NTT Labs, the research and development arm of NTT Corp., in Tokyo, can be reached at www.nttlabs.com.

TTHEHE O ONENE-C-CLICKLICK A APPROACHPPROACH

Page 91: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

TTHEHE O ONENE-C-CLICKLICK A APPROACHPPROACH

New wireless voice technology introduced Posted at 5:09 PM PT, Feb 8, 1999

By Stephen Lawson, InfoWorld Electric

NTT Labs on Monday brought Dick Tracy into the enterprise, introducing a wireless voice and data system that can use a wrist radio at the Demo 99 conference.

AirWave technology, demonstrated for the first time in the United States at this week's confe- rence in Indian Wells, Calif., is based on a wireless PBX. Small, handheld phones -- and a wrist radio that looks like an oversized watch -- can be used to make voice calls and exchange data around a building or campus. The handheld phones can be switched to a public cellular mode to become conventional cell phones.

Company representatives touted the system as offering higher voice quality than a typical PBX. Airwave is based on NTT's Personal Handyphone System, which is currently deployed by more than 600 users in Japan, according to the company.

Modems built in to both devices allow users to plug in a notebook or portable device for dial-up data connections as fast as 64Kbps. Users can exchange files or e-mail, or access a LAN or the Internet. There is no airtime charge for AirWave communications in the building or campus. AirWave systems are scheduled to be available through distribution partners by the end of this year, priced as low as $400 per user.

NTT Labs, the research and development arm of NTT Corp., in Tokyo, can be reached at www.nttlabs.com.

Company InfoHomepageOther News ProductsIndicatorsContact ExpertsContacts Accounts

Company InfoHomepageOther News ProductsIndicatorsContact ExpertsContacts Accounts

Page 92: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Ziele und VorteileZiele und Vorteile

Information kann dichter vernetzt werden, da Links nicht mehr manuell eingefügt werden müssen

Verwaltung von Internet-Sites und Linkstrukturen kann wesentlich vereinfacht und automatisiert werden

Konsistenz von Vernetzungen wird erhöht, da jeder Link nur an einer Stelle verwaltet werden muss

Typisierung von Links führt zu erhöhter Transparenz für den Benutzer, der bereits am Link erkennen kann, wo dieser hinführt.

Neue Qualität der Vernetzung führt zu einer neuen Qualität des Informations- und Wissensmanagement

Page 93: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Umfeld und EinbettungUmfeld und Einbettung

Internet-Applikationen, Informations- und Wissensmanagement sind zentrale Kompetenzen des DFKI LT-Labs

Die Entwicklung innovative Merkmale und Funktionalitäten ist für die Bewahrung der führenden Position im Bereich mehrsprachige Internetportale, Suchmaschinen und Informationssysteme essentiell

Beispielanwendungen: HYPERCODE (Dresdner Bank)

Dichte automatische Vernetzung von Programmcode und Dokumentation

MIETTA (Mehrsprachiges WWW-Tourismus-Informationsystem)Automatische Vernetzung von TourismusinformationBeispiel: Ortsnamen etc. in WWW-Dokumenten werden automatisch mit Homepages der Kommunen verbunden

Page 94: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

DDASAS P PROBLEMROBLEM

Sprachumfang

Sprachtiefe

Gegenstandsbereich(e)

Lexikon

Morphologie

Syntax

Semantik

Pragmatik

Wissensverarbeitung

Page 95: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

DDASAS P PROBLEMROBLEM

Sprachumfang

Sprachtiefe

Gegenstandsbereich(e)

Lexikon

Morphologie

Syntax

Semantik

Pragmatik

Wissensverarbeitung

Rechtschreibkontrolle

Page 96: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

DDASAS P PROBLEMROBLEM

Sprachumfang

Sprachtiefe

Gegenstandsbereich(e)

Informationsextraktion

Lexikon

Morphologie

Syntax

Semantik

Pragmatik

Wissensverarbeitung

Page 97: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

akustische Form geschriebene Form

morphonologische Repräsentation

phonetische o. graphemische Repräsentation

syntaktische Repräsentation

semantische Repräsentation

Repräsentation der vollen Bedeutung

MaschinelleÜbersetzung

phonetische Verarbeitung orthographische Verarbeitung

morphonologische Verarbeitung

syntaktische Verarbeitung

semantische Verarbeitung

pragmatische Verarbeitung - Wissensverarbeitung

Page 98: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Systeme in der AnwendungSysteme in der Anwendung

Systran (Systran, EU)

Metal/Comprendium (Siemens, Sietec, L&H, SAIL Labs)

Logos (Logos, Global Words)

Personal Translator (IBM)

Page 99: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Maschinelle ÜbersetzungMaschinelle Übersetzung

Die vollautomatische maschinelle Übersetzung (fully Die vollautomatische maschinelle Übersetzung (fully automatic maschine translation – FAMT) beliebiger Texte automatic maschine translation – FAMT) beliebiger Texte ist heute nicht möglich.ist heute nicht möglich.

Das liegt nicht an der linguistischen Verarbeitung der Das liegt nicht an der linguistischen Verarbeitung der Texte, sondern am fehlenden Wissen der Maschine über die Texte, sondern am fehlenden Wissen der Maschine über die Inhalte.Inhalte.

Für sehr eingeschränkte Gegenstandsbereiche und Für sehr eingeschränkte Gegenstandsbereiche und Textarten können aber brauchbare Übersetzungen geliefert Textarten können aber brauchbare Übersetzungen geliefert werden.werden.

Ansonsten dient die maschinelle Übersetzung heute Ansonsten dient die maschinelle Übersetzung heute erfolgreich als Vorstufe für menschliche Übersetzung erfolgreich als Vorstufe für menschliche Übersetzung (machine-assisted human translation – MAHT).(machine-assisted human translation – MAHT).

Page 100: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

coverage of subject domains and text sorts

quality

perfect

ready-to-use

understandable

FAMT

MMACHINEACHINE T TRANSLATIONRANSLATION T TODAYODAY

Page 101: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

coverage of subject domains and text sorts

quality

perfect

ready-to-use

understandable

MAHT

FAMT

MMACHINEACHINE T TRANSLATIONRANSLATION T TODAYODAY

Page 102: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

coverage of subject domains and text sorts

quality

perfect

ready-to-use

understandable

CONTROLLED LANGUAGE MT

MMACHINEACHINE T TRANSLATIONRANSLATION T TODAYODAY

Page 103: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

coverage of subject domains and text sorts

quality

perfect

ready-to-use

understandable

indicative

FAMT

MMACHINEACHINE T TRANSLATIONRANSLATION T TODAYODAY

Page 104: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

CCONCEPTONCEPT I INDEXNDEX

carcar

Page 105: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

PersonenautoPersonenautoAutoAutomobil

CCONCEPTONCEPT I INDEXNDEX

carcar

Page 106: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

...Kraftfahrzeuge für Personen...

CCONCEPTONCEPT I INDEXNDEX

carcarPersonenautoPersonenautoAutoAutomobil

Page 107: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

automobile automobile autoautocarcar

...Kraftfahrzeuge für Personen...

carcar

CCONCEPTONCEPT I INDEXNDEX

PersonenautoPersonenautoAutoAutomobil

Page 108: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

carcar

...location de voitures......Kraftfahrzeuge für Personen...

CCONCEPTONCEPT I INDEXNDEX

PersonenautoPersonenautoAutoAutomobil

automobile automobile autoautocarcar

Page 109: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

motor vehiclemotor vehicle

trucktruck

sports carsports car

...Kraftfahrzeuge für Personen...

tank trucktank truck

...location de voitures...

carcar

CCONCEPTONCEPT I INDEXNDEX

PersonenautoPersonenautoAutoAutomobil

automobile automobile autoautocarcar

Page 110: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

LLANGUAGEANGUAGE T TECHNOLOGIESECHNOLOGIES

Language Technologies

Speech TechnologiesText Technologies

Page 111: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

LLANGUAGEANGUAGE T TECHNOLOGIESECHNOLOGIES

Language Technologies

Speech TechnologiesText Technologies

gathering

indexing

categorization

clustering

summarization

Page 112: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

LLANGUAGEANGUAGE T TECHNOLOGIESECHNOLOGIES

Language Technologies

Speech TechnologiesText Technologies

text understanding

text translation

information extraction

report generation

Page 113: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

LLANGUAGEANGUAGE T TECHNOLOGIESECHNOLOGIES

Language Technologies

Speech TechnologiesText Technologies

Voice RecognitionVoice RecognitionSpeech VerificationSpeech Verification

Speech RecognitionSpeech RecognitionVoice ModellingVoice Modelling

Speech SynthesisSpeech SynthesisSpeaker IdentificationSpeaker Identification

Language IndentificationLanguage Indentification

Page 114: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

LLANGUAGEANGUAGE T TECHNOLOGIESECHNOLOGIES

Language Technologies

Speech TechnologiesText Technologies

Speech GenerationSpeech GenerationSpeech UnterstandingSpeech Unterstanding

Spoken Dialogue SystemsSpoken Dialogue SystemsSpeech Translation SystemsSpeech Translation Systems

Page 115: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

LLANGUAGEANGUAGE T TECHNOLOGIESECHNOLOGIES

Language Technologies

Speech TechnologiesText Technologies

language understanding

language generation

dialogue modelling

machine translation

Page 116: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

LLANGUAGEANGUAGE T TECHNOLOGIESECHNOLOGIES

Language Technologies

Speech TechnologiesText Technologies

gathering

indexing

categorization

clustering

summarization

Page 117: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

Hypertext, in computer science, a metaphor for presenting information in which text, images, sounds, and actions become linked together in a complex, nonsequential web of associations that permit the user to browse through related topics, regardless of the presented order of the topics. These links are often established both by the author of a hypertext document and by the user, depending on the intent of the hypertext document. For example, traveling among the links to the word iron in an article might lead the user to the periodic table of the elements or a map of the migration of metallurgy in Iron Age Europe.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

tying count of the original complaint. Instead, it said it wants to investigate developments in the industry since the trial concluded and evaluate whether additional conduct-related provisions are necessary, especially in the absence of a breakup.

In a statement issued Thursday morning, the Justice Department said it had taken these positions in an effort to "streamline the case with the goal of securing an effective remedy as quickly as possible.“

Instead of a breakup, the Justice Department said it will ask that Microsoft have certain restrictions placed on its conduct modeled on those the original trial judge imposed on the company in June 2000 but were postponed pending the appeal.

In his original order, Judge Jackson imposed a series of restrictions on Microsoft's business practices which were to be effective as the companymoved to split its business in two.

Among the conduct remedies Judge Jackson originally imposed were: prohibiting Microsoft from punishing hardware and software companies working on competing products; prohibiting it from favoring computer companies and software developers that helped Microsoft exclude competitors; makers under uniform prices and terms according to a publicly available schedule; and barring Microsoft from interfering with the way PC makers set up startup screens, this Windows desktop preferences, and Internet connection wizards.

Since the appeals court first handed down its ruling in the case, Microsoft repeatedly has expressed its

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

CCATEGORIZATIONATEGORIZATION

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the no

nlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Corporation

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Corporation

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

tying count of the original complaint. Instead, it said it wants to investigate developments in the industry since the trial concluded and evaluate whether additional conduct-related provisions are necessary, especially in the absence of a breakup.

In a statement issued Thursday morning, the Justice Department said it had taken these positions in an effort to "streamline the case with the goal of securing an effective remedy as quickly as possible.“

Instead of a breakup, the Justice Department said it will ask that Microsoft have certain restrictions placed on its conduct modeled on those the original trial judge imposed on the company in June 2000 but were postponed pending the appeal.

In his original order, Judge Jackson imposed a series of restrictions on Microsoft's business practices which were to be effective as the companymoved to split its business in two.

Among the conduct remedies Judge Jackson originally imposed were: prohibiting Microsoft from punishing hardware and software companies working on competing products; prohibiting it from favoring computer companies and software developers that helped Microsoft exclude competitors; makers under uniform prices and terms according to a publicly available schedule; and barring Microsoft from interfering with the way PC makers set up startup screens, this Windows desktop preferences, and Internet connection wizards.

Since the appeals court first handed down its ruling in the case, Microsoft repeatedly has expressed its

Hypertext, in computer science, a metaphor for presenting information in which text, images, sounds, and actions become linked together in a complex, nonsequential web of associations that permit the user to browse through related topics, regardless of the presented order of the topics. These links are often established both by the author of a hypertext document and by the user, depending on the intent of the hypertext document. For example, traveling among the links to the word iron in an article might lead the user to the periodic table of the elements or a map of the migration of metallurgy in Iron Age Europe.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

tying count of the original complaint. Instead, it said it wants to investigate developments in the industry since the trial concluded and evaluate whether additional conduct-related provisions are necessary, especially in the absence of a breakup.

In a statement issued Thursday morning, the Justice Department said it had taken these positions in an effort to "streamline the case with the goal of securing an effective remedy as quickly as possible.“

Instead of a breakup, the Justice Department said it will ask that Microsoft have certain restrictions placed on its conduct modeled on those the original trial judge imposed on the company in June 2000 but were postponed pending the appeal.

In his original order, Judge Jackson imposed a series of restrictions on Microsoft's business practices which were to be effective as the companymoved to split its business in two.

Among the conduct remedies Judge Jackson originally imposed were: prohibiting Microsoft from punishing hardware and software companies working on competing products; prohibiting it from favoring computer companies and software developers that helped Microsoft exclude competitors; makers under uniform prices and terms according to a publicly available schedule; and barring Microsoft from interfering with the way PC makers set up startup screens, this Windows desktop preferences, and Internet connection wizards.

Since the appeals court first handed down its ruling in the case, Microsoft repeatedly has expressed its

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

Hypertext, in computer science, a metaphor for presenting information in which text, images, sounds, and actions become linked together in a complex, nonsequential web of associations that permit the user to browse through related topics, regardless of the presented order of the topics. These links are often established both by the author of a hypertext document and by the user, depending on the intent of the hypertext document. For example, traveling among the links to the word iron in an article might lead the user to the periodic table of the elements or a map of the migration of metallurgy in Iron Age Europe.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

tying count of the original complaint. Instead, it said it wants to investigate developments in the industry since the trial concluded and evaluate whether additional conduct-related provisions are necessary, especially in the absence of a breakup.

In a statement issued Thursday morning, the Justice Department said it had taken these positions in an effort to "streamline the case with the goal of securing an effective remedy as quickly as possible.“

Instead of a breakup, the Justice Department said it will ask that Microsoft have certain restrictions placed on its conduct modeled on those the original trial judge imposed on the company in June 2000 but were postponed pending the appeal.

In his original order, Judge Jackson imposed a series of restrictions on Microsoft's business practices which were to be effective as the companymoved to split its business in two.

Among the conduct remedies Judge Jackson originally imposed were: prohibiting Microsoft from punishing hardware and software companies working on competing products; prohibiting it from favoring computer companies and software developers that helped Microsoft exclude competitors; makers under uniform prices and terms according to a publicly available schedule; and barring Microsoft from interfering with the way PC makers set up startup screens, this Windows desktop preferences, and Internet connection wizards.

Since the appeals court first handed down its ruling in the case, Microsoft repeatedly has expressed its

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

Page 118: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

IINDEXINGNDEXING

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

tying count of the original complaint. Instead, it said it wants to investigate developments in the industry since the trial concluded and evaluate whether additional conduct-related provisions are necessary, especially in the absence of a breakup.

In a statement issued Thursday morning, the Justice Department said it had taken these positions in an effort to "streamline the case with the goal of securing an effective remedy as quickly as possible.“

Instead of a breakup, the Justice Department said it will ask that Microsoft have certain restrictions placed on its conduct modeled on those the original trial judge imposed on the company in June 2000 but were postponed pending the appeal.

In his original order, Judge Jackson imposed a series of restrictions on Microsoft's business practices which were to be effective as the companymoved to split its business in two.

Among the conduct remedies Judge Jackson originally imposed were: prohibiting Microsoft from punishing hardware and software companies working on competing products; prohibiting it from favoring computer companies and software developers that helped Microsoft exclude competitors; makers under uniform prices and terms according to a publicly available schedule; and barring Microsoft from interfering with the way PC makers set up startup screens, this Windows desktop preferences, and Internet connection wizards.

Since the appeals court first handed down its ruling in the case, Microsoft repeatedly has expressed its

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

Hypertext, in computer science, a metaphor for presenting information in which text, images, sounds, and actions become linked together in a complex, nonsequential web of associations that permit the user to browse through related topics, regardless of the presented order of the topics. These links are often established both by the author of a hypertext document and by the user, depending on the intent of the hypertext document. For example, traveling among the links to the word iron in an article might lead the user to the periodic table of the elements or a map of the migration of metallurgy in Iron Age Europe.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Dokument DB

Page 119: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

SSUMMARIZATIONUMMARIZATION

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Corporation

tying count of the original complaint. Instead, it said it wants to investigate developments in the industry since the trial concluded and evaluate whether additional conduct-related provisions are necessary, especially in the absence of a breakup.

In a statement issued Thursday morning, the Justice Department said it had taken these positions in an effort to "streamline the case with the goal of securing an effective remedy as quickly as possible.“

Instead of a breakup, the Justice Department said it will ask that Microsoft have certain restrictions placed on its conduct modeled on those the original trial judge imposed on the company in June 2000 but were postponed pending the appeal.

In his original order, Judge Jackson imposed a series of restrictions on Microsoft's business practices which were to be effective as the companymoved to split its business in two.

Among the conduct remedies Judge Jackson originally imposed were: prohibiting Microsoft from punishing hardware and software companies working on competing products; prohibiting it from favoring computer companies and software developers that helped Microsoft exclude competitors; makers under uniform prices and terms according to a publicly available schedule; and barring Microsoft from interfering with the way PC makers set up startup screens, this Windows desktop preferences, and Internet connection wizards.

Since the appeals court first handed down its ruling in the case, Microsoft repeatedly has expressed its

Hypermedia, in computer science, the integration of graphics, sound, video, or any combination into a primarily associative system of information storage and retrieval. Hypermedia, especially in an interactive format where choices are controlled by the user, is structured around the idea of offering a working and learning environment that parallels human thinking˘that is, an environment that allows the user to make associations between topics rather than move sequentially from one to the next, as in an alphabetic list.

The term hypertext was coined in 1965 by Ted Nelson to describe documents, as presented by a Computer, that express the nonlinear structure of ideas, as opposed to the linear format of books, film, and speech. The term hypermedia, more recently introduced, is nearly synonymous but emphasizes the nontextual components of hypertext, such as animation, recorded sound, and video.

Hypermedia topics are thus linked in a manner that allows the user to jump from subject to related subject in searching for information. For example, a hypermedia presentation on navigation might include links to such topics as astronomy, bird migration, geography, satellites, and radar. If the information is primarily in text form, the product is hypertext; if video, music, animation, or other elements are included, the product is hypermedia.

Microsoft (R) Encarta. Copyright (c) 1993 Microsoft Corporation. Copyright (c) 1993 Funk & Wagnall's Corporation

September 6, 2001: 4:39 p.m. ET

No Microsoft breakup:...

The U.S. Justice Department said Thursday it will not ask that Microsoft be broken in two... The U.S. Court of Appeals for the District of Columbia in late June had overturned a lower court's order....... it upheld the lower court's conclusion that Microsoft has a monopoly in the market for computer operating systems and maintains that monopoly power

Page 120: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

IINFORMATIONNFORMATION E EXTRACTIONXTRACTION

proper names: persons, companies, places...

special expressions: dates, prices, percentages

simple relations: company - location, product - price

complex relations: accident affected partiescausetimeplacedamage

answers to questions: Where is the headquarter of IBM?

Page 121: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

IINFORMATIONNFORMATION E EXTRACTIONXTRACTION

Bremen, 14. 10. 1997, wiwo: Lagersoftware weiter im Aufwind

Die Bremer Firma Trade Consult hat auf einer Pressekonferenz in Hannover die Version 2.0 ihrer erfolgreichen Lagerverwaltungssoftware Store Age vorgestellt...Die neue Version ermöglicht jetzt auch ...

Auf der Pressekonferenz gab Geschäftsführer Franz Merleback auch die Umsatzzahlen der Softwareschmiede für das 3. Quartal bekannt. Wurden im zweiten Quartal bereits über 30 Millionen Mark umgesetzt, so konnte Merleback jetzt das stolze Ergebnis von 42,5 Millionen verkünden.

...

Page 122: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

IINFORMATIONNFORMATION E EXTRACTIONXTRACTION

Bremen, 14. 10. 1997, wiwo: Lagersoftware weiter im Aufwind

Die Bremer Firma Trade Consult hat auf einer Pressekonferenz in Hannover die Version 2.0 ihrer erfolgreichen Lagerverwaltungssoftware Store Age vorgestellt...Die neue Version ermöglicht jetzt auch ...

Auf der Pressekonferenz gab Geschäftsführer Franz Merleback auch die Umsatzzahlen der Softwareschmiede für das 3. Quartal bekannt. Wurden im zweiten Quartal bereits über 30 Millionen Mark umgesetzt, so konnte Merleback jetzt das stolze Ergebnis von 42,5 Millionen verkünden.

...

Page 123: © 2002 Hans Uszkoreit Vorlesung Einführung in die Computerlinguistik Teil 2 Sprachtechnologie Hans Uszkoreit Universität des Saarlandes und Deutsches Forschungszentrum

© 2002 Hans Uszkoreit VL CL

IE RIE RESULTESULT

Firma 96Q4 1996 97Q1 97Q2 97Q3 97Q4 1997 Diff

ComSoft 120Mio 110Mio -10 Mio

Trade Consult 30 Mio 42,5Mio 12,5 Mio

Z&M 71,0Mio