20
Vorbesprechung Mathe III Dr. Vera Demberg, Prof. Dr. Enrico Lieblang (HTW) Universit¨ at des Saarlandes April 19th, 2012 Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 1 / 20

Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

  • Upload
    others

  • View
    13

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

Vorbesprechung Mathe III

Dr. Vera Demberg, Prof. Dr. Enrico Lieblang (HTW)

Universitat des Saarlandes

April 19th, 2012

Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 1 / 20

Page 2: Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

Formalien

Pflichtveranstaltung im Bachelor-Studiengang Computerlinguistik,vorgesehen fur das 2. Semester (9 LP)

Mo & Di 16–18h, Do 14–16h (immer c.t.)2x Vorlesung, 1x Ubung (flexibel)

Ort: Seminarraum der Computerlinguistik oder CIP-Raum

Erste Halfte: Prof. Lieblang (HTW)

Zweite Halfte: Dr. Demberg

Literatur z.T. auf Englisch

Manning & Schutze (1999):Foundations of Statistical Natural Language Processing, MIT Press.Jurafsky & Martin (2000/2008):Speech and Language Processing, Prentice Hall.Script (Lieblang) + Folien (Demberg)

Skript und Folien auf der Kursseite oder in CLIX verfugbar

Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 2 / 20

Page 3: Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

Kontakt

Bei Problemen bitte fruhzeitig melden!

Kontaktadressen (bitte Termin vorher per E-Mail vereinbaren):

Prof. Dr. Enrico Lieblang:[email protected], Tel: 0681-5867 545

Dr. Vera [email protected], Tel: 0681-302 70024

Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 3 / 20

Page 4: Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

Prufungsleistungen - Ubungen

Ca. 10–12 Ubungsblatter

Bedingungen fur die einzelne Ubungen variieren (u.a. Gruppenarbeiterlaubt oder nicht)

50% der Punkte von Ubungen sind Voraussetzung fur die Teilnahmean der Klausur

Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 4 / 20

Page 5: Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

Prufungsleistungen - Klausuren

Zwischenklausur uber den 1. Teil am 18. Juni 2012

Endklausur: 26. Juli 2012

Probeklausur die Woche davor

Die Punkte von beiden Klausuren werden addiert, daraus gibt sich dieGesamtnote

Anmeldung: siehe Information durch den Studienberater

Ohne Anmeldung: Tauschversuch!Die Teilnahme an der Prufung setzt die ordnungsgemasse Anmeldung zur Prufung

voraus. Die Teilnahme an der Prufung bei versaumter Anmeldung wird als

Tauschungsversuch gewertet und hat die Ungultigkeit der Prufung zur Folge.

Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 5 / 20

Page 6: Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

Accounts in der Computerlinguistik

“As a user of the CoLi computer systems it is mandatory that you check your email

at regular intervals. Your CoLi email address is your official contact email address.”

Account wird benotigt, um

Information uber Studium und Prufungsmodalitaten vomStudienberater uber den Verteiler zu bekommen

Ubungen einzureichen und den Kursleitern E-Mails zu schreiben

Antrag:

Formular bei Frau Kroner ausfullen (Prufungssekretariat)von Vera Demberg oder Stefan Thater unterschreiben lassen

Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 6 / 20

Page 7: Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

Account-Einrichtung

Siehe Wiki der Systemadministrationhttp://www.coli.uni-saarland.de/sg/

Passwortanderung:http://wiki.coli.uni-saarland.de/wiki/index.php/Password

E-Mails weiterleiten:http://wiki.coli.uni-saarland.de/wiki/index.php/

Webmail-filters-forwards

Hilfe: Bei der Fachschaft anfragen

Um auf manche Seiten zuzugreifen ist eine VPN-Verbindung notig, sieheITS-Seite:http://www.its.uni-saarland.de/dienste/basisdienste/vpn/

(Uni-Kennung verwenden!)

Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 7 / 20

Page 8: Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

Mailingliste

Mailingliste fur Ankundigungen und Fragen von gemeinsamem Interesse:

[email protected]

Anmeldelink:http://ml.coli.uni-saarland.de/cgi-bin/mailman/listinfo/mathe3

Abonnieren geht nur mit [email protected]!

Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 8 / 20

Page 9: Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

CLIX—www.clix.uni-saarland.de

E-Learning System der Universitat

Nicht mit HISPOS verwechseln (Klausuranmeldung)!

Enthalt die Materialien zum 1. Teil des Kurses

Einloggen mit Uni-Kennung

Kurs buchen (siehe nachste Folie)

Skript befindet sich unter Aktuelle Veranstaltungen in Lerninhalt,Verteilungstabellen in der Bibliothek

Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 9 / 20

Page 10: Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

Kurs in CLIX buchen

In der linken Leiste auf Vorlesungen klicken

Dann auf Sommersemester 2012, Fakultat 4, 4.7 AllgemeineLinguistik, Computerlinguistik, Kurse fur B.Sc. Computerlinguistik

Rechts neben Mathematische Grundlagen III - Statistische Methodenauf den Einkaufskorb klicken

Danach in der Leiste auf Meine Kurse und auf Mein Warenkorb gehen

Ganz rechts unter Aktion auf das Symbol zum Buchen klicken

Im aufgehenden Fenster registrieren wahlen, dann Kurs starten

Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 10 / 20

Page 11: Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

Ende des organisatorischen Teils

und worum soll’s hier gehen?

Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 11 / 20

Page 12: Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

Was ist statistische Sprachverarbeitung?

Was ist statistische Sprachverarbeitung?

Anwendung von statistischen Methoden um Sprache zu verarbeiten

maschinelles Lernen (uberwacht, halbuberwacht, unuberwacht)

Gegenteil: regelbasierte Sprachverarbeitung

Was brauchen wir an Statistik?

Datenbeschreibung

Zufallsvariablen

schliessende Statistik

Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 12 / 20

Page 13: Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

Korpora und datenintensive Linguistik

Angenommen, wir wollen einen Parser bauen.

1. Moglichkeit: wir schreiben Regeln, wie die Worter zu Phrasenzusammengebaut werden.

Regeln von Hand zusammentragen: arbeitsintensivInteraktion zwischen RegelnAmbiguitat: “Ich sehe den Mann mit dem Fernrohr.”

2. Moglichkeit: wir lernen aus grossen Textmengen indem wirRegularitaten beobachten → Korpora

erlaubt Ubergenerierungalle Analysen werden bzgl. ihrer Wahrscheinlichkeit bewertetbeste Analyse findenuberwacht vs. unuberwacht: bessere Ergebnisse meist mit uberwachtenMethoden → annotierte Korpora

Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 13 / 20

Page 14: Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

Typische Anwendungsgebiete statistischer Methoden

Language Modelling

SpracherkennungRechtschreibkorrekturPOS Tagging: die richtige Wortart fur jedes Wort bestimmen

Parsing

Maschinelle UbersetzungDisambiguierungInformationsextraktion

Klassifikation

TextkategorisierungSpam FilterStimmungsanalyse (Sentiment Analysis)

Clustering

Welche Texte / Worter sind ahnlich oder verwandt

Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 14 / 20

Page 15: Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

Methods

nutzliche Methoden bei der Arbeit mit Korpora:

Unix Werkzeuge

Scripts

Suchwerkzeuge

notwendige Statistik:

Assoziationsmasse

Statistische Tests

Informationstheorie: Vorhersagbarkeit von Sprache

Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 15 / 20

Page 16: Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

Geschichte der statistischen Sprachverarbeitung

1940er, fruhe 1950er: sequentielle Modelle, Markovmodelle

1950er-1960er: Chomsky 1957 ”probabilistic models give no insightinto the basic problems of syntactic structure”1966 ALPAC report: keine Investition mehr in maschinelleUbersetzung

1970er-1980er: wenig statistische Arbeit im NLP Bereich, AusnahmeFred Jelinek’s Arbeitsgruppe bei IBM Watson; HMM und 3grammodels (Spracherkennung, maschinelle Ubersetzung)

1990er: Statistische Methoden werden zum dominanten Ansatz in derComputerlinguistik

2000er: drei verschiedene Communities (methodologisch)traditionelle AnsatzeAnwendung einfacher statistische MethodenEntwicklung von Methoden fur maschinelles Lernen im Bereich derSprachverarbeitung

Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 16 / 20

Page 17: Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

Erfolgsstories der statistischen Sprachverarbeitung

Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 17 / 20

Page 18: Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

Erfolgsstories der statistischen Sprachverarbeitung

Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 18 / 20

Page 19: Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

Erfolgsstories der statistischen Sprachverarbeitung

Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 19 / 20

Page 20: Vorbesprechung Mathe IIIvera/Vorbesprechung.pdf · Klassi kation Textkategorisierung Spam Filter Stimmungsanalyse (Sentiment Analysis) Clustering Welche Texte / W orter sind ahnlich

Ende

nachster Termin: Montag, 16 Uhr. Thema: Motivation statistischerAnsatze

Fragen?

(Folien dieser Vorlesung basieren auf Slides von Matt Crocker, GaranceParis, Hinrich Schutze)

Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 20 / 20