Korpuslinguistik Ulrich Kaiser-Kaplaner. Was ist Korpuslinguistik? Korpuslinguistik ist Linguistik basierend auf einer großen Textsammlung = Korpus KL

Embed Size (px)

Citation preview

  • KorpuslinguistikUlrich Kaiser-Kaplaner

  • Was ist Korpuslinguistik?Korpuslinguistik ist Linguistik basierend auf einer groen Textsammlung = KorpusKL ist ein Bindeglied zwischen klassischer Linguistik und CL.Viele CL Anwendungen basieren auf KLKL liefert statistische Informationen fr CL (z.B. fr Disambiguierung)

  • Zwei Forschertypen: 1. Der DenkerEr verbringt die meiste Zeit in seinem Sessel und denkt nach. Seine Sprachtheorie wird durch Beispiele, die unmittelbar seiner Sprachkompetenz entspringen, besttigt oder widerlegt.

  • Zwei Forschertypen: 1. Der DenkerDas Urteil kompetenter Sprecher ist bedeutend (z.B. Aufbau der Grammatik) Herzlich wenig Interesse fr uerungen, die tagtglich produziert werden. Sie sind wenig erleuchtend fr seine Theorie.Noam Chomsky: Scharfsinniger Theoretiker (Universalgrammatik)

  • Kompetenz vs PerformanzUnter Sprachkompetenz versteht man die Fhigkeit eines Sprechers, wohlgeformte Stze aufgrund von Sprachregeln zu bilden. Chomsky spricht auch von I(nternalisierter) Sprache undversteht darunter ein Regelsystem (z. B. Phrasenstrukturregeln und Transformationen), das alle grammatischen Stze generieren kann und alle ungrammatischen Stze zurckweist.Mglichkeit: eine unendliche Menge von uerungen hervorzubringen.

  • Kompetenz vs PerformanzUnter Performanz versteht man die Summe der Sprachuerungen, die ein Sprecher einer Sprache von sich gibt. Noam Chomsky spricht auch von E(xternalisierter) Sprache, eine extrem lange Auflistung aller Stze, die in irgendeinem Kontext je geuert wurden.Kompetenz wird auch als Langue, Performanz auch als Parole bezeichnet. (Ferdinand de Saussure)

  • Zwei Forschertypen: 2. Der BeobachterDer Beobachter ist an authentischen Sprachdaten interessiert:Je mehr Daten, desto besser.Die Theorien, die er entwickelt, sind auf Beobachtung dieser Daten gesttzt.Groes Interesse an Phnomenen, die in unserem alltglichen Sprachgebrauch vorkommen.

  • Theorie und Empirie

    Theoretische Linguisten: Noam Chomsky bezeichnet das Werk der Korpuslinguistik als irrelevant und nutzlos. Empirisch arbeitende Linguisten: Wer Korpuslinguistik betreibt, dem geht es in erster Linie um das Beobachten und Beschreiben sprachlicher Phnomene.

  • Definition: KorpusEin Korpus ist eine Sammlung schriftlicher oder gesprochener uerungen. Die Daten des Korpus sind typischerweise digitalisiert.Bestandteile: Texte Metadaten (Auskunft ber Autoren,Sprecher)linguistische Annotationen (gramm.Funktion)

  • Definition: KorpuslinguistikBeschreibung von uerungen natrlicher Sprachen, ihrer Elemente und StrukturenTheoriebildung auf der Grundlage von Analysen authentischer TexteGebiete: Sprachunterricht, Sprachdokumentation, Lexikographie etc. W. Labov (1966): The Social Stratification of English in New York City

  • Kritik am Wert von KorpusdatenReprsentativittRelevanz der Datenunvollstndige DatenabdeckungVerlsslichkeit der DatenWie geht man mit der Existenz nicht wohlgeformter uerungen und mit dem Fehlen wohlgeformter uerungen um?-> Sprecherbefragungen

  • KontextualismusLinguistische Erkenntnis geht vom Sprachgebrauch ausJohn Sinclair: ehemaliger Chefredakteur des Collins Cobuild English Dictionary Ko- und Kontext spielen fr die Untersuchung sprachlicher Handlungen eine zentrale RolleJohn Rupert Firth (1890-1960)

  • Ko- und Kontext: John Rupert Firth Ko- und Kontext: John Rupert FirthKontext: Summe der unmittelbaren Rahmenbedingungen einer SprachhandlungKultureller Kontext: steuert die Art und Weise, wie Sprecher sprachliche Handlungen wahrnehmen. Situativer Kontext: determiniert die Funktion einer konkreten sprachlichen Handlung: Ort, Zeit und die Beteiligten

  • Ko- und Kontext: John Rupert Firth Ko- und Kontext: John Rupert FirthDer Kotext einer linguistischen Einheit ist die Menge der linguistischen Einheiten, die im gleichen Text verwendet wurden.Firth: Kotext von Wrtern und Stzen auf vier Ebenen untersucht:Phonetik u. Phonologie, Morphologie, Syntax und Lexik.Kollokation: das faktische Miteinandervorkommen zweier oder mehrerer beliebiger Wrter W+W

  • Korpusbasierte AnstzeWir unterscheiden drei Anstze in der KorpusanalyseDer korpusbasierte, quantitative AnsatzKein Theoretischer RahmenExtrem empirischKorpus in RohformVerarbeitung gesprochener Sprache, statistische Sprachmodelle (Landauer, Jelinek)

  • Korpusbasierte AnstzeKorpusbasiert, quantitativ und qualitativ: Theoretischer Rahmen: Kontextualismus (Firth und Sinclair)Korpus in Rohform (nicht linguistisch annotiert)Kollokator-Paare -> SemantikAnwendungsgebiet: Lexikographie, Sprachunterricht, bersetzungswissenschaft

  • Korpusbasierte AnstzeKorpusgesttz:Strukturalismus (Saussure), Generative Grammatik (Chomsky), rationalistischLinguistisch annotiertes KorpusVon den theoretischen Aussagen ausgehendDomne: SyntaxAnwendung: Lexikographie, theoretische L.

  • Korpuslinguistik in der PraxisErstellen eines KorpusVorhandene Korpora: British National CorpusWahl der Texte:Welche Texte nehme ich? -> Qualitt: gemeinsames Thema, gemeinsames Medium, Wieviele Texte brauche ich? ->Quantitt

  • Textdateien Dateien sollte in Textdateine umgewandelt werden. MS Word Dateien (*.DOC) sollten vermieden werden.*.TXT Dateien erstellen: MS Word ffnen, dann unter Datei->Speichern unter und Nur Text auswhlen -> Name eingeben und speichern. Texte separat abspeichern (um Teile einzeln analysieren zu knnen -> qualitativ)

  • Textdateien

  • Erstellen eines KorpusTexte aus dem Internet: Kopieren und Einfgen in MS Word. Bilder und Graphiken knnen ignoriert werden, weil sie beim Umwandeln in *TEXT ohnehin verloren gehen.Gedruckte Texte einscannen mit Hilfe von OCR-Software (Optical Character Recognition)

  • Text annotierenAnnotationen werden als solche vom Programm markiert: nicht zugehrig zum regulren TextBeginn eines Absatzes mit: markierenEnde eines Absatzes mit: markierenItalics: und berschriften: und Zitate: und

  • Text annotierenZustzliche Infos : und (z.B. Herkunft und Alter des Autors)

  • WORD SMITH 3.0Programm zur Analyse elektronischer Textkorpora, liefert Infos ber die wichtigsten und meistverwendeten Wrter und ber die Umgebung, in der sie vorkommenWordlister:Alle Wrter eines Korpus werden aufgelistet, Statistische Informationen

  • Word Smith 3.0Um zu starten: Auf das grne Licht klicken und dann Choose texts. Das folgende Fenster wird geffnet:

  • Word Smith 3.0 Choose Texts

  • Klicken auf Make a word list now

  • Word list: alphabetisch geordnet

  • Word list geordnet nach Frequenz

  • Word list: statistische Information

  • Word Smith 3.0 Word list [S]Types: unterschiedliche WrterTokens: einzelne Vorkommen eines WortesDie Reihe love love love beinhaltet beispielsweise 1 Type und 3 TokensEin Wort wird als eine Aneinanderreihung von Buchstaben definiert: door und doors sind zwei unterschiedliche Wrter

  • Stop ListWie in der frequency list ersichtlich ist, sind die hufigsten Wrter gramatische Wrter, wie Artikel und Pronomen. Um sich auf Inhaltswrter konzentrieren zu knnen, gibt es Stop lists.Stop Lists beinhalten alle Wrter, die vom Programm ignoriert werden sollen.Klick auf Settings, Stoplist dann Browse um die Stop list zu lokalisieren, Activated Box muss ein Hackerl haben und dann auf Browse

  • Stop List

  • Word list mit Inhaltswrtern (Verwendung einer stoplist)

  • ClustersSettings-> auf irgend ein Element klicken, dann auf den Tab mit Wordlist klicken, -> dann auf CLUSTERS klicken: und die gesuchte Lnge der Clusters eingeben: (hier im Beispiel 4) Nun werden die hufigsten 4-Wort-Kombinationen angezeigt. Activated box anklicken und auf OK gehen.

  • Clusters

  • Clusters im Intelligent Design Corpus

  • Whle zuerst die Texte aus (wie im Word lister) und gehe auf Specify Search-Word

  • Welche Wrter kommen unmittelbar in der Umgebung des Suchwortes vor? Klick auf Horizons, etc.

  • Presentation-OutlineBackground information about the social problems of African girls and HIV infectionAfrican girls conception of HIV Risk Sugar daddy: a conceptual metaphorIndepth-Analysis of one textTextual eventsText populations Picture AnalysisIdeological functions and conclusions

  • My Rape myths corpus

  • Thank you for your attention!