21
Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A.

Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

Embed Size (px)

Citation preview

Page 1: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

Korpusanalyseund Forschungsfrage

Korpusbasierte Wissenserschließung(Übung)

 im WS 2010/11von

Dr. phil. Helmuth Sagawe M.A.

Page 2: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

Definition von „Korpus“

• Korpus / Corpus [Neutr., Pl. Corpora; lat. corpus 'Körper']. Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprach-, soziologischen und kulturwissenschaftlichen Untersuchungen dienen.

• Angelehnt an: (Hadumod Bußmann (Hg.): Lexikon der Sprachwissenschaft. 3., aktualisierte und erweiterte Aufl. Kröner, Stuttgart 2002, ISBN 3-520-45203-0 )

Page 3: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

Reine Textkorpora

• Sie liegen in geschriebener Form vor. Das kann eine Sammlung von:

Texten sein, oder auch eine Sammlung von

transkribierter oder medial archivierter mündlicher Sprachäußerungen.

Page 4: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

Beispiele(teilweise kostenpflichtig)

• Korpora geschriebener Gegenwartssprache des IDShttp://www.ids-mannheim.de/kt/projekte/korpora/Bestand: über 2 Milliarden Token

• DWDS-Korpus http://www.dwds.de/Bestand: 1.2 Milliarden Token (intern), 100 Millionen Token (öffentlich)

• Schweizer Textkorpushttp://www.schweizer-textkorpus.ch/Im Testbetrieb besteht das Korpus nun aus etwa 10 Mio. Token. Im Endausbau sind 20 Mio. Token geplant.

• Dortmunder Chatkorpushttp://www.chatkorpus.uni-dortmund.de/Bestand: 1.1 Mio. Token aus 150'000 Chat-Beiträgen.

• British National Corpus (BNC)http://www.natcorp.ox.ac.uk/Bestand: über 100 Millionen Token

Page 5: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

Sprachkorpora

• Hier liegen die Daten nicht (nur) transkribiert vor, sondern auch als Audio- und/oder Videoaufnahmen. Die Daten sind dann mit phonetischen und linguistischen Informationen annotiert (angereichert).

Page 6: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

Beispiele

• Datenbank Gesprochenes Deutsch (DGD) des IDShttp://www.ids-mannheim.de/ksgd/dgd/Bestand: ca. 900 Videoaufnahmen, 16'300 Tonaufnahmen mit einer Gesamtdauer von 4400 Stunden, sowie 6650 Transkripte

• Diverse, meist englischsprachige Korpora, die aber oft nicht öffentlich zugänglich sind. Auswahl: http://www.korpuslinguistik.de/Öffentlich z.B.: MICASE - Michigan Corpus of Academic Spoken Englishhttp://www.lsa.umich.edu/eli/micase/index.htm

Page 7: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

Multimodale Korpora

• Sprachkorpora, die mit zusätzlichen Informationen wie:

Prosodien (die Gesamtheit spezifischer sprachlicher Eigenschaften wie Akzent, Intonation, Quantität (Sprech-) Pausen. Mimik, Gestik etc.) angereichert sind. Normalerweise als Videoaufnahme.

Page 8: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

Beispiele

• Archiv für Gesprochenes Deutsch des IDShttp://agd.ids-mannheim.de/Bestand: ca. 900 Videoaufnahmen, 16'300 Tonaufnahmen mit einer Gesamtdauer von 4400 Stunden, sowie 6650 Transkripte

Die Videoaufnahmen sind jedoch oft nicht öffentlich zugänglich.

•Datenbank mit Mundart

• Welche Erkenntnisse könnte man aus der Mundart-Datenbank schließen?

Page 9: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

Mögliche analytische Vorgehensweise für eine Untersuchung

Page 10: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

Formulierung von Forschungsfragen

• Die Forschungsfrage ist normalerweise relativ vage und weit gefasst. Z.B.:

- Nimmt geschriebene Sprache eigentlich immer mehr Formen des Gesprochenen an?

- Wie ist eigentlich die Einstellung der Leute zu Anglizismen im Deutschen?

- Gibt es eine ständige Veränderung, wie über Terror gesprochen wird?

- ……… - ………

Page 11: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

These

• Die Forschungsfrage wird zu einer oder mehreren Thesen zugespitzt, die man falsifizieren (als unrichtig) oder ggf. verifizieren ( als richtig) unter Berücksichtigung der Kontextbedingungen bezeichnen kann.

Page 12: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

Beispiel-Thesen• Bestimmte typische Merkmale gesprochener Sprache treten in bestimmten

Textsorten immer häufiger auf.

• Bezüglich der Einstellung zu Anglizismen sind in der Presse zwei typische Argumentationsmuster auszumachen:

1) Anglizismen im Deutschen sind etwas völlig natürliches und gehören zum

Sprachwandel. 2) Zuviel Fremdmaterial schadet dem Deutschen und es geht dabei unter.

• Die Semantik von z.B. Terror hat sich in den letzten 10 Jahren in der geschriebenen Sprache verändert:

Früher wurde unter "Terror" mehr, vor allem auch nicht gewalttätige oder kriegerische Vorgänge, gefasst, was heute kaum mehr der Fall ist.

Page 13: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

Operationalisierung

• Hier liegt die große Schwierigkeit des wissenschaftlichen Arbeitens:

Wie kann die These so operationalisiert werden, dass Faktoren erhoben werden können, die man konkret empirisch testen kann?

Immer wieder muss geprüft werden, ob die Operationalisierung tatsächlich die These falsifizieren oder verifizieren kann, ob sie also valide ist.

Page 14: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

Validität:

• Das Gemessene/Analysierte (die Aussage) sagt auch tatsächlich etwas über das aus, was man messen, analysieren möchte.

Page 15: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

Reliabilität

• Zudem muss die Analyse reliabel (zuverlässig) sein:

• Reliabilität: Das Messen/Analysieren muss bei einer Wiederholung zu einem anderen Zeitpunkt durch andere Personen, aber unter den gleichen Bedingungen und Regeln, zum gleichen Resultat führen.

Page 16: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

• Meist kann nur ein Teil der These operationalisiert werden und man muss versuchen, mit mehreren unterschiedlich gelagerten Analysen Hinweise für oder gegen die These zu finden. (Methodenmix)

Page 17: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

• Die erste der oben skizzierten Thesen könnten z.B. so operationalisiert werden:

• Bestimmte typische Merkmale der gesprochenen Sprache treten in unserem Korpus immer häufiger auf.Man könnte konkrete Phänomene gesprochener Sprache feststellen:

1. Satzabbrüche, Interjektionen.

Page 18: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

KorpusaufbauMethodenentwicklung

Pretest

• Welche Methode kann die zu operationalisierten Forschungsfragen beantworten. Es können mehrere Methoden angewandt werden, die man so gegeneinander abwägen muss.

• Operationalisierung, Korpusaufbau und Methodenentwicklung ist ein im Kreis laufender Prozess. Zudem sollte mit einem Pretest anhand eines Teilkorpus immer wieder überprüft werden, ob die angestrebte Methodik überhaupt funktioniert.

Page 19: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

Korpusanalyse, Evaluation / Interpretation

• Nun kann das gesamte Korpus analysiert und die Resultate hinsichtlich der Thesen evaluiert und interpretiert werden.

• Ggf. muss man die These und/oder die Operationalisierung korrigieren und den Analyseprozess wiederholen.

Page 20: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

Kleine Literaturauswahl• Bubenhofer, Noah (2009): Sprachgebrauchsmuster. Korpuslinguistik als Methode der

Diskurs- und Kulturanalyse. Berlin, New York: de Gruyter. ISBN 978-3-11-021584-7.

• Bubenhofer, Noah: „Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge“ – Online-Kurs: http://www.bubenhofer.com/korpuslinguistik/kurs/index.php?id=anwendungen_forschungsprozess.html

Page 21: Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A

• Aufgabe:

• Datenbank mit Mundarttexten

• Welche Erkenntnisse könnte man aus der Mundart-Datenbank schließen?

• Frage nach der Häufigkeit von Anglizismen?

• Vorgehensweise bei der Analyse?