Upload
ernst-sternberg
View
225
Download
2
Embed Size (px)
Citation preview
Text Mining auf annotierten Texten
Prof. Dr. Brigitte Mathiak
Was ist Text Mining?• Die Kunst aus Text etwas maschinenverwertbares zu machen
• Methodisch an der Schnittstelle zwischen Natural Language Processing und Data Mining
• Grundkenntnisse in Computerlinguistik, aber auch in KI sind hilfreich
Was kann man mit Text Mining machen?• Klassische sind Textklassifikation (z.B. Spam) und Themenanalyse (z.B.
für Verzeichnisse)• Man kann allerdings auch andere Daten miteinbeziehen (z.B. Zeit) und
dann Trendanalysen machen• Oft sucht man nicht nach Klassen, sondern versucht besonders
ähnliche oder besonders unähnliche Dokumente zu finden• Mit Hilfe von Extrawissen, z.B. Wortdatenbanken, kann man auch
spezielle Einschätzungen machen, z.B. ob jemand ein Thema positiv oder negativ sieht
Annotated Text• An annotation is metadata (e.g. a comment, explanation,
presentational markup) attached to text, image, or other data. Often, annotations refer to a specific part of the original data. (Wikipedia)• Der wohl häufigste annotierte Text sind Webseiten, bei denen
Informationen zu Layout, etc. in HTML codiert sind. • Hier sind wir an inhaltlichen Annotationen interessiert, wenn also ein
Mensch ein oder mehrere Worte mit einem Kommentar versehen haben
QDA-Software und annotierte Textkorpora Hauptseminar
Text Mining auf annotierten Texten
Universität zu Köln
Cologne Center for eHumanities (CCeH)University of Cologne
Qualitative Datenanalyse• wird in vielen sozial- und geisteswissenschaftlichen Disziplinen angewendet • ermöglicht vertiefte Einblicke in beobachtete Phänomene mittels z.B.
• offener oder (semi-)strukturierter oder problemzentrierter Interviews, Experteninterviews und Gruppendiskussionen
• qualitativer Inhalts- und Diskursanalyse (z.B. Medien etc.)
• KEINE generalisierende Schlüsse aufgrund meist geringer Fallzahlen und Sampling Bias
Universität zu Köln
Cologne Center for eHumanities (CCeH)University of Cologne
QDA-Software• ist zunächst lediglich eine Datenbank in Kombination mit spezifischen Funktionen
für Annotation (drag&drop), Editierung und Visualisierung• gibt keine bestimmte Methode der Analyse vor, beeinflusst aber deren Optionen
sowie den Arbeitsstil• Funktionalität ist insbesondere im Hinblick auf Export durchaus heterogen (XML
bei Max QDA und Atlas.ti, HTML nur pro Code/ „node“ bei NVivo)
Universität zu Köln
Cologne Center for eHumanities (CCeH)University of Cologne
Universität zu KölnCologne Center for eHumanities (CCeH)University of Cologne
Atlas.ti
Universität zu KölnCologne Center for eHumanities (CCeH)University of Cologne
NVivo
MaxQDA #1 Qual. Interview
Universität zu Köln
MaxQDA #2: Inhaltsanalyse
Universität zu Köln
MaxQDA #3 Diskursanalyse
Universität zu Köln
MaxQDA #4 eTRACES (GESIS)
Universität zu Köln
Vorhandene DatensätzeMaxQDA:
- Forschungsdaten mit Codesystem im zeitl. Verlauf (5)- Beispieldaten (3)
Nvivo:- Forschungsdaten (3) - Beispieldaten (?)
Atlas.ti:- Beispieldaten (5)
Universität zu Köln
Cologne Center for eHumanities (CCeH)University of Cologne
Mögliche Forschungsbereiche1.Prediction Codes2.Prediction Codenamen/ -konzepte3.Modellierung in TEI4.Evolution von Codesystemen (-kategorien)5.Linguistische Analysen von Codes6.Code-Kontext7.Individualität (Prediction Coder)8.Unterschiedliche Akzente MaxQDA, atlas.ti, NVivo
Universität zu Köln
Cologne Center for eHumanities (CCeH)University of Cologne
Der Aufbau• Zweier- oder Dreiergruppen mit gemischten Erfahrungen• Thema soll praktisch bearbeitet werden• Es wird evtl. keine „gute“ Lösung geben, daher ist es wichtig den Weg
zu dokumentieren• Eine der angewendeten Lösungsmethoden soll theoretisch
aufgearbeitet werden • Im Vortrag und im Seminar wird dann beides vorgestellt
Vortrag und Hausarbeit• Vortrag: 20 min + 10 min Diskussion
• Einen Entwurf der Folien brauche ich spätestens eine Woche vor dem Vortragstermin• 2 bis 3 Vortragstermine am Ende des Semesters bei denen dann alle geblockt
vortragen
• Ausarbeitung: • Ca. 20 Seiten• Ein Teil in dem die Zusammenarbeit und Arbeitsaufteilung im Team beschrieben wird
(z.B. Evelyn hat programmiert, ich habe die Recherchen gemacht und den Text geschrieben, Friedrich hat 500 Dokumente gelabelt)
• Mindestens 3 echte wissenschaftliche Papiere referenzieren• Abgabe am Ende des Semesters; Maximale Verlängerung mit Ausrede bis zum 1.4.16
Bewertung1. Eigenständiges Arbeiten und Recherchieren2. Witzige Ideen3. Gute Kommunikation4. Fleiß5. Schönes Layout6. Gute Ergebnisse
Themen1.Prediction Codes2.Prediction Codenamen/ -konzepte3.Modellierung in TEI4.Evolution von Codesystemen (-kategorien)5.Linguistische Analysen von Codes6.Code-Kontext7.Individualität (Prediction Coder)8.Unterschiedliche Akzente MaxQDA, atlas.ti, NVivo