Text Mining auf annotierten Texten Prof. Dr. Brigitte Mathiak

Text Mining auf annotierten Texten

Prof. Dr. Brigitte Mathiak

Was ist Text Mining?• Die Kunst aus Text etwas maschinenverwertbares zu machen

• Methodisch an der Schnittstelle zwischen Natural Language Processing und Data Mining

• Grundkenntnisse in Computerlinguistik, aber auch in KI sind hilfreich

Was kann man mit Text Mining machen?• Klassische sind Textklassifikation (z.B. Spam) und Themenanalyse (z.B.

für Verzeichnisse)• Man kann allerdings auch andere Daten miteinbeziehen (z.B. Zeit) und

dann Trendanalysen machen• Oft sucht man nicht nach Klassen, sondern versucht besonders

ähnliche oder besonders unähnliche Dokumente zu finden• Mit Hilfe von Extrawissen, z.B. Wortdatenbanken, kann man auch

spezielle Einschätzungen machen, z.B. ob jemand ein Thema positiv oder negativ sieht

Annotated Text• An annotation is metadata (e.g. a comment, explanation,

presentational markup) attached to text, image, or other data. Often, annotations refer to a specific part of the original data. (Wikipedia)• Der wohl häufigste annotierte Text sind Webseiten, bei denen

Informationen zu Layout, etc. in HTML codiert sind. • Hier sind wir an inhaltlichen Annotationen interessiert, wenn also ein

Mensch ein oder mehrere Worte mit einem Kommentar versehen haben

QDA-Software und annotierte Textkorpora Hauptseminar

Text Mining auf annotierten Texten

Universität zu Köln

Cologne Center for eHumanities (CCeH)University of Cologne

Qualitative Datenanalyse• wird in vielen sozial- und geisteswissenschaftlichen Disziplinen angewendet • ermöglicht vertiefte Einblicke in beobachtete Phänomene mittels z.B.

• offener oder (semi-)strukturierter oder problemzentrierter Interviews, Experteninterviews und Gruppendiskussionen

• qualitativer Inhalts- und Diskursanalyse (z.B. Medien etc.)

• KEINE generalisierende Schlüsse aufgrund meist geringer Fallzahlen und Sampling Bias

QDA-Software• ist zunächst lediglich eine Datenbank in Kombination mit spezifischen Funktionen

für Annotation (drag&drop), Editierung und Visualisierung• gibt keine bestimmte Methode der Analyse vor, beeinflusst aber deren Optionen

sowie den Arbeitsstil• Funktionalität ist insbesondere im Hinblick auf Export durchaus heterogen (XML

bei Max QDA und Atlas.ti, HTML nur pro Code/ „node“ bei NVivo)

Universität zu KölnCologne Center for eHumanities (CCeH)University of Cologne

Atlas.ti

Universität zu KölnCologne Center for eHumanities (CCeH)University of Cologne

MaxQDA #1 Qual. Interview

MaxQDA #2: Inhaltsanalyse

MaxQDA #3 Diskursanalyse

MaxQDA #4 eTRACES (GESIS)

Vorhandene DatensätzeMaxQDA:

- Forschungsdaten mit Codesystem im zeitl. Verlauf (5)- Beispieldaten (3)

Nvivo:- Forschungsdaten (3) - Beispieldaten (?)

Atlas.ti:- Beispieldaten (5)

Mögliche Forschungsbereiche1.Prediction Codes2.Prediction Codenamen/ -konzepte3.Modellierung in TEI4.Evolution von Codesystemen (-kategorien)5.Linguistische Analysen von Codes6.Code-Kontext7.Individualität (Prediction Coder)8.Unterschiedliche Akzente MaxQDA, atlas.ti, NVivo

Der Aufbau• Zweier- oder Dreiergruppen mit gemischten Erfahrungen• Thema soll praktisch bearbeitet werden• Es wird evtl. keine „gute“ Lösung geben, daher ist es wichtig den Weg

zu dokumentieren• Eine der angewendeten Lösungsmethoden soll theoretisch

aufgearbeitet werden • Im Vortrag und im Seminar wird dann beides vorgestellt

Vortrag und Hausarbeit• Vortrag: 20 min + 10 min Diskussion

• Einen Entwurf der Folien brauche ich spätestens eine Woche vor dem Vortragstermin• 2 bis 3 Vortragstermine am Ende des Semesters bei denen dann alle geblockt

vortragen

• Ausarbeitung: • Ca. 20 Seiten• Ein Teil in dem die Zusammenarbeit und Arbeitsaufteilung im Team beschrieben wird

(z.B. Evelyn hat programmiert, ich habe die Recherchen gemacht und den Text geschrieben, Friedrich hat 500 Dokumente gelabelt)

• Mindestens 3 echte wissenschaftliche Papiere referenzieren• Abgabe am Ende des Semesters; Maximale Verlängerung mit Ausrede bis zum 1.4.16

Bewertung1. Eigenständiges Arbeiten und Recherchieren2. Witzige Ideen3. Gute Kommunikation4. Fleiß5. Schönes Layout6. Gute Ergebnisse

Themen1.Prediction Codes2.Prediction Codenamen/ -konzepte3.Modellierung in TEI4.Evolution von Codesystemen (-kategorien)5.Linguistische Analysen von Codes6.Code-Kontext7.Individualität (Prediction Coder)8.Unterschiedliche Akzente MaxQDA, atlas.ti, NVivo

Text Mining auf annotierten Texten Prof. Dr. Brigitte Mathiak

Documents

Arbeitsbereich NATS Prof. Menzel Seminar Data Mining · Simon Boese – Datenschutzgerechtes Data Mining 10 Seminar Data Mining Prof. Menzel Arbeitsbereich NATS Problemstellung Data

Data Mining Studie - mayato.com · Die Bewertung umfasst bewusst Data-Mining-Produkte aus gänzlich unterschiedlichen Toolkategorien (siehe Abb.1): Die klassische Data-Mining-Suite

1 Einführung in Datenbanken Dozentin: Dr. Brigitte Mathiak (mathiak@gmail.com) Übungsbetreuung: TBA

thyssenkrupp Mining Technologies

Text Mining Dr. Brigitte Mathiak. Was ist Text Mining? Die Kunst aus Text etwas maschinenverwertbares zu machen Methodisch an der Schnittstelle zwischen

Newmont Mining zählt zu den weltweit größten Produzenten ... · 2 Newmont Mining - Aktienüberblick Newmont Mining - Aktienüberblick 1.Überblick Newmont Mining zählt zu den

Dr. Brigitte Mathiak Kapitel 6 Anbindung an Anwendungen

Online texten seminar

Dr. Brigitte Mathiak Kapitel 10 Physische Datenorganisation

MINING REPORT

Dr. Brigitte Mathiak Kapitel 7 Relationale Entwurfstheorie

Dr. Brigitte Mathiak Kapitel 4 Grundlagen des relationalen Datenmodells

Dr. Brigitte Mathiak Kapitel 9 Physische Datenorganisation (ganz kurz)

Educational Data Mining: Möglichkeiten und Unmöglichkeiten · Educational Data Mining: Möglichkeiten und Unmöglichkeiten EDM vs. LA • Educational Data Mining (EDM) • Anwendung

Stream Mining: Clustering von Streamdaten fileMatthias Biehl Stream Mining: Clustering von Streamdaten- 2 Stream Mining Beispiele Herkömmliches Clustering Stream Clustering-Eigenschaften-Lösungsansatz

Dr. Brigitte Mathiak Kapitel 2 Daten- und Informationsmodellierung

BERGBAU | MINING · 2020. 1. 6. · Road Milling Surface Mining Surface Mining Stabilisieren Stabilising Grabenfräsen Trenching Spezialtiefbau Foundation Drilling Bergbau Mining

Opinion Mining - Paper · W ahrend beim Data Mining keine groˇen Schwankungen festzustellen sind, liegt dem Text Mining und vorallem dem Opinion Mining eine groˇe Dynamik zugrunde

Landfill Mining – Option oder Fiktion...Potential Landfill Mining im Vergleich mit aktuellen Massenströmen Workshop „Landfill Mining – Option oder Fiktion?“, Berlin 10. Februar

Dr. Brigitte Mathiak Kapitel 8 Datenintegrität, Views und Zugriffsrechte