29
Prof. Myra Spiliopoulou Handelshochschule Leipzig Chemnitz Chemnitz, 22.06.01 , 22.06.01 Textstrukturierung mit Data-Mining- Verfahren Textstrukturierung mit Data-Mining- Verfahren

New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

Prof. Myra Spiliopoulou

Handelshochschule Leipzig

ChemnitzChemnitz, 22.06.01, 22.06.01

Textstrukturierung mit Data-Mining-

Verfahren

Textstrukturierung mit Data-Mining-

Verfahren

Page 2: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

2

Das DFG-Projekt DIAsDEMDas DFG-Projekt DIAsDEM

Ziel:Integration von Altlastdaten und Texten von mehreren Quellen in ein Informationssystem

Methodik: Data Mining

Die Forschungsgruppen:

HHL:• Myra Spiliopoulou• Karsten Winkler• Henner Graubitz (HiWi)

LMU:• Stefan Conrad• Evgenia Altarewa

Page 3: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

3

AgendaAgenda

• Texteinträge in einem Informationssystem --

Was bedeutet „Integration“ ?

• Knowledge-Discovery-from-Texts in DIAsDEM

Das DIAsDEM Workbench

• Eine Fallstudie

Page 4: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

4

Integration von Texten in ein ISIntegration von Texten in ein IS

Der Betrieb von Spielhallen in Teltow und das Aufstellen von Geldspiel- und Unterhaltungsautomaten. Stammkapital: 25.000 EUR. Gesellschaft mit beschränkter Haftung. Der Gesellschaftsvertrag ist am 12. November 1998 abgeschlossen und am 19. April 1999 abgeändert.(...) Pawel Balski, 14.04.1965, Berlin, ist zum Ge-schäftsführer bestellt. Er vertritt dieGesellschaft stets einzeln und (...)

Daniel Spiel-Center GmbHPotsdamer Str. 94, 14513 Teltow

HRB 1257606.05.99

Page 5: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

5

Integration von Texten in ein ISIntegration von Texten in ein IS

• Die Eintragung in das Handelsregister ist obligatorisch für Unternehmen in Deutschland.

• Für jedes Unternehmen existieren mehrere Eintragungen, und zwar beim Handelsgericht jeder Niederlassung.

• Die Angaben in den Handelsregistern sind gesetzlich bindend.

• Jede Eingabe kann Angaben eines früheren Eintrags (zum Teil) aufheben.

Page 6: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

6

Integration von Texten in ein ISIntegration von Texten in ein IS

Der Betrieb von Spielhallen in Teltow und das Aufstellen von Geldspiel- und Unterhaltungsautomaten. Stammkapital: 25.000 EUR. Gesellschaft mit beschränkter Haftung. Der Gesellschaftsvertrag ist am 12. November 1998 abgeschlossen und am 19. April 1999 abgeändert. (...) Pawel Balski, 14.04.1965, Berlin, ist zum Ge-schäftsführer bestellt. Er vertritt dieGesellschaft stets einzeln und (...)

Wer sind die Geschäftsführer von Daniel Spiel-Center GmbH ?

sowie alle weitere Personen, die früher dazu bestellt wurden und deren Bestellung nicht rückgängig gemacht worden ist.

Page 7: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

7

Integration von Texten in ein ISIntegration von Texten in ein IS

Erwünschte Funktionalität für ein HRG-IS:

• Das Suchergebnis soll alle relevante Eintragungen enthalten.

• Es soll keine unrelevante Eintragungen enthalten.

• Nur die gesuchten Angaben sollen gezeigt werden, der Rest des Textes soll nur nach Aufforderung erscheinen.

Page 8: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

8

Integration von Texten in ein ISIntegration von Texten in ein IS

Der DIAsDEM Vorschlag:

• Semantische Auszeichnung der Texte in XML

mit Data Mining Verfahren

• Ableitung einer DTD für das Textarchiv

• Überführung des Textarchivs zu einer Sammlung semistrukturierter Dokumente

• Anwendung einer XML-basierten Anfragesprache für die Suche über die Dokumentensammlung

Page 9: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

9

KDT in DIAsDEMKDT in DIAsDEM

• Gruppierung aller Textelemente, die sich mit demselben Thema befassen

• Inhaltliche Charakterisierung jeder Gruppe

• Identifizierung von wichtigen Entitäten in den einzelnen Textelementen

• Zusammenführung der Gruppennamen und Entitätenbeschreibungen in einer DTD

Semantische Auszeichnung von Texten in XML:

Element := Satz

Labeling

Named-Entity Extraction

Page 10: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

10

KDT in DIAsDEMKDT in DIAsDEM

Clustering

Aufbereitungsphase

Identifizierte Entitäten

ClustererXML DTDSätze mit XML-Tags

Alle Sätze aller Dokumente im Archiv

Cluster Labeling

XML Dokumente

Page 11: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

11

KDT in DIAsDEM (Input)KDT in DIAsDEM (Input)

Aufbereitungsphase

TextsätzeThesaurusReferenz-schema

Entitäts-beschreibungen

bestellenGeschäftsführerGesellschaftGesellschafterProkuraProkurist

Datum = DD Monat YY

Page 12: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

12

KDT in DIAsDEM (Prep)KDT in DIAsDEM (Prep)

Referenz-schema

Aufbereitungsphase

TextsätzeThesaurusEntitäts-

beschreibungen

Pawel Balski,14.04.1965,Berlin,ist zum Geschäftsführer bestellt.

1. Ausblendung aller erkannten Entitäten

2. Abbildung aller Wörter auf ihre WortstämmePERSON, DATUM, ORT, sein zu Geschäftsführer bestellen.

3. Vektorisierung der Sätze anhand des Thesaurus<bestellen, Geschäftsführer, Gesellschaft, Prokura>

1 1 0 0

PERSON,DATUM, ORT,ist zum Geschäftsführer bestellt.

Page 13: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

13

KDT in DIAsDEM (Mining)KDT in DIAsDEM (Mining)

Clustering

Referenz-schema

Aufbereitungsphase

TextsätzeThesaurusEntitäts-

beschreibungen

Inhomogene Gruppen

Homogene Gruppen

Page 14: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

14

Iteratives ClusteringIteratives Clustering

• Gruppierung der Vektoren nach einem Ähnlichkeitsmaß

• Evaluation der Qualität der erzeugten Clusters

• Ausblendung aller Vektoren, die zu “guten” Clusters gehören.

• Wiederholung des Gruppierungsvorgangs für die übriggebliebenen Vektoren

nach Anpassung der Steuerungsparameter

Page 15: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

15

Cluster QualitätCluster Qualität

• Qualitätskriterien:

* Hohe Ähnlichkeit innerhalb des Clusters

+ Große Anzahl von Vektoren im Cluster

+ Kleine Anzahl von dominierenden Begriffen

• weil: Cluster = = DTD Komponente

+ Ein XML-Tag kann erst dann effektiv genutzt werden, wenn es oft im Archiv vorkommt.

+ Ein XML-Tag soll einen sinnvollen und intuitivenBegriff darstellen.

Page 16: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

16

Cluster QualitätCluster Qualität

• Prozentsatz der auftretenden Begriffe im Cluster zu der Gesamtzahl der Begriffe im Thesaurus

• Prozentsatz der häufig auftretenden Begriffe im Cluster zu der Anzahl aller Begriffe im Cluster

Zwei Kennzahlen für das dritte Qualitätskriterion:

Page 17: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

17

KDT in DIAsDEM (Labeling)KDT in DIAsDEM (Labeling)

Clustering

Referenz-schema

Aufbereitungsphase

TextsätzeThesaurusEntitäts-

beschreibungen

Inhomogene Gruppen

Homogene Gruppen

Cluster Labeling XML DTD

Page 18: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

18

Cluster LabelingCluster Labeling

• Gruppe I: Begriffe, die sehr häufig im Cluster auftreten

• Gruppe II: Weitere Begriffe, die vom Clustering Algorithmus als signifikant bezeichnet wurden

nach Häufigkeit geordnet,und dem Experten zur Auswahl vorgeschlagen.

Die Begriffe im Cluster werden gruppiert:

ClusterLabel

Referenz-schema

Page 19: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

19

HRG Text mit XML MarkierungHRG Text mit XML Markierung

Der Betrieb von Spielhallen in Teltow und das Aufstellen von Geldspiel- und Unterhaltungsautomaten.(...)<GeschäftsführerBestellen>Pawel Balski,14.04.1965, Berlin, ist zum Geschäftsführerbestellt</GeschäftsführerBestellen>.<Vertretung>Er vertritt dieGesellschaft stets einzeln und (...)</Vertretung>

Daniel Spiel-Center GmbHPotsdamer Str. 94, 14513 Teltow

HRB 1257606.05.99

Page 20: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

20

KDT in DIAsDEM (NEEX)KDT in DIAsDEM (NEEX)

Clustering

Referenz-schema

Aufbereitungsphase

TextsätzeThesaurusEntitäts-

beschreibungen

Inhomogene Gruppen

Homogene Gruppen

Cluster Labeling XML DTD

XML Dokumente

NEEX

Entitäten

Page 21: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

21

NEEXNEEX

• entdeckt

– Namen von Personen, Unternehmen und Ortschaften

– Datumsangaben und Geldbeträge

• mit Hilfe

– eines Regelsatzes

– des Postbuchs

– des Telefonbuchs

Der Named-Entity-EXtractor

Page 22: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

22

HRG Text mit XML MarkierungHRG Text mit XML Markierung

Der Betrieb von Spielhallen in Teltow und das Aufstellen von Geldspiel- und Unterhaltungsautomaten.(...)<GeschäftsführerBestellenPerson=“Pawel Balski” Datum=“14.04.1965”Ort=“Berlin”>Pawel Balski,14.04.1965,Berlin,ist zum Geschäftsführer bestellt</GeschäftsführerBestellen>.<Vertretung>Er vertritt dieGesellschaft stets einzeln und (...)</Vertretung>

Daniel Spiel-Center GmbHPotsdamer Str. 94, 14513 Teltow

HRB 1257606.05.99

Page 23: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

23

Das DIAsDEM WorkbenchDas DIAsDEM Workbench

Clustering

Referenz-schema

DIAsDEM Preprocessor

TextsätzeThesaurusEntitäts-

beschreibungen

Inhomogene Gruppen

Homogene Gruppen

Cluster Labeling XML DTD

XML Dokumente

NEEX

Entitäten

DIAsDEM Monitor

Page 24: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

24

FallstudieFallstudie

• HRG Eintragungen zu Neugründungen im Jahr 1999

– 1,145 Dokumente

– 10,785 Sätze

• Thesaurus mit 85 Begriffen

Semantische Aufzeichnung eines Datensatzes ausdem Handelsgericht Potsdam

Page 25: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

25

Fallstudie Fallstudie

• Aufbereitungsphase

– TreeTagger (IMS Stuttgart) : Stemming

– DIAsDEM Preprocessor: NEEX und Vektorisierung

• Iteratives Clustering

– IBM Intelligent Miner for Data: “demographic” clustering function

– DIAsDEM Monitor: 3 Iterationen über den Datensatz

• Ergebnis: 73 homogene Clusters

Page 26: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

26

Fallstudie Fallstudie

• Evaluation

– Fehlertyp I: Der XML-Tag eines Satzes entspricht nicht dem Inhalt

– Fehlertyp II: Ein Satz hat keinen XML-Tag, obwohl es einen passenden XML-Tag gibt

• Manuelle Inspektion von 5% der Dokumente

• Ergebnis

– Fehlertyp I: 0.375% im bearbeiteten Datensatz

– Fehlertyp II: 3.565% im bearbeiteten Datensatz

Page 27: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

27

Zusammenfassung und AusblickZusammenfassung und Ausblick

• Semantische Annotation von Texten in XML:

– Module zu Textaufbereitung: Entdeckung von wichtigen Entitäten und Vektorisierung

– Das DIAsDEM Monitor: Gruppierung von Textelementen in große und homogene Clusters, die durch eine kleine Anzahl von Begriffen beschrieben werden können

– Plug-in Konzept zur Anbindung von Mining Modulen und Textaufbereitungssoftware

• Eintragung der XML-markierten Texten in ein DBMS

Page 28: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

28

Zusammenfassung und AusblickZusammenfassung und Ausblick

• In Bearbeitung:

– Automatisierte Auswahl der Begriffe für den Vektorenraum durch Koppelung des Thesaurus mit dem Referenzschema

– Erweiterung des Ranking-Moduls für die Generierung von Labels

– Evaluierung mehrerer Clustering-Algorithmen und Ähnlichkeitsmaßstäbe

• Geplant: Ableitung von komplexen DTDs

Page 29: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten

29

Vielen Dank für Ihre Aufmerksamkeit !Vielen Dank für Ihre Aufmerksamkeit !

FragenMyra Spiliopoulou

[email protected]://ebusiness.hhl.de