25
PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis

PG 520 Intelligence Service

  • Upload
    donkor

  • View
    29

  • Download
    0

Embed Size (px)

DESCRIPTION

PG 520 Intelligence Service. Gezielte Suche im Internet. Forschung Praxis. Lehrstuhl für künstliche Intelligenz. Informationen im Internet. Suchmaschinen: Es werden nur Dokumente geliefert, die den Suchbegriff enthalten. - PowerPoint PPT Presentation

Citation preview

Page 1: PG 520 Intelligence Service

PG 520Intelligence Service

Gezielte Suche im Internet

Lehrstuhl für künstliche Intelligenz

Forschung Praxis

Page 2: PG 520 Intelligence Service

Informationen im Internet

• Suchmaschinen:– Es werden nur Dokumente geliefert, die den

Suchbegriff enthalten. – Die Seiten sind von sehr unterschiedlicher

Qualität. – Vorwissen über zuverlässige Seiten und ihre

Struktur wird nicht ausgenutzt.

Page 3: PG 520 Intelligence Service

Intelligence Service

• Zusammenhänge zwischen Dokumenten:– Firmen wollen ihre Konkurrenz beobachten.– Anleger wollen eine Entwicklung verfolgen.– Bürger wollen wissen, wie es zu einer

Entscheidung in der Politik kam.

• Direkte Fragebeantwortung:– Innerhalb des Dokuments muss die betreffende

Textstelle gefunden werden! Forschungsthema Named Entity Recognition!

Page 4: PG 520 Intelligence Service
Page 5: PG 520 Intelligence Service
Page 6: PG 520 Intelligence Service

16.Wahlperiode, Drucksache, Antrag

Typ

Drs-Nr.

Fraktion

Page 7: PG 520 Intelligence Service

16.Wahlperiode, Drucksache, Antrag

Typ

Person

Drs-Nr.

Page 8: PG 520 Intelligence Service

16.Wahlperiode, 57. Sitzung, 19.10.2006, TOP 5

16/267

16/2790

Page 9: PG 520 Intelligence Service

Direkte Fragebeantwortung

• Der Antrag der FDP zur Entsorgung radioaktiven Abfalls wurde abgelehnt.

• Der Antrag der Grünen zur ergebnisoffenen Standortwahl für Endlagerung radioaktiven Mülls wurde an Ausschüsse verwiesen.

Für diese Antworten braucht man manuell 7 Stunden

Page 10: PG 520 Intelligence Service

PG-Arbeit

• Gezielte Recherche gemäß der Struktur bestimmter Webserver (Suchanfragen)

• Indexierung gemäß bestimmter Entitäten:Themen, Personen, Orte, Firmen...

• Named Entity Recognition:– Einige Dokumente nach Entitäten annotieren,

– maschinell Annotationsregeln lernen– Annotationsregeln anwenden

• Informationen zu den Entitäten zusammenstellen

Page 11: PG 520 Intelligence Service

Named Entity Recognition

• Ursprung Message Understanding Contest– Fragebeantwortung– Dann: Markierung der Entitäten

• Traditionelle NE: Personen, Orte, Firmen

• Intelligence Service: Personen, Orte, Firmen, Datum, DrucksachenNr., Fraktionen, etc.

Tom arbeitet bei Mercedes Benz

PER O O ORG ORG

Page 12: PG 520 Intelligence Service

Probleme

• Alle möglichen NEs in Listen zu sammeln ist keine perfekte Lösung bzw. nicht immer möglich

• Beide Arten der Evidenz beachten:– interne – Merkmale des Wortes an sich– externe – Merkmale des das Wort

umgebenden Kontextes

• Tom arbeitet bei Mercedes Benz

• intern/ extern

Page 13: PG 520 Intelligence Service

• Intern:– Das Wort enthält Sonderzeichen (reg. Ex.)– Das Wort ist ‘Hans’– Das Wort enthält das 3-gram ‘ans’

• Extern:– Vor dem Wort steht das Wort ‘Herr’– Das Wort steht am Satzanfang– Das Wort vor dem Wort hat die Markierung

PERSON

Beispiele für interne/externe Evidenz

Page 14: PG 520 Intelligence Service

NER-Verfahren

• Regelbasierte Verfahren– kontextfreie Grammatiken– endliche Automaten

• Verfahren des ML– Transformationsbasiertes Regellernen– SVM– Graphenbasiert: HMM -> MEMM -> CRF

Page 15: PG 520 Intelligence Service

• Bilden bestseparierende Hyperebene

• Lösen somit binäres Klassifikations-problem

• Können viele und hochdimensionale Daten verarbeiten

• Sind robust gegenüber overfitting

• Für NER ist aufgrund mehrerer NEs ein Verbund aus SVMs nötig

Support Vector Machines

Page 16: PG 520 Intelligence Service

• Hidden Markov Model (HMM)– Generatives (gerichtetes) Modell

Hidden Markov Models

Y1 Y2 Y3 Labelsequenz Y

X1 X2 X3 Beobachtungs-sequenz X

T

iiiii yxpyypyxp

11 )|()|(),(

)(

),(maxargˆ

xp

yxpy y

Page 17: PG 520 Intelligence Service

• Maximum Entropy Markov Model (MEMM)– Bedingtes (gerichtetes) Modell

– Label hängt vom Vorgänger und Beobachtung ab

Maximum Entropy Markov Models

Y1 Y2 Y3Y0

X1 X2 X3

Labelsequenz Y

Beobachtungs-sequenz X

Page 18: PG 520 Intelligence Service

• Conditional Random Fields (CRF)– Bedingtes ungerichtetes Modell

– Labelsequenz hängt von Beobachtungs-sequenz ab

– Beste Labelsequenz erfüllt die meisten features für Beobachtungssequenz

Conditional Random Fields

Labelsequenz Y

Beobachtungs-sequenz X

Y1 Y2 Y3

X

Page 19: PG 520 Intelligence Service

• YALE als grundlegende Lernumgebung

• Fast alle Lernverfahren vorhanden– u.a. auch SVM

• Problem: NER-Umgebung noch in der Entwicklung begriffen!– Ausgereift: statistische Textanalyse– Statistische Textanalyse beachtet nicht den

sequentiellen Charakter des Textes– CRF-Plugin liefert erste Grundlagen für NER

Anwendung von NER-Verfahren

Page 20: PG 520 Intelligence Service

• Statistische Verfahren analysieren Wortvorkommen sowie ihre Anzahl

• Text wird in ‘bag of words’ zerlegt– or; is; has; …; politician; …; nuclear; …– Dient zur Klassifikation von Texten

• NER benötigt Texte in ursprünglicher Form– mit zusätzlichen Informationen– Preprocessing liefert diese Informationen

Statistische Textanalyse vs. NER

Page 21: PG 520 Intelligence Service

• CRF-Plugin bietet Preprocessing mit unterschiedlichen Merkmalen– Präfix, Suffix, NGramme, Reguläre Ausdrücke, …

• Außerdem:– CRF-Model-Learner– CRF-Model-Applier

• Ziel:– modulare, allgemeinnutzbare Preprocessing-

Operatoren– Möglichkeit zur Einbindung vieler Lernverfahren– Einsatz von evolutionären Algorithmen zum Lernen

des besten Experiment-Setups für versch. NER-tasks

Aktuell in YALE vorhanden

Page 22: PG 520 Intelligence Service

Rahmenterminplan 1. Semester

• 1. Seminarphase 08. – 12.10.2007• Lernverfahren

– SVM– MEMM– HMM– CRF

• Methoden der Personalisierung von Suchmaschinen• Basistechniken des WWW

– Indexierung– XML (RSS)

• Werkzeuge der PG– Yale– Google API– CVS– Crawling

Page 23: PG 520 Intelligence Service

Rahmenterminplan 1. Semester

• Aufgaben des ersten Semesters– Wahl eines Anwendungsszenarios, Festlegen

der Fragen und der NE– Erstellung eines Anfrageplans– Erstellen der Trainingsdatensätze– Experimente mit vorhandenen NER-Verfahren– Ansätze zur Verbesserung der NER

• 2. Seminarphase 04. – 08.02.2008– Zusammentragen der Ergebnisse

Page 24: PG 520 Intelligence Service

Rahmenterminplan 2. Semester

• 3. Seminarphase Anfang April 2008• automatische Thesaurus-Erstellung• automatische Fragebeantwortung• Text-Clustering• Webseiten-Ranking• First-Story Detection• Topic Tracking

• u. U. noch andere Themen möglich!

Page 25: PG 520 Intelligence Service

Rahmenterminplan 2. Semester

• Aufgaben des zweiten Semesters– Sammeln der Daten (Anfrageplan beachten)– Konkrete Ausnutzung der NER aus erstem

Semester– Verbesserung der NER (?)

• Ende des zweiten Semesters:– PG Abschlussbericht und -präsentation