CUbRIK and History of Europe

Preview:

DESCRIPTION

CUbRIK presented during the Poster session of the Workshop „Mehr Personen – Mehr Daten – Mehr Repositorien“ ("More poeple - more data - more repositories") - 4-6 March in Berlin, at Brandenburg Academy of Sciences

Citation preview

Von zweifelhaften Informationen zu

neuen ZusammenhängenZum Aufbau eines Personendatenrepositoriums

im Kontext der europäischen Integration

L. Wieneke, F. Clavert, N. Carboni

3

Inhalt

• Hintergrund CUbRIK

• Anforderungen an ein Repositorium für Identitäten

• Praktische Umsetzung

• Ausblick und Erfahrungen

4

CUbRIK

29/09/2011 – Title

5

CUbRIK 36 month large-scale integrating

project started in October 2011 partially funded by the European

Commission’s 7th Framework ICT Programme for Research and Technological Development

www.cubrikproject.eu

6

CUbRIK: Human Computation

7

CUbRIK: Entwicklungsprozess History of Europe

8

CUbRIK: Social Graph

• Gemeinsames Auftreten von

Personen in einem Dokument (Bild)

schafft Verbindung

• Aufbau mit bestehendem Material

• Kontinuierliche Erweiterung

• Angereichert mit Ort, Zeit,

Organisationen und Biographien

• Technische und analytische

Funktion

• Identitäten als Fixpunkte des SG

9

CUbRIK: Social Graph

Person

APerson

B

• VIAF• DBPedia• WorldCat• Entitypedia• GND

• DateTime, Place (Location)• Controlled Keywords• Events (e.g. Treaty of Rome …)

• Time based roles (e.g. president of EU parliament between XX and YY)

• Membership of interest groups

10

CUbRIK HoE Repositorium

29/09/2011 – Title

11

Anforderungen an ein Repositorium für Identitäten

• Leicht-gewichtig

• Erweiterbar

• Modellierung von

o Unsicherheit (1967?, [Paris?])

o Mehrdeutigkeit

o Zuverlässigkeit (Vermutung/Fakt jeweils mit Argumentation)

o Provenienz

o Mehrsprachigkeit

• Raum und Zeit (hierarchisches Raum-Modell)

12

Medien, Personen, Organisationen

13

Praktische Umsetzung

29/09/2011 – Title

14

Erschließung der Personennamen

• Ist-Situation

– ca. 1800 Personen in 6500 Bildern

– Schwach strukturierte Daten

– Inkohärente Verwendung von Namen

• Francisco Fernández Ordoñez

• Francisco Fernández Ordóñez

• Francisco Fernandez Ordonez

• Francisco Fernandez Ordoñez

– Keine eindeutige Referenzierung (PID)

15

Personennamen Workflow

1. Extraktion von Personennamen aus

Beschriftung

1. Extraktion von Personennamen aus

BeschriftungOpenCalais Python ScriptOpenCalais Python Script

Clement Attlee, Harry Truman, Joseph StalineClement Attlee, Harry Truman, Joseph Staline

Clement AttleeClement Attlee Harry TrumanHarry Truman Joseph StalineJoseph Staline

2. Säuberung der Daten2. Säuberung der Daten

3. Verbindung und Verifizierung

(Reconciliation)

3. Verbindung und Verifizierung

(Reconciliation)

Anker JørgensenAnker Jørgensen

Anker JorgensenAnker JorgensenAnker JørgensenAnker JørgensenGoogle

Refine

Philippe MaystadtPhilippe Maystadt GoogleRefine

Philippe MaystadtnPhilippe Maystadtn

16

Ausblick & Diskussion

29/09/2011 – Title

17

Ausblick

• Umsetzung der bestehenden Daten in den Social

Graph

• Entwicklung eines Toolsets zur Annotation,

automatischen Erkennung und manuellen Korrektur

von Informationen, Verbindung mit Crowdsourcing

Verfahren

• Entwicklung von Tools zur Visualisierung und

Erkundung des Social Graph

19

Diskussion

• Wie können wir Quellen und Argumentationen für

Annotationen abbilden?

• PID für Personen, wo ist der Stein von Rosetta?

20

Thank you for listening

29/09/2011 – Title

2129/09/2011 – Titre

22

Beispiele Refine: Clustering

23

Beispiele Refine: Reconciliation & Matching

24

Beispiele Refine: Reconciliation & Matching

Recommended