51
Making news aggregation fair 1 Making news aggregation fair Geschäftsmodell & Technologie hinter nachrichten.de präsentiert von Daniel Prawdzik

Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Embed Size (px)

DESCRIPTION

Open Day Berlin - Track 3 - Neue Geschäftsmodelle - nachrichten.de - neofonie GmbH

Citation preview

Page 1: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Making news aggregation fair

1

Making news aggregation fairGeschäftsmodell & Technologie hinter nachrichten.de

präsentiert von Daniel Prawdzik

Page 2: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�„Topic Detection and Tracking“

Das Ziel

→ Nachrichten-Erkennung und -Verfolgung

2neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 3: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�„Topic Detection and Tracking“

Das Ziel

→ Nachrichten-Erkennung und -Verfolgung

�Ziel: Gruppierung aller Meldungen zu einem Ereignis

3neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 4: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�„Topic Detection and Tracking“

Das Ziel

→ Nachrichten-Erkennung und -Verfolgung

�Ziel: Gruppierung aller Meldungen zu einem Ereignis

�Online-Clustering des eingehenden Meldungsstroms

4neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 5: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Vom Ereignis zur Nachricht

Ereignis

5neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Nachricht MeldungMeldungMeldung

Page 6: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Vom Ereignis zur Nachricht

Ereignis

Wird in Meldungen beschrieben

6neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Nachricht MeldungMeldungMeldung

Page 7: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Vom Ereignis zur Nachricht

Ereignis

Entsteht aus Meldungen

7neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Entsteht aus Meldungen

Nachricht MeldungMeldungMeldung

Page 8: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Vom Ereignis zur Nachricht

Ereignis

Beschreibt Ereignis

8neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Nachricht MeldungMeldungMeldung

Page 9: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Wie wird der Inhalt einer Meldung

ermittelt?

Wie wird der Inhalt einer Meldung

ermittelt?

9

Page 10: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�Was ist wo geschehen?

Wie wird der Inhalt einer Meldung ermittelt?

10neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 11: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�Was ist wo geschehen?

�Welche Personen sind beteiligt?

Wie wird der Inhalt einer Meldung ermittelt?

�Welche Personen sind beteiligt?

11neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 12: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�Was ist wo geschehen?

�Welche Personen sind beteiligt?

Wie wird der Inhalt einer Meldung ermittelt?

�Welche Personen sind beteiligt?

�Themen:

� Personen/Unternehmen/Organisationen (Wer)

�Orte (Wo)

�Datumsangaben (Wann)

12neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

� Schlagworte (Was)

Page 13: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Wie wird der Inhalt einer Meldung ermittelt?

13neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 14: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Wie wird der Inhalt einer Meldung ermittelt?

Themen werden

automatisch auf dem

Meldung

Themenerkennung

… …

automatisch auf dem

Text extrahiert.

Themenprofil

14neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

… …

Page 15: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Wie wird der Inhalt einer Meldung ermittelt?

Meldung

Themenerkennung

Themenprofil

Themenprofil

charakterisiert den Inhalt

der aktuellen Meldung.

… …

15neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

… …

Page 16: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Wie entsteht eine Nachricht?

Wie entsteht eine Nachricht?

16

Page 17: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�dpa-Meldung „TV-Debatte“ thematisiert Ereignis als erste

Wie entsteht eine Nachricht?

17neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 18: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�dpa-Meldung „TV-Debatte“ thematisiert Ereignis als erste

�Nachricht zur „TV-Debatte“ wird erzeugt

Wie entsteht eine Nachricht?

�Nachricht zur „TV-Debatte“ wird erzeugt

18neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 19: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�dpa-Meldung „TV-Debatte“ thematisiert Ereignis als erste

�Nachricht zur „TV-Debatte“ wird erzeugt

Wie entsteht eine Nachricht?

�Nachricht zur „TV-Debatte“ wird erzeugt

�Themenprofil der neuen Nachricht wird durch Themenprofil

der ersten Meldung charakterisiert

19neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 20: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Wie wird eine Meldung einer

Nachricht zugeordnet?

Wie wird eine Meldung einer

Nachricht zugeordnet?

20

Page 21: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�Meldung und Nachricht teilen viele Themen

→ hohe Ähnlichkeit

Wie wird eine Meldung einer Nachricht zugeordnet?

→ hohe Ähnlichkeit

21neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 22: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�Meldung und Nachricht teilen viele Themen

→ hohe Ähnlichkeit

Wie wird eine Meldung einer Nachricht zugeordnet?

→ hohe Ähnlichkeit

�Meldung und Nachricht teilen wenig Themen

→ geringe Ähnlichkeit

22neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 23: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�Meldung und Nachricht teilen viele Themen

→ hohe Ähnlichkeit

Wie wird eine Meldung einer Nachricht zugeordnet?

→ hohe Ähnlichkeit

�Meldung und Nachricht teilen wenig Themen

→ geringe Ähnlichkeit

�Verwendung eines Vektorraummodells (VSM)

23neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 24: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�Meldung und Nachricht teilen viele Themen

→ hohe Ähnlichkeit

Wie wird eine Meldung einer Nachricht zugeordnet?

→ hohe Ähnlichkeit

�Meldung und Nachricht teile wenig Themen

→ geringe Ähnlichkeit

�Verwendung eines Vektorraummodells (VSM)

� Jedes Thema entspricht einer Dimension

24neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

� Themenprofile werden im Vektorraum abgebildet

Page 25: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Wie wird eine Meldung einer Nachricht zugeordnet?

Thema "Angela Merkel"

Cluster zur

„TV-Debatte“

25neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Thema"Frank-Walter Steinmeier "

Thema "Gesundheits-

reform"

Page 26: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Wie wird eine Meldung einer Nachricht zugeordnet?

Thema "Angela Merkel"

X

26neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Thema"Frank-Walter Steinmeier "

Thema "Gesundheits-

reform"

X

Page 27: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Wie wird eine Meldung einer Nachricht zugeordnet?

Y

Thema "Angela Merkel"

27neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Thema"Frank-Walter Steinmeier "

Thema "Gesundheits-

reform"

Page 28: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Wie wird eine Meldung einer Nachricht zugeordnet?

Thema "Angela Merkel"

Z

28neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Thema"Frank-Walter Steinmeier "

Thema "Gesundheits-

reform"

Page 29: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Wie wird eine Meldung einer Nachricht zugeordnet?

Thema "Angela Merkel"

FOCUS Online

Meldung

„TV-Debatte“

29neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Thema"Frank-Walter Steinmeier "

Thema "Gesundheits-

reform"

Page 30: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�Neue Meldung wird existierender Nachricht hinzugefügt

Wie wird eine Meldung einer Nachricht zugeordnet?

30neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 31: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�Neue Meldung wird existierender Nachricht hinzugefügt

�Themenprofile von Nachricht und Meldung werden

Wie wird eine Meldung einer Nachricht zugeordnet?

�Themenprofile von Nachricht und Meldung werden

verschmolzen

31neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 32: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�Neue Meldung wird existierender Nachricht hinzugefügt

�Themenprofile von Nachricht und Meldung werden

Wie wird eine Meldung einer Nachricht zugeordnet?

�Themenprofile von Nachricht und Meldung werden

verschmolzen

�Wissenschaftlicher Ausdruck: Zentroid

� Zentroid: arithmetischer Mittelwert aller Themenprofile

32neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 33: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Wie wird eine Meldung einer Nachricht zugeordnet?

33neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 34: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Wann entsteht eine neue Nachricht?

Wann entsteht eine neue Nachricht?

34

Page 35: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Wann entsteht eine neue Nachricht?

Thema "Angela Merkel"

35neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Thema"Frank-Walter Steinmeier "

Thema "Gesundheits-

reform"

Page 36: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Wann entsteht eine neue Nachricht?

Thema "Angela Merkel"

Spiegel Online:

Barack Obamas Rede

zur Gesundheitsreform

36neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Thema"Frank-Walter Steinmeier "

Thema "Gesundheits-

reform"

Page 37: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Wann entsteht eine neue Nachricht?

Thema "Angela Merkel"

Abstand groß → Ähnlichkeit klein

37neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Thema"Frank-Walter Steinmeier "

Thema "Gesundheits-

reform"

Page 38: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Wann entsteht eine neue Nachricht?

• Schwellenwert Thema "Angela Merkel"

• Schwellenwert

entscheidet

• Cosinus Similarity

38neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Thema"Frank-Walter Steinmeier "

Thema "Gesundheits-

reform"

Page 39: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�Cosinus Similarity: errechnet den Winkel zwischen den

Themenprofilen

Wann entsteht eine neue Nachricht?

Themenprofilen

39neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 40: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�Cosinus Similarity: errechnet den Winkel zwischen den

Themenprofilen

Wann entsteht eine neue Nachricht?

Themenprofilen

�Kondensationspunkt für weitere Meldungen zu dem Ereignis

40neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 41: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�Cosinus Similarity: errechnet den Winkel zwischen den

Themenprofilen

Wann entsteht eine neue Nachricht?

Themenprofilen

�Kondensationspunkt für weitere Meldungen zu dem Ereignis

�Driften der Nachrichten/Zentroiden in Grenzen erlaubt

41neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 42: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Von der Meldung zur Nachricht

Meldung

Themenerkennung

Topic Detection & Tracking

Nachrichten

Themenprofil

• Errechnet die Ähnlichkeit

einer Meldung zu allen

Nachrichten.

• Vektorraum mit ca. 1

Millionen Dimensionen.

42neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

TrackingNachrichten

Nachricht

Page 43: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Von der Meldung zur Nachricht

Meldung

Themenerkennung

Nachrichten

Themenprofil

Speicherung aller

Nachrichten, die verarbeitet

wurden (4.000 – 20.000

Nachrichten).

Topic Detection & Tracking

43neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Nachrichten

Nachricht

Tracking

Page 44: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Von der Meldung zur Nachricht

Meldung

Themenerkennung

Nachrichten

Themenprofil

Topic Detection & Tracking

• Neue Nachricht?

• oder: Zuordnung zu

vorhandener Nachricht?

44neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Nachrichten

Nachricht

Tracking

Page 45: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Von der Meldung zur Nachricht

Meldung

Themenerkennung

Nachrichten

Themenprofil

Ausgabe der

Nachricht!

Topic Detection & Tracking

45neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Nachrichten

Nachricht

Tracking

Page 46: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�Erkennen der einzelnen Ereignisse komplex

Herausforderungen bei der Nachrichtenerkennung?

46neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 47: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�Erkennen der einzelnen Ereignisse komplex

�Verschiedene Ereignisse verfügen teilweise über ähnliches

Herausforderungen bei der Nachrichtenerkennung?

�Verschiedene Ereignisse verfügen teilweise über ähnliches

Themenprofil

� z.B. Bundestagswahl 2009

47neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 48: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�Erkennen der einzelnen Ereignisse komplex

�Verschiedene Ereignisse verfügen teilweise über ähnliches

Herausforderungen bei der Nachrichtenerkennung?

�Verschiedene Ereignisse verfügen teilweise über ähnliches

Themenprofil

� z.B. Bundestagswahl 2009

�Nachrichten altern

48neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

Page 49: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

�Erkennen der einzelnen Ereignisse komplex

�Verschiedene Ereignisse verfügen teilweise über ähnliches

Herausforderungen bei der Nachrichtenerkennung?

�Verschiedene Ereignisse verfügen teilweise über ähnliches

Themenprofil

� z.B. Bundestagswahl 2009

�Nachrichten altern

�Nachrichten werden geschlossen

� verhindert das Nachrichten zu groß werden

49neofonie�Technologieentwicklung und�Informationsmanagement GmbH�

� verhindert das Nachrichten zu groß werden

Page 50: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Daniel Prawdzik: Lead Developer

Topic Detection & Tracking

Daniel Prawdzik: Lead Developer

Topic Detection & TrackingTopic Detection & TrackingTopic Detection & Tracking

neofonie:

Technologieentwicklung und

Informationsmanagement GmbH

Robert-Koch-Platz 4

neofonie:

Technologieentwicklung und

Informationsmanagement GmbH

Robert-Koch-Platz 4

50

Robert-Koch-Platz 4

10115 Berlin

www.neofonie.de

Robert-Koch-Platz 4

10115 Berlin

www.neofonie.de

Page 51: Open Day Berlin - 02.12.09 - Track 3 - Neofonie

Herzlichen Dank!Herzlichen Dank!

51