131
Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar, 11.7.2016 Bachelorverteidigung von Jonas Köhler

Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Approximative metrische Suche mit Hashfunktionen in hochdimensionalen

Datensätzen

Bauhaus-Universität Weimar, 11.7.2016

Bachelorverteidigung von Jonas Köhler

Page 2: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Bearbeitete Fragestellungen

1. Einordnung existierender Hashverfahren hinsichtlich ihrer Konstruktionsprinzipien

Page 3: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

1. Einordnung existierender Hashverfahren hinsichtlich ihrer Konstruktionsprinzipien

2. Abschätzungen einer oberen und einer unteren Schranke der Anzahl von benötigten Hashfunktionen für ideales Multi-Table-Hashing

Bearbeitete Fragestellungen

Page 4: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

1. Einordnung existierender Hashverfahren hinsichtlich ihrer Konstruktionsprinzipien

2. Abschätzungen einer oberen und einer unteren Schranke der Anzahl von benötigten Hashfunktionen für ideales Multi-Table-Hashing

Bearbeitete Fragestellungen

Page 5: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Struktur des Vortrags:

1. Was ist metrische Suche?

Page 6: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Struktur des Vortrags:

1. Was ist metrische Suche?

2. Was sind hochdimensionale Datensätze?

Page 7: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Struktur des Vortrags:

1. Was ist metrische Suche?

2. Was sind hochdimensionale Datensätze?

3. Wie sucht man mit Hashfunktionen? Was sind “Hashfunktionen”?

Page 8: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Struktur des Vortrags:

1. Was ist metrische Suche?

2. Was sind hochdimensionale Datensätze?

3. Wie sucht man mit Hashfunktionen?Was sind “Hashfunktionen”?

4. Was bedeuten die berechneten Grenzen? Wie wurden sie bestimmt?

Page 9: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Approximative metrische Suche mit Hashfunktionen in hochdimensionalen

Datensätzen

Page 10: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Metrik (Abstand)∞

0

d(x,y)

x

yd

identisch

x

y

zd(x,z) ≤ d(x,y) + d(x,y)

Page 11: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Ähnlichkeit

AMPEL AMPELAPFELANGSTGURKE

AMPELAMPELAMPEL

5/5 = 1

3/5 = 0.6

1/5 = 0.2

0/5 = 0

1

0

s(x,y)

x

ys

identisch

maximal verschieden

Page 12: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

?

?

?

?

?

Suche nach dem nächsten Nachbarn

q

Page 13: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Suche nach dem nächsten Nachbarn

q

Page 14: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Umgebungssuche

?

?

?

?

?

q

Page 15: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Umgebungssuche

q

Page 16: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Motivation: automatisierte Suche nach Plagiaten

D

Page 17: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Motivation: automatisierte Suche nach Plagiaten

D

s(D, ? )

Page 18: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Motivation: automatisierte Suche nach Plagiaten

D

s(D, ? ) > 0.9

Page 19: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Lineare Suche

q

1

Page 20: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Lineare Suche

q

1

2

Page 21: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

5

6

Lineare Suche

q

1

3

4

2

7

8

9

10

Page 22: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

q

1

Baumsuche

Page 23: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

q

23

Baumsuche

Page 24: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

q

4

5

Baumsuche

Page 25: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Approximative metrische Suche mit Hashfunktionen in hochdimensionalen

Datensätzen

Page 26: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

A B

AA AB BA BB

AAA AAB ABA ABBBAA BAB BBA BBB

A B

AA AB

BA BB

AAA ABA

BAA

ABB

Dimension

D = 1

D = 2

D = 3

Page 27: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Dimension einer Repräsentierung vs. intrinsische Dimension

Repräsentierung: D = 2

Intrinsisch: D = 1

Page 28: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

ACTCAAAGAAACGCCTCAAC...

ACACAAAGAAACGCCTCAAC...

ACTGAAAGAAACGCCTCAAC...

CCTCAAAGAAACGCCTCAAC...

...

ACTCAAAGTAACGCCTCAAC...

ACTCAAAGAAACCCCTCAAC...

Reelle Ebene: D = 2 Menschliches Genom: D = 3,2 Mrd.

Niedrige und hohe Dimensionen

Page 29: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

ACTCAAAGAAACGCCTCAAC...

ACACAAAGAAACGCCTCAAC...

ACTGAAAGAAACGCCTCAAC...

CCTCAAAGAAACGCCTCAAC...

...

ACTCAAAGTAACGCCTCAAC...

ACTCAAAGAAACCCCTCAAC...

Reelle Ebene: D = 2 Menschliches Genom: D = 3,2 Mrd.

Niedrige und hohe Dimensionen

Page 30: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Approximative metrische Suche mit Hashfunktionen in hochdimensionalen

Datensätzen

Page 31: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Approximative Suche nach dem nächsten Nachbarn

q

Toleranzbereich

unwahrscheinlichaber möglich

erlaubt

korrekt

Page 32: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Approximative Umgebungssuche

q

Toleranzbereich

unwahrscheinlichaber möglich

erlaubt

korrekt

Page 33: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Approximative metrische Suche mit Hashfunktionen in hochdimensionalen

Datensätzen

Page 34: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Klassische Hashfunktionen

7

666

42

H

H

H

H

Page 35: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

42

Klassische Hashfunktionen

H

42

H

666

42

42

Übertragung

Prüfsummenfehler!

Page 36: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

lokal-sensitive Hashfunktionen

7

42

H

H

H

H

ähnlich

unähnlich

Page 37: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

b

f

d

e

h

Codierung des Suchraums

g

a

c

i

j

H(x) = 1

H(x) = 234

H(x) = 33

H(x) = 7

Page 38: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Anlegen einer Codetabelle

baH(x) = 1

d cH(x) = 234

fe gH(x) = 7

h i jH(x) = 33

Page 39: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Hashen der Suchanfrage

H(q) = 7

q

Page 40: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Nachschauen in der Codetabelle

baH(x) = 1

d cH(x) = 234

fe gH(x) = 7

h i jH(x) = 33

H(q) = 7 fe g

Page 41: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Ungefiltertes Ergebnis

q

Page 42: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Finales Resultat

q

Page 43: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Präzisionsfehler

q

Page 44: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Recallfehler

q

Page 45: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Zu feine Aufteilung ⇒ Zu schlechter Recall

q

Page 46: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Zu grobe Aufteilung⇒ zu viel herauszufiltern

q

Page 47: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Multi-Table-Hashing

b

f

d

e

h

g

a

c

i

j

H1(x) = 1

H1(x) = 33

H1(x) = 7

H1(x) = 234

q

Page 48: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Multi-Table-Hashing

b

f

d

e

h

g

a

c

i

j

H2(x) = 1

H2(x) = 2

H2(x) = 5H2(x) = 14

H2(x) = 10

H2(x) = 15

q

Page 49: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Redundantes Speichern und Abrufen in zwei Tabellen

baH1(x) = 1

d cH1(x) = 234

fe gH1(x) = 7

h i jH1(x) = 33

daH2(x) = 1

c eH2(x) = 2

bH2(x) = 5

f gH2(x) = 10

h iH2(x) = 14

H2(x) = 15 j

H1(q) = 7

H2(q) = 5

fe g

b

Page 50: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Finales Resultat

q

Page 51: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

1. Einordnung existierender Hashverfahren hinsichtlich ihrer Konstruktionsprinzipien

2. Abschätzungen einer oberen und einer unteren Schranke der Anzahl von benötigten Hashfunktionen für ideales Multi-Table-Hashing

Bearbeitete Fragestellungen

Page 52: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

1. Einordnung existierender Hashverfahren hinsichtlich ihrer Konstruktionsprinzipien

2. Abschätzungen einer oberen und einer unteren Schranke der Anzahl von benötigten Hashfunktionen für ideales Multi-Table-Hashing

⇒ Wieviele Tabellen/Hashfunktionen sind notwendig für vollen Recall?

Bearbeitete Fragestellungen

Page 53: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Trivial: Eine

q

H(x) = 0

Page 54: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

1. Einordnung existierender Hashverfahren hinsichtlich ihrer Konstruktionsprinzipien

2. Abschätzungen einer oberen und einer unteren Schranke der Anzahl von benötigten Hashfunktionen für ideales Multi-Table-Hashing

⇒ Wieviele Tabellen/Hashfunktionen sind notwendig für vollen Recall, wenn alle Hashfunktionen keine Präzisionsfehler machen dürfen?

Bearbeitete Fragestellungen

Page 55: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Ein kombinatorisches Modell der Umgebungssuche

q

Page 56: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Ein kombinatorisches Modell der Umgebungssuche

q

Page 57: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Ein kombinatorisches Modell der Umgebungssuche

q

q’

Page 58: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Ein kombinatorisches Modell der Umgebungssuche

Page 59: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Ein kombinatorisches Modell der Umgebungssuche

Page 60: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Ein kombinatorisches Modell der Umgebungssuche

Page 61: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Was macht eine Hashfunktion?H(x) = 1

H(x) = 234

H(x) = 33

H(x) = 7

Page 62: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Potentielle Recallfehler

Page 63: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Potentielle Präzisionsfehler

Page 64: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Präzise Hashfunktion

Page 65: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beobachtung 1a: Datenpunkte im Hashgebiet einer

präzisen Funktion müssen mit allen anderen darin enthaltenen Knoten zusammenhängen

ErlaubtNicht erlaubt

Page 66: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beobachtung 1a:Datenpunkte im gleichen Hashgebiet einer präzisen Funktion bilden eine Clique

Nicht präzise präzise

Page 67: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Erhöhen des Recalls durch mehrere präzise Funktionen

H1(x)

Page 68: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Erhöhen des Recalls durch mehrere präzise Funktionen

H2(x)

Page 69: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Erhöhen des Recalls durch mehrere präzise Funktionen

H3(x)

Page 70: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beobachtung 2: Alle Kanten an einem Anfragepunkt müssen

Durch mindestens eine Funktion erwischt werden,sonst geht Recall verloren.

q

Page 71: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beobachtung 3: Totaler Recall mit präzisen Hashfunktionen

ist eine Überdeckung der Nachbarschaft von q mit Cliquen

q

Page 72: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Theorem 1: Für perfekten Recall braucht man mindestens so viele Hashfunktionen,

wie Cliquen, um alle Kanten der Nachbarschaft von q zu überdecken

q q

Minimale Lösung Nicht minimale Lösung

q

Kante geht verloren

Page 73: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

q q

Beobachtung 4: Der Grad (=Anzahl der Nachbarn) eines Anfragepunkts q

ist die Anzahl an Datenpunkten in seiner Umgebung,bzw. die Anzahl der sich überlappenden Umgebungen.

Page 74: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Theorem 2: Ist K die maximale Anzahl an Überlappungen, die Datenpunkte bilden

können, dann reichen K präzise Hashfunktionen aus.

Page 75: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 76: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 77: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 78: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 79: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 80: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 81: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 82: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 83: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 84: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 85: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 86: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 87: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 88: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 89: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 90: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 91: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 92: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 93: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 94: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 95: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 96: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 97: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 98: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 99: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 100: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 101: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Teilschritte:

1. Zeige, dass der Algorithmus terminiert.

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 102: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Teilschritte:

1. Zeige, dass der Algorithmus terminiert.

2. Zeige, dass sich alle Kanten des Ursprungsgraphen, in einer der ausgewählten Nachbarschaften befinden.

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 103: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Teilschritte:

1. Zeige, dass der Algorithmus terminiert.

2. Zeige, dass sich alle Kanten des Ursprungsgraphen, in einer der ausgewählten Nachbarschaften befinden.

3. Zeige, dass jede so enstehende Knotenzerlegung zu einer präzisen Hashfunktion korrespondiert.

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Page 104: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Teilschritte:

1. Zeige, dass der Algorithmus terminiert.

2. Zeige, dass sich alle Kanten des Ursprungsgraphen, in einer der ausgewählten Nachbarschaften befinden.

3. Zeige, dass jede so enstehende Knotenzerlegung zu einer präzisen Hashfunktion korrespondiert.

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

q.e.d.

Page 105: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Theorem 1:

● Berechne zu jedem Knoten v die minimale Anzahl an Cliquen, die ausreichen um alle Kanten der Nachbarschaft von v zu überdecken

Diskussion des Ergebnisses

Page 106: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Theorem 1:

● Berechne zu jedem Knoten v die minimale Anzahl an Cliquen, die ausreichen um alle Kanten der Nachbarschaft von v zu überdecken

● Das Maximum dieser Zahlen ist eine Untergrenze für die gesuchte Anzahl - weniger geht nicht

Diskussion des Ergebnisses

Page 107: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Theorem 1:

● Berechne zu jedem Knoten v die minimale Anzahl an Cliquen, die ausreichen um alle Kanten der Nachbarschaft von v zu überdecken

● Das Maximum dieser Zahlen ist eine Untergrenze für die gesuchte Anzahl - weniger geht nicht

● Das Bestimmen der minimalen Anzahl an Cliquen, die ausreichen einen Graphen zu überdecken ist ein NP-vollständiges Problem!

Diskussion des Ergebnisses

Page 108: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Theorem 2:

● Der maximale Grad eines Anfrageknotens ist eine Obergrenze der gesuchten Anzahl

Diskussion des Ergebnisses

Page 109: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Theorem 2:

● Der maximale Grad eines Anfrageknotens ist eine Obergrenze der gesuchten Anzahl

● Dies entspricht der maximalen Anzahl an Datenpunkten, die ein Ball von festem Radius überdecken kann

Diskussion des Ergebnisses

Page 110: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Theorem 2:

● Der maximale Grad eines Anfrageknotens ist eine Obergrenze der gesuchten Anzahl

● Dies entspricht der maximalen Anzahl an Datenpunkten, die ein Ball von festem Radius überdecken kann

● Das Bestimmen dieser Zahl ist sogar exponentiell schwer (abhängig von der Dimension)!

Diskussion des Ergebnisses

Page 111: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Die Grenzen sind echte Über- und Unterschätzungen:

Diskussion des Ergebnisses

Page 112: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Die Grenzen sind echte Über- und Unterschätzungen:

Diskussion des Ergebnisses

Page 113: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Die Grenzen sind echte Über- und Unterschätzungen:

Diskussion des Ergebnisses

● Jeder Anfragepunkt ist nur in einer Clique enthalten

⇒ Untergrenze: 1

● Der Maximalgrad eines Anfragepunkts ist 3

⇒ Obergrenze: 3

Page 114: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Die Grenzen sind echte Über- und Unterschätzungen:

Diskussion des Ergebnisses

⇒ 2 Hashfunktionen reichen aus!

Page 115: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Die Grenzen sind echte Über- und Unterschätzungen:

Diskussion des Ergebnisses

⇒ 2 Hashfunktionen reichen aus!

Page 116: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

1. Einordnung existierender Hashverfahren hinsichtlich ihrer Konstruktionsprinzipien

2. Abschätzungen einer oberen und einer unteren Schranke der Anzahl von benötigten Hashfunktionen für ideales Multi-Table-Hashing

Bearbeitete Fragestellungen

Page 117: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

1. Einordnung existierender Hashverfahren hinsichtlich ihrer Konstruktionsprinzipien

2. Abschätzungen einer oberen und einer unteren Schranke der Anzahl von benötigten Hashfunktionen für ideales Multi-Table-Hashing

✓ Obergrenze gefunden

Bearbeitete Fragestellungen

Page 118: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

1. Einordnung existierender Hashverfahren hinsichtlich ihrer Konstruktionsprinzipien

2. Abschätzungen einer oberen und einer unteren Schranke der Anzahl von benötigten Hashfunktionen für ideales Multi-Table-Hashing

✓ Obergrenze gefunden✓ Untergrenze gefunden

Bearbeitete Fragestellungen

Page 119: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

1. Einordnung existierender Hashverfahren hinsichtlich ihrer Konstruktionsprinzipien

2. Abschätzungen einer oberen und einer unteren Schranke der Anzahl von benötigten Hashfunktionen für ideales Multi-Table-Hashing

✓ Obergrenze gefunden✓ Untergrenze gefunden

Bearbeitete Fragestellungen

✓ Komplexität der Berechnung dieser Grenzen eingeordnet

Page 120: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

1. Lassen sich engere Ober- und Untergrenzen bzw. lässt sich die Anzahl exakt bestimmen?

Ausblick und Folgefragen

Page 121: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

1. Lassen sich engere Ober- und Untergrenzen bzw. lässt sich die Anzahl exakt bestimmen?

2. Lassen sich besser berechenbare Ober- und Untergrenzen finden?

Ausblick und Folgefragen

Page 122: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

1. Lassen sich engere Ober- und Untergrenzen bzw. lässt sich die Anzahl exakt bestimmen?

2. Lassen sich besser berechenbare Ober- und Untergrenzen finden?

3. Lassen sich die Grenzen konkret für reale Datensätze ausrechnen/approximieren?

Ausblick und Folgefragen

Page 123: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

1. Lassen sich engere Ober- und Untergrenzen bzw. lässt sich die Anzahl exakt bestimmen?

2. Lassen sich besser berechenbare Ober- und Untergrenzen finden?

3. Lassen sich die Grenzen konkret für reale Datensätze ausrechnen/approximieren?

4. Lassen sich mit dem Ergebnis bessere Hashfunktionen konstruieren?

Ausblick und Folgefragen

Page 124: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Danke! :-)

Fragen?

Page 125: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Abstand: Euklidisch D = 10

% des Datensatzes

% des DatensatzesIn der Nachbarschafteines Punkts

Page 126: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Abstand: Euklidisch D = 100

% des Datensatzes

% des DatensatzesIn der Nachbarschafteines Punkts

Page 127: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Abstand: Euklidisch D = 1000

% des Datensatzes

% des DatensatzesIn der Nachbarschafteines Punkts

Page 128: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Abstand: Kosinus D = 10

% des Datensatzes

% des DatensatzesIn der Nachbarschafteines Punkts

Page 129: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Abstand: Kosinus D = 100

% des Datensatzes

% des DatensatzesIn der Nachbarschafteines Punkts

Page 130: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,

Abstand: Euklidisch D = 1000

% des Datensatzes

% des DatensatzesIn der Nachbarschafteines Punkts

Page 131: Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische Suche mit Hashfunktionen in hochdimensionalen Datensätzen Bauhaus-Universität Weimar,