Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische...

Approximative metrische Suche mit Hashfunktionen in hochdimensionalen

Datensätzen

Bauhaus-Universität Weimar, 11.7.2016

Bachelorverteidigung von Jonas Köhler

Bearbeitete Fragestellungen

1. Einordnung existierender Hashverfahren hinsichtlich ihrer Konstruktionsprinzipien

2. Abschätzungen einer oberen und einer unteren Schranke der Anzahl von benötigten Hashfunktionen für ideales Multi-Table-Hashing

Struktur des Vortrags:

1. Was ist metrische Suche?

2. Was sind hochdimensionale Datensätze?

3. Wie sucht man mit Hashfunktionen? Was sind “Hashfunktionen”?

3. Wie sucht man mit Hashfunktionen?Was sind “Hashfunktionen”?

4. Was bedeuten die berechneten Grenzen? Wie wurden sie bestimmt?

Datensätzen

Metrik (Abstand)∞

d(x,y)

identisch

zd(x,z) ≤ d(x,y) + d(x,y)

Ähnlichkeit

AMPEL AMPELAPFELANGSTGURKE

AMPELAMPELAMPEL

5/5 = 1

3/5 = 0.6

1/5 = 0.2

0/5 = 0

s(x,y)

identisch

maximal verschieden

Suche nach dem nächsten Nachbarn

Umgebungssuche

Motivation: automatisierte Suche nach Plagiaten

s(D, ? )

Motivation: automatisierte Suche nach Plagiaten

s(D, ? ) > 0.9

Lineare Suche

Baumsuche

Datensätzen

AA AB BA BB

AAA AAB ABA ABBBAA BAB BBA BBB

AAA ABA

Dimension

Dimension einer Repräsentierung vs. intrinsische Dimension

Repräsentierung: D = 2

Intrinsisch: D = 1

ACTCAAAGAAACGCCTCAAC...

ACACAAAGAAACGCCTCAAC...

ACTGAAAGAAACGCCTCAAC...

CCTCAAAGAAACGCCTCAAC...

ACTCAAAGTAACGCCTCAAC...

ACTCAAAGAAACCCCTCAAC...

Reelle Ebene: D = 2 Menschliches Genom: D = 3,2 Mrd.

Niedrige und hohe Dimensionen

ACTCAAAGAAACGCCTCAAC...

ACACAAAGAAACGCCTCAAC...

ACTGAAAGAAACGCCTCAAC...

CCTCAAAGAAACGCCTCAAC...

ACTCAAAGTAACGCCTCAAC...

ACTCAAAGAAACCCCTCAAC...

Reelle Ebene: D = 2 Menschliches Genom: D = 3,2 Mrd.

Niedrige und hohe Dimensionen

Datensätzen

Approximative Suche nach dem nächsten Nachbarn

Toleranzbereich

unwahrscheinlichaber möglich

erlaubt

korrekt

Approximative Umgebungssuche

Toleranzbereich

unwahrscheinlichaber möglich

erlaubt

korrekt

Datensätzen

Klassische Hashfunktionen

Übertragung

Prüfsummenfehler!

lokal-sensitive Hashfunktionen

ähnlich

unähnlich

Codierung des Suchraums

H(x) = 1

H(x) = 234

H(x) = 33

H(x) = 7

Anlegen einer Codetabelle

baH(x) = 1

d cH(x) = 234

fe gH(x) = 7

h i jH(x) = 33

Hashen der Suchanfrage

H(q) = 7

Nachschauen in der Codetabelle

baH(x) = 1

d cH(x) = 234

fe gH(x) = 7

h i jH(x) = 33

H(q) = 7 fe g

Ungefiltertes Ergebnis

Finales Resultat

Präzisionsfehler

Recallfehler

Zu feine Aufteilung ⇒ Zu schlechter Recall

Zu grobe Aufteilung⇒ zu viel herauszufiltern

Multi-Table-Hashing

H1(x) = 1

H1(x) = 33

H1(x) = 7

H1(x) = 234

Multi-Table-Hashing

H2(x) = 1

H2(x) = 2

H2(x) = 5H2(x) = 14

H2(x) = 10

H2(x) = 15

Redundantes Speichern und Abrufen in zwei Tabellen

baH1(x) = 1

d cH1(x) = 234

fe gH1(x) = 7

h i jH1(x) = 33

daH2(x) = 1

c eH2(x) = 2

bH2(x) = 5

f gH2(x) = 10

h iH2(x) = 14

H2(x) = 15 j

H1(q) = 7

H2(q) = 5

Finales Resultat

⇒ Wieviele Tabellen/Hashfunktionen sind notwendig für vollen Recall?

Trivial: Eine

H(x) = 0

⇒ Wieviele Tabellen/Hashfunktionen sind notwendig für vollen Recall, wenn alle Hashfunktionen keine Präzisionsfehler machen dürfen?

Ein kombinatorisches Modell der Umgebungssuche

Was macht eine Hashfunktion?H(x) = 1

H(x) = 234

H(x) = 33

H(x) = 7

Potentielle Recallfehler

Potentielle Präzisionsfehler

Präzise Hashfunktion

Beobachtung 1a: Datenpunkte im Hashgebiet einer

präzisen Funktion müssen mit allen anderen darin enthaltenen Knoten zusammenhängen

ErlaubtNicht erlaubt

Beobachtung 1a:Datenpunkte im gleichen Hashgebiet einer präzisen Funktion bilden eine Clique

Nicht präzise präzise

Erhöhen des Recalls durch mehrere präzise Funktionen

Beobachtung 2: Alle Kanten an einem Anfragepunkt müssen

Durch mindestens eine Funktion erwischt werden,sonst geht Recall verloren.

Beobachtung 3: Totaler Recall mit präzisen Hashfunktionen

ist eine Überdeckung der Nachbarschaft von q mit Cliquen

Theorem 1: Für perfekten Recall braucht man mindestens so viele Hashfunktionen,

wie Cliquen, um alle Kanten der Nachbarschaft von q zu überdecken

Minimale Lösung Nicht minimale Lösung

Kante geht verloren

Beobachtung 4: Der Grad (=Anzahl der Nachbarn) eines Anfragepunkts q

ist die Anzahl an Datenpunkten in seiner Umgebung,bzw. die Anzahl der sich überlappenden Umgebungen.

Theorem 2: Ist K die maximale Anzahl an Überlappungen, die Datenpunkte bilden

können, dann reichen K präzise Hashfunktionen aus.

Beweisskizze: Anwendung eines Konstruktionsalgorithmus für perfekte Hashfunktionen

Teilschritte:

1. Zeige, dass der Algorithmus terminiert.

Teilschritte:

2. Zeige, dass sich alle Kanten des Ursprungsgraphen, in einer der ausgewählten Nachbarschaften befinden.

Teilschritte:

3. Zeige, dass jede so enstehende Knotenzerlegung zu einer präzisen Hashfunktion korrespondiert.

Teilschritte:

3. Zeige, dass jede so enstehende Knotenzerlegung zu einer präzisen Hashfunktion korrespondiert.

q.e.d.

Theorem 1:

● Berechne zu jedem Knoten v die minimale Anzahl an Cliquen, die ausreichen um alle Kanten der Nachbarschaft von v zu überdecken

Diskussion des Ergebnisses

Theorem 1:

● Das Maximum dieser Zahlen ist eine Untergrenze für die gesuchte Anzahl - weniger geht nicht

Theorem 1:

● Das Maximum dieser Zahlen ist eine Untergrenze für die gesuchte Anzahl - weniger geht nicht

● Das Bestimmen der minimalen Anzahl an Cliquen, die ausreichen einen Graphen zu überdecken ist ein NP-vollständiges Problem!

Theorem 2:

● Der maximale Grad eines Anfrageknotens ist eine Obergrenze der gesuchten Anzahl

Theorem 2:

● Dies entspricht der maximalen Anzahl an Datenpunkten, die ein Ball von festem Radius überdecken kann

Theorem 2:

● Dies entspricht der maximalen Anzahl an Datenpunkten, die ein Ball von festem Radius überdecken kann

● Das Bestimmen dieser Zahl ist sogar exponentiell schwer (abhängig von der Dimension)!

Die Grenzen sind echte Über- und Unterschätzungen:

● Jeder Anfragepunkt ist nur in einer Clique enthalten

⇒ Untergrenze: 1

● Der Maximalgrad eines Anfragepunkts ist 3

⇒ Obergrenze: 3

⇒ 2 Hashfunktionen reichen aus!

✓ Obergrenze gefunden

✓ Obergrenze gefunden✓ Untergrenze gefunden

✓ Komplexität der Berechnung dieser Grenzen eingeordnet

1. Lassen sich engere Ober- und Untergrenzen bzw. lässt sich die Anzahl exakt bestimmen?

Ausblick und Folgefragen

2. Lassen sich besser berechenbare Ober- und Untergrenzen finden?

3. Lassen sich die Grenzen konkret für reale Datensätze ausrechnen/approximieren?

4. Lassen sich mit dem Ergebnis bessere Hashfunktionen konstruieren?

Danke! :-)

Fragen?

Abstand: Euklidisch D = 10

% des Datensatzes

% des DatensatzesIn der Nachbarschafteines Punkts

% des Datensatzes

Abstand: Kosinus D = 10

% des Datensatzes

Abstand: Kosinus D = 100

% des Datensatzes

Approximative metrische Suche mit Hashfunktionen in … · 2020-06-04 · Approximative metrische...

Documents

Skript zur Vorlesung Analysis II - Mathematik · Analysis II Sommersemester 2018 RobertHaller-Dintelmann 23.März2018 Inhaltsverzeichnis I. Metrische Räume 1 1. Metrische Räume

Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

· Seite 38 Schlauchschutz Hitzeschutz Seite 40 Scheuerschutz Seite 42 2 1. Schläuche. Metallschläuche – Stand: 10/2015 Inhaltsverzeichnis Metallschlauchanschlussteile metrische

Hashverfahren - ibr.cs.tu-bs.de · PDF file3/42 Hashing Hashfunktionen Kollisionen Ausblick Uberblick¨ Aufgabe Realisierung Hashing Aufgabe Dynamische Verwaltung von Daten, wobei

Nicht-metrische multidimensionale Skalierung Iterative … MDS.pdf · Nicht-parametrische Verfahren.PDF (0.9 MB) ... Statistische Algorithmen in C ... Fahrmeir/Hammerle, 1984: Multivariate

Exakte und approximative Untersuchung kleiner …obelix.physik.uni-bielefeld.de/~schnack/examina/diplom...Fakultät für Physik Theorie der kondensierten Materie Exakte und approximative

TR FASTENINGS TR Hank Einpressbefestiger€¦ · 2 Metrische Leistungsdaten: TR-FH4 TR Hank® Einpressbefestiger Einpress-Gewindebolzen Metrische Leistungsdaten: TR-FH Gewindegröße

Metrische Markow-Ketten Klaus Frieler Universität Hamburg Musikwissenschaftliches Institut

Ein Approximationsalgorithmus fur das metrische ... · - Bachelorarbeit - Ein Approximationsalgorithmus fur das metrische unkapazitierte Facility Location Problem vorgelegt von Florian

INHALT METRISCHE GRÖSSEN / METRIC SIZE

Hashfunktionen - Soviel Mathematik wie nötig, sowenig wie ... · FAHRZEUGTECHNIK AUTOMOTIVE ENGINEERING & RAILWAY ENGINEERING Grundlagen von Hashfunktionen Ein Hash ist ein Algorithmus,

· octite Maschinenbandcr Maschinenlkirgy Verbinder Mechanische Wartungsarbeiten Metal'balgkupplung Metallfedern Metall-Gummipuffcr Meterwarc-zahnriernen Metrische .?ahrlrierncn

Strophenformen Deutsch Oberstufe / grn. Definition ‚Strophe‘ Aus mehreren Versen bestehende, sich wiederholende metrische Einheit eines Gedichts

Statistik: 1.3.04 Quantitative Merkmale. 1.3.04PI Statistik, SS 20042 Metrische Merkmale 22718484621318579912482696 1631536979718799740371576 655660800750949478566718

Grundlagen statistischer Auswertungsverfahren Kapitelübersicht · 3.1.1.1 Metrische und nichtmetrische Variablen 3.1.1.2 Stetige und diskrete Variablen 3.1.2 Skalenniveaus 3.1.2.1

Munich Calibration Day 2014 - esz AG · Lehren für metrische ISO-Gewinde nachANSI B1.16M Metrische ISO Trapezgewinde nach DIN 103 “Unified”-Gewinde bzw. Gewindelehren nachANSI/ASME

INSTITUT FÜR ERDMESSUNG LEIBNIZ ... - dgk.badw.de · 2 1. institutsarbeiten, forschungsprojekte sonderforschungsbereich sfb 1128 relativistische geodÄsie und gravi-metrische quantensensoren

Die metrische Lebensskizze Pindars. · 2011. 3. 3. · Die metrische Lebensskizze Pindars. Die in einunddreissig griechischen Hexametern abgefasste anonyme. LebensskizzePindars, welche

Verliersicherung für metrische Gewinde · Lösungen für die aktuellen Anforderungen der Maschinenrichtlinie Verliersicherung für metrische Gewinde IMS Verbindungstechnik GmbH &

Hashfunktionen SHA-1 (Secure Hash Algorithm). Folie 2 Gängige Hashfunktionen MD5 128-bit Output Seit 2004 nicht mehr stark kollisionsresistent RIPEMD-160