28
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 1 / 28 Vorlesung: Bio-Datenbanken Kapitel 4: ¨ Ahnlichkeit nach Abstand Dr. Dieter Sosna 26. Mai 2009

Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 1 / 28

Vorlesung:Bio-DatenbankenKapitel 4: Ahnlichkeit nach Abstand

Dr. Dieter Sosna

26. Mai 2009

Page 2: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Kapitel 4: Ahnlichkeit (Abstand)

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 2 / 28

Allgemeines

Mathematischer Abstandsbegriff

Mengen

Zeichenketten

Abstande bei Bildern

Page 3: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Zwischenstand

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28

■ Wichtiger Aspekt bei Datenintegration:Finden von Daten, die sich verschiedenen Quellen befinden und sich auf dasgleiche Objekt der Welt oder des theoretischen Modells beziehen.Deshalb Grundfunktionen:Test auf Gleichheit bzw. Ahnlichkeit.

■ Der mathematische Ahnlichkeitsbegriff (Aquivalenzbegriff) ist nur in wenigenBeispielen vertreten.

■ Meßfehler u.a. bedingen einen schwacheren Begriff.

Page 4: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Mathematischer Abstandsbegriff

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 4 / 28

Page 5: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Motivation der Abschwachung

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 5 / 28

■ Grunde: Fehlertoleranz, Ausgleich von (Meß-)Ungenauigkeiten.■ ziemlich ahnlich (∼z): Gegeben eine Zahl ε > 0. Zwei Dreiecke D1, D2 heißen

ziemlich ahnlich g.d.w. sich jeder Winkel von seiner Entsprechung im anderenDreieck hochstens ε unterscheidet:max(|α1 − α2|, β1 − β2|, |γ1 − γ2|) ≤ ε , Winkel im Bogenmaß. (*)

■ Beispiel: Gegeben ε = 0, 1 ,3 Dreiecke D1, D2, D3 mit jeweis passendem 3. Winkel.∆ 1 2 3

α 0,5 0,6 0,7β 1 1 1

Dann gilt D1 ∼z D2 und D2 ∼z D3

aber nicht D1 ∼z D3 Verlust der Transitivitat■ Ahnlichkeit in zwei homonymen Bedeutungen:

(geometr.) Ahnlichkeit vs. ClusterbildungD1, D2, D3 im Cluster (um Zentrum D2 und mit ε < 0, 1).

■ Ist durch (*) ein Abstand definiert?

Page 6: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Mathematischer Abstandsbegriff

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 6 / 28

■ Funktionalanalysis - Metrische RaumeSeien D eine Vektorraum, ρ eine Abbildung, ρ: D ×D 7→ R+ ∪ {0} mit:i : ρ(x, y) ≥ 0 fur x, y ∈ D, ρ = 0 ↔ x = y.ii: ρ(x, y) = ρ(y, x), x, y ∈ D (Symmetrie)iii: ρ(x, y) ≤ ρ(x, z) + ρ(z, y), x, y, z ∈ D (Dreiecksungleichung),ρ(., .) heißt eine Metrik auf D

■ ohne die Bedingung ρ = 0 ↔ x = y: Pseudometrik■ Informatik meist: D sei (nur) eine Menge. Ausnahmen ?■ Zu einer Menge kann es mehrere, verschiedene Abstandsdefinitionen geben (→

verschiedene Raume)■ SATZ: Sei B ein normierter Raum mit der Norm ‖.‖, dann ist

ρ(x, y) = ‖x − y‖ eine Metrik.■ Nicht aus Norm erzeugt: Diskrete Metrik: ρ = 0 ↔ x = y, ρ = 1 sonst.

Warum ist die diskrete Metrik fur die Ahnlichkeitsbestimmung ungeeignet?

Page 7: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Beispiele normierter Raume

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 7 / 28

Funktionenraume

■ D Menge der uber einem abgeschlossenen Intervall I stetigen Funktionen f :‖f‖ = maxx∈I(|f(x)|).

■ L1, Lp: D Menge der messbaren Funktionen uber einem abgeschlossenenIntervall I mit

I |f |pdx < ∞, 1 ≤ p < ∞, fest, ‖f‖ = (∫

I |f |pdx)1/p, 1 ≤ p < ∞.■ L∞: D Menge der messbaren Funktionen uber einem abgeschlossenen Intervall

I mitess supx∈I(|f(x)|) < ∞, ‖f‖ = ess supx∈I(|f(x)|).

Page 8: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Beispiele - diskreter Fall

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 8 / 28

Folgenraume

■ l1, lp: D Menge der Folgen a = {ai}∞i=1 mit∑∞

i=1(|ai|p) < ∞, 1 ≤ p < ∞, fest, ‖a‖ = (

∑∞i=1

(|ai|p))1/p.■ l∞: D Menge der Folgen a = {ai}∞i=1 mit

maxi(|ai|) < ∞, ‖a‖ = maxi(|ai|).Endlich viele Folgenglieder: a = {ai}m

i=1

■ D Menge der Folgen a = {ai}mi=1 mit

‖a‖ = (∑m

i=1(|ai|p))1/p, 1 ≤ p < ∞, fest.

p = 1 fuhrt auf die Manhattan-Metrik,p = 2 auf die Euklidische Metrik.

■ D Menge der Folgen a = {ai}mi=1 mit

‖a‖ = maxi(|ai|).Freiwillige Ubungsaufgabe: Skizzieren Sie fur m = 2 das Aussehen desEinheitskreises in Abhangigkeit von p : p = 1, p = 2, p = ∞.

Page 9: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Endlich viele Folgenglieder

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 9 / 28

■ a = {ai}mi=1 kann als Vektor der Dimension m gelten.

■ SATZ: Die Manhattan-Norm, die euklidische Norm und die Maximum-Normsind aquivalent, d.h.es gibt Konstanten c1, c2 ∈ R , mit denen eine Norm die andere nach oben undnach unten abschatzt:

c1‖.‖1 ≤ ‖.‖2 ≤ c2‖.‖1

(Beweis: Ausrechnen.)M.a.W.: man kann haufig zu einer vorteilhafteren Norm gehen,(beispielsweise ist die Manhattannorm vielfach einfacher zu berechnen als dieeuklidische Norm).UA:Die Konstanten hangen von m ab!Berechnen Sie optimale Konstanten fur m = 2 und fur m = 3.

Page 10: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Distanzfunktionen mit Gewichten

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 10 / 28

Sei A eine positiv semidefinite m-reihige Matrix.x, y ∈ Rm.

■ Gewichtete Distanzfunktion:ρ(A; x, y) =

(

(x − y)TA(x − y))1/2

Anwendung: Modellierung eines Farbkreisesgleicher Helligkeit (Empfindlichkeitdes Auges ist farbabhangig).

■ Sonderfall:A hat Diagonalgestalt: Euklidische Distanz mit Gewichtung derAchsenrichtungen.

◆ Beispiel: A = (ai,j)m,m1=1,j=1

, mit ai,j = 0 furj 6= j, ai,i = 1/i(Unterschiede werden umso schwacher bewertet, je hoher der Index)

◆ Wahlt man fur A die Einheitsmatrix, erhalt man die euklidische Distanz.(

(x − y)T (x − y))1/2

=(∑m

i=1(xi − yi)

2)1/2

Page 11: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Zahlen

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 11 / 28

Triviales Beispiel fur Abstandsfunktion:Betrag: seien a, b zwei reelle Zahlen, euklidischer Abstand:

ρ(a, b) = ‖a − b‖ = ((a − b)2)1/2 = |a − b|( Metrik durch Norm erzeugt, beachten Sie (a2)1/2 = |a|, a ∈ R.Nachweis der Eigenschaften einer Metrik : freiwillige UA.Vergleich mit den lp-Normen: Spezialfall fur Zahl der Folgenglieder m = 1 und allep.

Page 12: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Matrixnormen

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 12 / 28

Sei V = (M, ‖.‖) der m-dimensionale Vektorraum Rm. A eine m × m-Matrix.Dann wird durch

‖A‖M = supx6=0

‖Ax‖V

‖x‖V

= max‖x‖V =1 ‖Ax‖V

eine Norm auf der Menge aller m × m-Matrizen definiert.Andere Matrixnormen:Spektralnorm

‖A‖2

=√

λmax

Dabei ist λmax der betragsmaßig großte Eigenwert von (AT A) ist (1).Spaltensummennorm

‖A‖1

= maxj∑m

i=1|aij |

Zeilensummennorm‖A‖∞ = maxi

∑mj=1

|aij |Gesamtnorm

‖A‖ = m · maxi,j∈{1,...,m} |aij |1A

T ist die zu A adjungierte Matrix.

Page 13: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Beispiele fur Abstandsmaße

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 13 / 28

■ Ziel:Aufzeigen von Beispielen fur die komplexbildenden Grundkonstruktionen derInformatik.Mengen, Vektoren (Zeichenketten)

■ Varianten, Kombinationen

Page 14: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Mengen

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 14 / 28

Page 15: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Hausdorffdistanz

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 15 / 28

■ Warnung vor der scheinbaren Triviallosung.■ Abstand zweier kompakter Mengen A,B eines metrischen Raumes R, Metrik

d(., .) kompakte M. im metr.Raum: Grenzwert jeder konverg. Folge gehort zurMenge.

◆ gerichteter Abstand:d1H(A,B) = max(supa∈A infb∈B d(a, b)

◆ Hausdorff-Distanz:dH(A,B) = max(supa∈A infb∈B d(a, b), supb∈B infa∈A d(a, b))

◆ Verbal:Zwei Mengen haben eine HD von hochstens r voneinander, g.d.w. jederPunkt einer Menge ist innerhalb eines Abstandes r von einem Punkt deranderen.

S.auch unten: Ahnlichkeit nach Inhalt.Beachten Sie: Gleichheit von Mengen ist durch gleichen Inhalt definiert:A = B g.d.w. A ⊆ B ∧ B ⊆ A.

Page 16: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Zeichenketten

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 16 / 28

Page 17: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Zeichenketten

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 17 / 28

■ Zeichenkette:= Liste von Elementen (Buchstaben) aus einer Grundmenge(Alphabet).Ggf. auch als Array ansprechbar oder als spezielle Vektoren

■ Abstanddefinitionen:Typ 1: spezielle fur Zeichenketten undTyp 2: allgemeine fur Vektoren.Typ 3: aus den Zeichenketten neue Objekte ableiten, fur diese neueAbstanddefinitionen geben und diese als Abstand der Zeichenketten definieren.

Page 18: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Hamming-Distanz

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 18 / 28

Richard W. Hamming. Error Detecting and Error Correcting Codes,Bell System Technical Journal 26(2):147-160, 1950.

■ Gegeben:Alphabet A, 2 Zeichenketten a = {ai}n

i=1, b = {bi}ni=1 der Lange n.

dH(a, b) =∑n

i=1,ai 6=bi(1)

Satz:dH ist eine Metrik auf der Menge der Zeichenketten der Lange n.■ Beispiel:

A = {0, 1} , Zeichenkette: Binarzahlen der Lange ndH(a, b) = Anzahl der 1-Zeichen in a xor b.Darstellung des Ubergangs von a nach b als Kantenfolge in einemn-dimensionalen Hyper-Wurfel.Manhattan-AbstandBeispiele: http://en.wikipedia.org/wiki/Hamming distance

Page 19: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Hamming-Distanz (2)

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 19 / 28

■ Mogliche Anwendung : FehlerkorrekturVoraussetzung: es gibt eine Menge der korrekten Zeichenketten KFalls Zeichenkette a /∈ K suche in K nach Zeichenkette mit dem kleistemAbstand zu a und ersetze damit a.

■ Probleme:Eindeutigkeit der Losung des Minimalproblems evt. nicht gegeben,die gefundene Losung muß nicht korrekt sein, insbesondere bei mehrfachenFehlern, (Sprachwissenschaften Erganzung durch andere Heuristiken,Haufigkeitsannahmen u.s.w....

Page 20: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Levenstein-Distanz

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 20 / 28

■ Auch: edit-distance■ Definition: Gegeben zwei Zeichenketten x = {xi}n

i=1, y = {yj}mj=1.

Grundoperationen mit Gewichtinsert(x, c, l): fugt in Zeichenkette x das Zeichen c an der Position l ein.Gewicht gi.delete((x, l): loscht in Zeichenkette x das Zeichen an der Position l. Gewichtgd.replace(x, c, l): ersetzt in Zeichenkette x das Zeichen an der Position l durchc. Gewicht gr.Gesucht: eine Folge von Grundoperationen minimalen Gesamtgewichts d ( =Summe der Gewichte), die x in y uberfuhrt.Das Gesamtgewicht einer Minimalfolge ist die Levenstein-Distanz von xund y.

Page 21: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Levenstein-Distanz (Verallgemeinerungen)

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 21 / 28

■ Gultigkeit einer Dreiecksungleichung fur Gewichte fur Operationen an einerPosition - jede Position nur einmal bearbeitet.

■ Die Gewichte konnen abhangen vom Zeichen (sowohl dem zu ersetzenden unddem ersetzenden) (unsymmertr. Metriken, symmetrisierbar)

■ Verallgemeinerung auf Baumstrukturen

Page 22: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Levenstein-Distanz (Berechnung)

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 22 / 28

■ Idee: Berechnung der Distanz aller moglichen Prafix-Paare der zweiZeichenketten x, Y .

■ x = ua, y = vb.

g(ua, vb) = min

gd(x, .) + g(u, vb) − Loeschen von agi(., b, .) + g((ua, v) − Einfuegen von bgr(a, b, .) + g(u, v) − Ersetzen a durch b

Page 23: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Levenstein-Distanz fur Baumstrukturen

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 23 / 28

■ Definition: Ein Baum besteht aus einem Knoten und einer daran angehangten,geordneten Folge disjunkter Baume. Eine solche Folge heißt Wald.

■ Grundoperationen: (jeweils mit Kosten zu versehen)Ersetzen eines Knotens (andert Baumstruktur nicht)Einfugen eines Knotens (verschiebt den neuen Wald)Loschen eines Knotens (verschiebt den Wald).

■ Gegeben zwei Walder F ,G. Sei X die Menge aller Folgen vonGrundoperationen, deren Hintereinanderausfuhrung F in G uberfuhrt. DieEditier-Distanz d(F ,G) ist das kleinste Gesamtgewicht eines Elenents aus X

■ Algorithmen: Tai - 1979: O(n6), Zhang-Shasha - 1989:O(n4), Klein - 1998:O(n3 log n).Forschungsgegenstand. (2004, 2005, ...)

Page 24: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Abstande bei Bildern

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 24 / 28

Page 25: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Ahnlichkeit von Bildern

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 25 / 28

■ Formale Daten: Große, Kodierung, Exif-Daten (Photo) Farbwerte anausgewahlten Koordinaten (Gen-array).

■ Inhaltsbezogene Verschlagwortung (teuer)■ Ermittlung typischer Werte hinsichtlich Farben (Sonnenuntergang, ...),

Farbverteilungen, ...Farbwerte an ausgewahlten Koordinaten (Gen-array).Farbmodell: RGB, HSV, YIQ

■ Niedere Koeffizienten der Fourier-Transformierten(JPEG, MP3 bei Ton)

Page 26: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Abstand von Farben

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 26 / 28

■ Farbmodell - Zahlentripel■ L*a*b*-Farbsystem (1976) - CIE

L-Achse: sw (0) - ws (100), a-Achse: gn (-150) - rt (100),b-Achse: bl (-100) - ge (150)Umrechnungsformeln zu anderen Systemen.Farbabstand: ∆Ea,b =

√∆L2 + ∆a2 + ∆b2 (ohne Sterne)

∆E Bewertung0,0 . . . 0,5 kein bis fast kein Unterschied0,5 . . . 1,0 Unterschied kann fur das geubte Auge bemerkbar sein1,0 . . . 2,0 merklicher Farbunterschied2,0 . . . 4,0 wahrgenommener Farbunterschied4,0 . . . 5,0 wesentlicher Farbunterschied, der selten toleriert wirdoberhalb 5,0 die Differenz wird als andere Farbe bewertet

■ http://de.wikipedia.org/wiki/Lab-Farbraum

Page 27: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Ahnlichkeit von Bildern (2)

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 27 / 28

Charles E. Jacobs: Fast Multiresolution Image Querying. Proc. SIGGRAPH 1995.

■ aus Inhalt charakteristische Daten errechnet:Farbmodell YIQ, Wavelettransformation (Haar Wavelets)

■ Idee d.Metrik: gewichtete L1-Norm von bearbeiteten WL-Koeffizienten derBilder Q, T fur jeden Kanal des Farbmodells:‖Q, T‖ = w0,0|Q(0, 0) − T (0, 0)| +

i,j wi,j |Q(i, j) − T (i, j)|■ Praktische Metrik noch vereinfacht (Symmetrieverlust)- ist dann im math Sinn

keine Metrik.■ u.a. Vergleiche zwischen Kinderzeichnungen und Photographien moglich.

Page 28: Vorlesung: Bio-Datenbanken · Zwischenstand D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28 Wichtiger Aspekt bei Datenintegration: Finden von Daten, die sich verschiedenen Quellen befinden

Ahnlichkeit von Bildern (2)

D.Sosna: Bio-DB, SS 09 Kapitel 4 – 28 / 28

Charles E. Jacobs: Fast Multiresolution Image Querying. Proc. SIGGRAPH 1995.

■ aus Inhalt charakteristische Daten errechnet:Farbmodell YIQ, Wavelettransformation (Haar Wavelets)

■ Idee d.Metrik: gewichtete L1-Norm von bearbeiteten WL-Koeffizienten derBilder Q, T fur jeden Kanal des Farbmodells:‖Q, T‖ = w0,0|Q(0, 0) − T (0, 0)| +

i,j wi,j |Q(i, j) − T (i, j)|■ Praktische Metrik noch vereinfacht (Symmetrieverlust)- ist dann im math Sinn

keine Metrik.