44
D.Sosna: Bio-DB, SS 09 Kapitel 3 – 1 / 44 Vorlesung: Bio-Datenbanken Kapitel 3: Gleichheit / ¨ Ahnlichkeit Dr. Dieter Sosna 28. April 2009

Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 1 / 44

Vorlesung:Bio-DatenbankenKapitel 3: Gleichheit / Ahnlichkeit

Dr. Dieter Sosna

28. April 2009

Page 2: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Kapitel 3: Gleichheit / Ahnlichkeit

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 2 / 44

Allgemeines

Gleichheit

Gleichheit - Beispiele

Welt - Modell - RID

Aehnlichkeit als Aquivalenzrelation

Page 3: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Allgemeines

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 3 / 44

Page 4: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Ziele dieses Kapitels:

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 4 / 44

■ Aquivalenzrelationen■ Diskussion des Gleichheitsbegriffs fur diverse Objektklassen■ Abschwachung zur Ahnlichkeit

Ahnlichkeit als.Aquivalenzrelation■ Soundex-Verfahren

Noch zu diskutieren: Behandlung kleiner Abweichungen.

Page 5: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Gleichheit

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 5 / 44

Page 6: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Aquivalenzrelation

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 6 / 44

■ Definition: Aquivalenzrelation Seien x, y, z Elemente einer Kategorie K.Eine Relation uber K ×K ist eine Aquivalenzrelation in K, wenn sie diefolgenden Eigenschaften hat:

x = x Reflexivitat (R)x = y ↔ y = x Symmetrie (S)

x = y und y = z ↔ x = z Transitivitat (T)*

■ Satz:Jede Aquivalenzrelation uber K definiert eine spezielle Gleichheit,jeder Gleichheitsbegriff definiert eine Aquivalenzrelation.jede Aquivalenzrelation definiert eine Einteilung von K in Klassen -Aquivalenzklassen *Begriffe: Klasseneinteilung, Reprasentanten, vollstandigesReprasentantensystem, kanonische Abbildung

Page 7: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Gleichheit - Beispiele

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 7 / 44

Page 8: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Beispiele: Mengen

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 8 / 44

■ Mengen:Zwei Mengen A,B sind gleich g.d.w. sie die gleichen Elemente haben.(d.h. Identitat)Beispiel: {1, 2, a} = {1, 1 + 1, a}, aber {1} 6= {{1}}.Semantische Heterogenitat - versch. Abstraktionsgrad

■ Nachweis der Gleichheit zweier Mengen:A = B ⇔ ( fur alle x ∈ A gilt x ∈ B) ∧ ( fur alle x ∈ B gilt x ∈ A) oderm.a.W. A = B ⇔ A ⊆ B ∧ B ⊆ A.Nachweis der Gleichheit zweier Mengen A,B wird gefuhrt durch Verifizierungder beiden Teilmengenbeziehungen:Beispiel: (R∪ S) = R∩ S.Beweis:Sei x ∈ (R∪ S)⇒ . . .⇒ x ∈ R ∩ Sundsei x ∈ R ∩ S ⇒ . . .⇒ x ∈ (R∪ S).

Page 9: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Beispiel: Kardinalitat

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 9 / 44

■ Andere Aquivalenzrelation auf Mengen.Definition: Kardinalitat / MachtigkeitEine Menge A ist gleichmachtig zu B g.d.w. es eine Bijektion f : A → B gibt (|A| = |B|).Gleichmachtigkeit ist eine Aquivalenzrelation.

■ Die naturlichen Zahlen sind die Aquivalenzklassen, die durch dieGleichmachtigkeit von Mengen erzeugt werden.⇒ Gleichheit naturlicher Zahlen feststellbar ohne zu rechnen.

■ Naturliche Zahlen:Zwei naturliche Zahlen sind gleich g.d.w. sie durch gleichvieleNachfolgerbildungen aus der ersten naturlichen Zahl 1 hervorgehenBeispiel:Es gelten 1′ =p.d. 2 und 1 + 1 =p.d. 1′. Unterschiedliche Kodierung

Page 10: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Darstellung naturlicher Zahlen

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 10 / 44

■ Sei b eine naturliche Zahl mit b > 1 und z > 0 eine naturliche Zahl.Dann gibt es stets eine naturliche Zahle m und eine Darstellung der Form:z =

∑m

i=0zi × b

i. zi ∈ {0, 1, 2, ..., (b− 1)}, zm > 0und 0, 1, 2, ..., (b− 1) naturliche Zahlen.Fur die Zahlen 0, 1, 2, ..., (b− 1) werden Zeichen vereinbart, die Ziffern im Zahlsystemzur Basis b genannt werden.Die Zeichenfolge zmzm−1...z0 dient dann als Reprasentation der Zahl z imStellenwertsystem zur Basis b

■ Zwei Zahlen x, y sind gleich g.d.w. ihre Darstellungen in einem Stellenwertsystem zueiner Basis b > 1:x = xmxm−1...x2x1x0 und y = ynyn−1....y2y1y0die folgenden Eigenschaften haben:n = m und xi = yj fur i = 0, 1, 2, ..., (m− 1),m.⇒ Vergleichsalgorithmen

■ Anstelle der Zahlen werden zwei (endliche) Listen von Symbolen verglichen.Verallgemeinerung: Anstatt die Objekte zu vergleichen werden ihnen andere Objektezugeordnet, die dann zum Vergleich dienen.Vergleich von Listen - noch herausarbeiten.

Page 11: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Beispiele: Bruche

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 11 / 44

■ Gemeine Bruche:a, b, c, d reell, bd 6= 0: a

b= c

d↔ ad = bc,

d.h. Zuruckfuhrung auf ganze Zahlen.■ ist eine Aquivalenzrelation,

vollstandiges Reprasentantensystem: gekurzte Bruche.

Page 12: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Reelle Zahlen

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 12 / 44

■ Zwei Cauchy-Folgen {ai}, {bi}, i = 1, 2, ...∞ sind aquivalent g.d.w. die Folge{ai − bi}, i = 1, 2, ...∞ Nullfolge ist.(Grenzwertgleichheit)Definition: Reelle Zahlen sind Klassen aquivalenter Cauchy-Folgen rationaler Zahlen)

■ Darstellung durch Reihen: Sei b eine naturliche Zahl mit b > 1 und z > 0 eine reelleZahl.Dann gibt es stets eine naturliche Zahle m und eine Darstellung der Form:z =

∑−∞

i=m zi × bi. zi ∈ {0, 1, 2, ..., (b− 1)}, zm > 0

und 0, 1, 2, ..., (b− 1) naturliche Zahlen.Fur die Zahlen 0, 1, 2, ..., (b− 1) werden Zeichen vereinbart, die Ziffern im Zahlsystemzur Basis b genannt werden. Die Zeichenfolge zmzm−1...z0, z−1z−2z−3... dient dannals Reprasentation der Zahl z im Stellenwertsystem zur Basis b.

■ Die Darstellung der reellen Zahlen durch Dezimalbruche beliebiger Stellenzahl isteindeutig mit Ausnahmen in Verbindung mit 0 und 9 (0 und (b− 1).Beispiel: b = 10: 1, 0 = 0, 9,denn es gilt:1, 0 = 1 +

∑∞

i=1

0

10i = 0 + 9

10×

∑∞

i=0

1

10i

Page 13: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Relle Zahlen - Probleme

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 13 / 44

Probleme: (ANSI/IEEE Std 754-1985)Beispiel : Fließkommazahl - 32-bit.

hat in der Mantisse nur endlich viele Stellen.Diskrete Zahlendarstellung im Rechner→ KonvertierungsfehlerFehlerfortpflanzung bei Verarbeitung→ Fehler bei vorverarbeiteten Daten.

Realisierung des Tests auf Gleichheit

von Fließkommazahlen: gleiche Bitfolge.

Literatur u. Bildquelle: Wikipedia, IEEE 754

Page 14: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Zeichen

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 14 / 44

Graphische Darstellung der Symbole als Bilder.

■ Codierung: Gegeben eine Menge S von Zeichen durch ihre Bilder und eineIndexmenge I. S heißt Alphabet. Auf dem Alphabet sei eine eindeutigeAbbildung ψ in I gegeben. ψ heißt Zeichencodierung. (Sprechweise:s ∈ S : ψ(s) = i ∈ I ↔ i ist die Kodierung des Zeichens s unter Benutzungder Kodierungsvorschrift ψ.

■ Gleichheit von Zeichen: Zwei Zeichen a, b ∈ S sind gleich g.d.w bei einergeeigneten Kodierung ψ(a) = ψ(b).

■ Kodierungen z.B.: die des”normalen deutschen Alphabets“ durch die

erweiterte ASCII-Kodierung(1), Darstellung der Alphabete vieler naturlicherSprachen einschließlich der Sonderzeichen durch Unicode(2).

1Wikipedia: http://de.wikipedia.org/wiki/ASCII2Wikipedia: http://de.wikipedia.org/wiki/Unicode

Page 15: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Strukturtypen

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 15 / 44

■ ein Element x hat die Struktur eines n-Tupels, d.h.gegeben eine naturliche Zahl n und n Mengen {Ai}

ni=1

undx = (x1, x2, x3, ..., xn−1, xn) ∈ ×n

i=1Ai

■ ein Element x hat die Struktur eines n-Vektors, d.h.gegeben eine naturliche Zahl n und eine Menge A undx = (x1, x2, x3, ..., xn−1, xn) ∈ ×n

i=1A (3),

Alternative Namen:Feld, Array.■ ein Element x hat die Struktur einer Liste.

Diese hat die Eigenschaften eines n-Vektors mit unbestimmten n (4) .In Zusammenhang mit Zeichen wird auch von einer Kette gesprochen.

■ ein Element x hat die Struktur einer Menge, wenn seine Bestandteile einemath. Menge bilden.

3es handelt sich also um ein n-Tupel mit gleichen Elementen, von den Eigenschaften einesVektorraums der Mathematik wird zunachst kein Gebrauch gemacht.

4dieser Begriff der Liste ist nicht identisch mit dem der verketteten Liste.

Page 16: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Strukturtypen (II)

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 16 / 44

■ In der Informationsverarbeitung wird im Gegensatz zur Mengendefinition derMathematik vereinbart, dass der Strukturtyp

”Menge “ homogen ist.

■ Eigenschaften der StrukturtypenTyp homogen feste Anhahl feste Rei- Dupli- Index-

Komponenten henfolge kate zugriffn-Tupel nein ja ja ja neinn-Vektor ja ja ja ja jaListe ja nein ja ja falls existiertMenge ja nein nein nein nein

■ Einfach - zusammengesetzt - komplexEin Objekt hat einfache Struktur, wenn zu seiner Beschreibung keiner der o.g.Begriffe benotigt wird und der Test auf Gleichheit

”nativ “moglich ist. (!!

Zahlen, Zeichen !!)Zusammensetzte Struktur: zu ihrer Beschreibung genau ein Strukturtyp notig.Objekte, die weder einfach noch zusammengesetzt sind:komplex.

Page 17: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Vektoren

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 17 / 44

■ Definition: SeiM eine Menge, n ∈ N .Dann heißt das n-Tupel ~a = {ai|ai ∈M, i = 1, 2, ..., n} Vektor der Dimensionn uber M. (Uberschied zur math. Definition.)

Gleichheit: ~a,~b zwei Vektoren uber M mit Dim. n.~a = ~b⇔ ai = bi, i = 1, 2, ..., n

■ Nach demselben Konzept: komponentenweiser Vergleich furFelder (array);Listen, Zeichenketten gleicher Lange (wenn die Lange unterschiedlich: nichtvergleichbar, gilt als ungleich).Tupel

■ Mengen, Vektoren, Tupel Grunddatenstrukturen in der Informatik.

Page 18: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Gleichheit - Zeichenketten

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 18 / 44

■ Vergleiche beruhen (meist) auf bin. Codierung des Textes im gewahltenZeichensatz, ASCII kleinster gemeinsamer Inhalt in vielen europ. Sprachen(trad. Codierung). Problem: nationale Sonderzeichen unterschiedl. codiert.Sprachliche Besonderheiten - Umlaute, Betonung, Trema, ..., Ligaturen, ...

◆ Umlaute: Codierungsproblem, Sortierproblem (s.u.)◆ Betonung: im UNICODE-Zeichensatz Unterscheidung: GR iota: ι, ί, ϊ,

im Telefonbuch: Gleichbehandlung.◆ Trema: auch im DE relevant - (Haiti - Haιti, Asteroid, ...)◆ Ligaturen (in Dt. ß ← s+z ), Hindi

■ Spracherkennung ( charakt. Haufigkeiten von Zeichen, Bi- und Trigrammen(spater mehr).)→ Codierungserkennung (Sonderzeichen der Sprache in vermuteter Codierungdarstellen)→ Uberfuhrung in gemeinsame Codierung - UNICODE

DBVS: Verhalten kann festgelegt werden.

Page 19: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Zeichenketten - lexikographische Sortierung

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 19 / 44

Sortierung: setzt Ordnungs-Relation (<) voraus.

■ Zeichenketten - lexikographischer Vergleich( Algorithmus: selbst nachtragen)

■ Unterschiedliche Einsortierung der Umlaute:- ignorieren: a wie a (DE: Lexika) - DIN 5007-1- in DE: a wie ae, DIN 5007-2: Kuciak - Kudies - Kuchler (Telefonbuch)- in OE: a nach az (osterr. Telefonbuch)

■ BeispielDIN 5007-1 DIN 5007-2

Lexika Telefonb. Osterr.Sort

Gobel Gobel GoetheGoethe Goethe GoldmannGoldmann Gotz GobelGotz Goldmann Gotz

Quelle: Wikipedia.Stichwort: Alphabetische Sortierung.

Page 20: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Welt - Modell - RID

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 20 / 44

Page 21: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Einschub: Modellierung

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 21 / 44

Anwendungsmodellierung der Informatik:Niveau: Welt Wissenschaft RID

Ontologien Metadaten, DatenTheorien ⇒ Datenstrukturen

Objekte: Reale Dinge ⇒⇔ ideale Objekte ⇒⇔ DatenMetthoden: Interaktionen ⇒⇔ Berechnungen ⇒⇔ Algorithmen

theoret. Isom. Isom.prakt. ? ?

Modellbildung abstrahiert von (im Moment scheinbar) unwesentlichenEigenschaften.Interesse der Informatik: Wissenschaft ⇔ RID.Arbeit im Modell bzw. RID - Interpretation in Welt bzw im Modell und dann inWelt. Bei der Interpretation der Ergebnisse braucht der Informatiker denFachwissenschaftler.

Page 22: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Komplexe Objekte

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 22 / 44

■ I.A. individuelle Definition des Gleichheitsbegriffs,■ Meist auf Grundvergleiche zuruckfuhrbar

In RID ergibt sich Gleicheitsdefinition aus Datenstruktur in Verbindung mitsemantikbedingtem Gleichheitsbegriff fur Elementarbestandteile (i.A.konjunktiv verknupft)

■ Student( NachName, MatrikelNr, Universitat, Imma-Jahr, Vorname,Geb.Datum, ...)

■ Gleichheitsdefinition semantisch verwandt mit Festlegung einesPrimarschlussels.

Page 23: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Aehnlichkeit als Aquivalenzrelation

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 23 / 44

Page 24: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Ahnlichkeit

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 24 / 44

Motivation: Gleichheit oft zu restriktiv.

■ Zahlen: Messfehler, Fehlerfortpflanzung in num. Algorithmen, instabileAlgorithmen, Fehler durch Abschreiben, Ablesen, ...

■ Suche in Bildern■ Einige Fehler erkennbar oder korrigierbar (fehlererkennende , -korrigierende

Kodierung)- Redundanz,Vergleich mit theoretischen Werten.

Definition Ahnlichkeit verschieden moglich:Semantische Stufe: i.a. bessere ErgebnisseSyntaktische Stufe: formal, funktioniert auch ohne semantisches Wissen, i.a.schwachere Ergebisse.

Page 25: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Anwendungsszenarien

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 25 / 44

■ Gesichtserkennung: markante Punkte und Verhaltnisse der Entfernungenzwischen diesen, ggf. unter Beachtung von Projektionen.

■ Bilder: Farbhistogramme, ...■ Klange: Spectrum (Fourier-Analyse), ggf. zeitlicher Verlauf.■ Zeichenketten:(flexible Hilfsstruktur der Informatik)

Soundex - Vergleichn-Gramm-Analyseedit-distance (Levenstein - Distance)

Page 26: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Ahnlichkeit - Definition

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 26 / 44

■ Ursprunglich: Geometrischer Begriff fur ebene Dreiecke.Definition 1: Zwei ebene Dreiecke sind ahnlich g.d.w. einander entsprechendeStucke proportional sind. *Definition 2: Zwei ebene Dreiecke sind ahnlich g.d.w. sie in zwei Winkelnubereinstimmen.*Verallgemeinerung: ebene, durch Polygonzuge berandete Objekte(Triangulierung).

■ Was bedeutet Ubereinstimmung in zwei Winkeln α, β ?Vereinbarung: α, β befinden sich an den Ecken A,B, wenn das Dreieck in derReihenfolge ABCA umlaufen wird, befinde es sich links vom Rand.[ α, β ] ist eine Liste: Reihenfolge relevant:Ahnlichkeit abstrahiert von Skalierung, Drehung, Verschiebung { α, β } isteine Menge: Reihenfolge nicht relevant:Ahnlichkeit abstrahiert von Skalierung, Drehung, Verschiebung und Spiegelung.

Page 27: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Bemerkungen

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 27 / 44

■ Definition 2 zeigt, dass die Ahnlichkeit eine Aquivalenzrelation ist. Denn:Ahnlichkeit ↔ Gleichheit der einander entsprechenden Winkel.Die Gleichheit induziert die Ahnlichkeit. Der zugrunde liegendeGleichheitsbegriff ist eine Aquivalenzrelation

■ Allgemeine Beschreibung:Gegeben zwei Mengen A,B von Objekten.Auf B gibt es eine Gleichheitsbeziehung =ϕ : A → B eine Abbildung von A in B.dann wird durch ϕ eine Ahnlichkeitsbeziehung ∼ in A iduziert:x ∼ y ↔ ϕ(x) = ϕ(y), x, y ∈ A.

Page 28: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Beispiel: Soundex-Algorithmus

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 28 / 44

■ EntstehungRobert C. Russel - 2.April 1918 - Patent Nr. 1 261 167

■ Algorithmus

◆ Code ⇐ 1.Buchstabe + 3 Ziffern◆ Streiche ab dem 2.Buchstaben alle

a, e, i, o, u, h, w, yund fuge 3 Ziffern nach Tabelle hinzu.

◆ Tabelle:1 ⇐ b,f,p,v labial2 ⇐ c, g, j, k, heterogen: frikativ; plosiv,

q, s, x, z velar3 ⇐ d, t plosiv, dental/alveolare4 ⇐ l lateral5 ⇐ m, n nasal6 ⇐ r Vibranten

Beachte folgende

Regeln:

1. 2 aufeinanderfolgende Buchstaben mit demselben Kode→ nur 1x

Page 29: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Soundex-Algorithmus (2)

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 29 / 44

■ Beispiele:Name Code BemerkungMiller M460 Auffullen (Regel 1), Doppel-l (Regel 2)Peterson P362 3 verschiedene KonsonantenPeters P362Moskovitz M232Moskowitz M213 Fehlkodierung nichtenglischer Nameny, x ?

■ Probleme, wenn Zeichen im Alphabet vorkommen, die nicht im Englischen(ASCII-) Zeichensatzy, x ? griechisch: ps, ks

Москoвич ? Speziell alle Zischlautein osteurop./slaw. Sprachen

Arabische Sprachen, Hindi, ...

Page 30: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Idee hinter Soundex

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 30 / 44

■ Begriffe Phone, Phoneme einer Sprache■ Phonemfeststellung: zwei Worte einer Sprache, die sich nur in einem Phon

unterscheiden.Beispiel: ehren - lehren ← das Phon (l) ist ein Phonem.

■ Phoneme konnen in Klassen eingeteilt werden nach der Art und dem Ort ihrerEntstehung beim Sprechen.

■ Phoneme werden in Schriftsprache durch Grapheme dargestellt - M:N -Abbildung.

■ Aussprache eines Graphems kann kontextabhangig sein: (i)ch - (a)ch - (s)chInternationales Phonet. Alphabet ( z.B. 28 a-Varianten)

■ Phoneme (und zugeordnete Grapheme variieren mit Sprache ), d.h.phonetische Suche muss sprachspezifisch sein.

Page 31: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Entwicklungsschritte

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 31 / 44

Ziel: Sprachspezifischer Vergleich,(lange Worte: Desoxyribonukleosidtriphosphaterzeugungsreaktordeckel).

■ Analyse des Phonembestandes■ Klasseneinteilung der Phoneme, sinnvolle Vereinfachung des Klassensystems.

(Jede Reduzierung der Klassenzahl macht die Suche unscharfer, aberfehlertoleranter.)

■ Voraussetzung: Sprache wird durch Folgen von Graphemen beschrieben.Beschreibung der Zuordnung von Graphemen und Graphemfolgen zuPhonemen und Phonemfolgen. Zwei Zeichenketten sind phonetisch ahnlich,wenn sie auf die gleichen Ketten von Phonemklassen abgebildet werden.(Beachten der M:N Abbildungen - Aussprache abhangig vom Kontext:Baumstruktur).Konstruktion eines Automaten, der die Umwandlung vornimmt.

Page 32: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Besonderheiten des Neugriechischen

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 32 / 44

■ Konsonantverdopplungen nicht horbar bei b, l, m, n, p, σ, t,da alle Vokale kurz, aber gg 7→ ng. (5)Weitere Kombinationen: au, eu, ou 7→ Phonemfolgen av, af ,ev, ef bzw. u.y, x 7→ Phonemfolge ps, ks

■ Mehrere Schreibungen ein Phonem:Phonem i: i, h, u, ei, oi, ui; Phonem e: e, ai; Phonem o: o, w

■ Wechselwirkung der Aussprache mit Betonung, Silbenanfang:b�kiloi - v’akilifilo� - fil’irolìi - rol’oi■ Unsicherheit bei mp, nt und gk,■ Fur die Grapheme d und j gibt es im (Hoch-) Deutschen keine adaquaten

Phoneme.■ Lautverschiebung: z.B. kt 7→ qt, sj 7→ st.

5Beschreibung ohne phonet. Alphabet.

Page 33: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Loungsvorschlag

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 33 / 44

■ Zwei-/drei-stufiges Verfahren, kann nach jeder Stufe gestoppt werden.

1. Beseitigung der unhorbaren Varianten,griechische Umkodierung, Betonung bleibt erhalten:ca. 30 Regeln.

2. Nachbilden der Phonetik (Lautfolgen, Zeichenfolgen),Reduktion (stimmhaft 7→ stimmlos), i-Varianten:ca. 60 weitere Regeln,Transcription auf Folgen von Phonemen aus ca. 15 Phonemklassen.Klassen durch Zeichen des lateinischen Alphabets beschrieben.

3. (Soundex auf dem Ergebnis von (2) fur Spezialfalle).

■ Kein Weglassen der Vokale, keine Langenbegrenzung■ Kontextsensitive Regeln in jeder Stufe, Datenstrom.

Muster: (Zeichen, nachst. Zeichen) 7→ (Aktion, Fortsetzungspunkt)■ Dreistufiger Ansatz auf andere Sprachen verallgemeinerungsfahig.

Dritte Stufe dem Thema Worterbuch nicht angemessen.

Page 34: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Beispiele aus den Regeln der 1. Sufe

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 34 / 44

Z nZ Bedingung, Bemerkung Phonem Code Schritta i e e +a � e è +a u nicht bearbeiten af, av au +a Ô nicht bearbeiten af, av aÔ +b b v b +e i i i +h i io i i i +o � i � +o u nicht bearbeiten u ou +u i iÔ i �� i ðö i òw o o

Page 35: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

2. Stufe

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 35 / 44

■ - Buchstabenkombinationen auflosen: au, eu, mp, nt- Kombinationen gg, gk, kk bearbeiten- i-Allophone- Stimmhafte Konsonanten → stimmlose, z.B. z (z) → s- y, q → ps, ks- Vokalverdopplungen entfernen

■ Beispiele:filoxen�a filokseniaoinopoie�o inopj’io → inopio

Page 36: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Phoneme fur Konsonanten

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 36 / 44

Artikulationsartmomentan koninuierlich

Klusile Frikative Sonorantenstimmlos stimmhaft stimmlos stimmhaft

Labiale p b f v m (Nasal)

Dentale t d j d n (Nasal)

Alveolare ts dz s z r (Tremulant)

Velare k g (i/a)ch g (j) l (Lateral)

Quelle:

Ruge, Hans: Grammatik des Neugriechischen. Romio-sini Verlag Koln 2001, 3.neubearb. Auflage, 208 S.

Page 37: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Phoneme fur Konsonanten - Klassen

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 37 / 44

Artikulationsartmomentan koninuierlich

Klusile Frikative Sonorantenstimmlos stimmhaft stimmlos stimmhaft

Labiale p b f v m (Nasal)p p f f

Dentale t d j d n (Nasal)t t t?s s

Alveolare ts dz [2] s z r (Tremulant)ts ts s s

Velare k g (i/a)ch g(j) [1] l (Lateral)k k c,h j→i

[1] giort�zw - jort’azo → jortaso iortaso[2] tzatz�ki - dzadz’iki → tsatsiki

Page 38: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Konsonanten - Probleme

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 38 / 44

■ Stimmhaftes b (mp) und d (nt)l�mpa - l’amba → lampampamp� - bab’as → papas

Page 39: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Konsonanten - Probleme

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 39 / 44

■ Stimmhaftes b (mp) und d (nt)l�mpa - l’amba → lampa warum nicht lapampamp� - bab’as → papas warum nicht pampas■ Unbetontes Phonem i nach Konsonanten oder vor Vokal

Verschiedene Moglichkeiten: i, j, j-ahnlich, (schwach) (i)ch, Ausfall7→ Ursache vieler Regeln

■ Wort - phonetische Beschreibung M:Nmpamp� - bab’as → papas und pampaspap� - pap’as → papasgia - ja → iageia - ja → ia

Page 40: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Konsonanten - griechische Schreibung

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 40 / 44

Artikulationsartmomentan koninuierlich

Klusile Frikative Sonorantenstimmlos stimmhaft stimmlos stimmhaft

Labiale π p μπ b φ f β v μ mp p (α,ε,ι)υ f (α,ε,ι)υ f μ(π) mp

Dentale τ t ντ d θ δ ν n, ντ ntt t t?s s γ(γ,κ) nk

Alveolare τσ ts τζ dz σ,ς s ζ z ρ rts ts s s

Velare κ k γ(α,ο,ου) g χ(ι,α) (i/a)ch γ(ε,ι)(j) λ lk k c,h j→i

16 Phonemklassen: p, t, k, f, s, (i)c(h), (ac)h, m, n, r, l; a, e, i, o, u

Page 41: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Abbildungsregeln

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 41 / 44

Artikulationsartmomentan koninuierlich

Klusile Frikative Sonorantenstimmlos stimmhaft stimmlos stimmhaft

Labiale π μπ φ β μ mp p (α,ε,ι)υ f (α,ε,ι)υ f μπ mp

Dentale τ ντ θ δ ν n, ντ ntt t t?s s γ(γ,κ) nk

Alveolare τσ τζ σ,ς ζ z ρ rts ts s s

Velare κ γ(α,ο,ου) χ(ι,α) γ(ε,ι) λ lk k c,h ie,i

16 Phonemklassen: p, t, k, f, s, (i)c(h), (ac)h, m, n, r, l; a, e, i, o, u

Page 42: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Realisierung

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 42 / 44

■ Diplomarbeit abgeschlossen■ Prototyp:

URL http://teiresias.uni-leipzig.de

Page 43: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Probleme und Ausblick

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 43 / 44

■ Die prakt. Messung einer Große ist fehlerbehaftet.Kann jetzt noch von Gleicheit gesprochen werden.

■ Solche Probleme auch bei Ahnlichkeit:Bei trigonometrischen Vermessungen werden die Innenwinkel von Dreieckenermittelt. Bis zu welchen Meßfehlern sollen die Dreiecke noch als ahnlichgelten?

Kann ein anderer Ahnlichkeitsbegriff helfen?

Page 44: Vorlesung: Bio-Datenbankendbs.uni-leipzig.de/file/3kap09-pr.pdf · Ligaturen (in Dt. ß ←s+z ), Hindi Spracherkennung ( charakt. H¨aufigkeiten von Zeichen, Bi- und Trigrammen

Zusammenfassung

D.Sosna: Bio-DB, SS 09 Kapitel 3 – 44 / 44

■ Gleichheit / Ahnlichkeit sind Aquivalenzrelationen.■ Test auf Gleichheit bei Zahlen, Zeichenketten, zusammengesetzen und

komplexen Strukturen■ Unter dem Einfluß der Moglichkeit von geringen Abweichungen von wahren

Werten (Meßfehler, ...) ist der praktische Nutzen eingeschrankt (SchwachereKriterien notig).

■ Anwendungsbeispiel des math. Ahnlichkeitbegriffs: Phonetische Ahnlichkeit.■ Phonetische Suche muß sprachspezifisch erfolgen.■ Andere Ahnlichkeitsbegriffe ?