Algorithm Engineering „Teilmengen-Suche“ fileÜbersicht Speicherplatzsparende Wörterbücher...

Algorithm Engineering

„Teilmengen-Suche“

Stefan Edelkamp

Motivation

Speicherplatzsparende Wörterbücher Programm/Modellprüfung (Model Checking)

Subzeichenketten-Erkennung: Editierdistanz-Problem, Approximative Zeichenkettensuche MSA (Multiple Sequence Alignment) Problem

Teilwort-Erkennung: Kreuzwort-Problem: Eine Anfrage wie B*T**R im

Kreuzworträtselproble mit BETTER, BITTER, BUTLER, oder BUTTER beantworten

Spieleprogrammierung

Übersicht

Speicherplatzsparende Wörterbücher Bit-State Hashing Hash-Compaction

Subzeichenketten-Erkennung: Dynamische Programmierung

Teilwort-Erkennung: Listen und Array Hashing und Tries Unlimited Branching Trees

Übersicht

Speicherplatzsparende Wörterbücher Bit-State Hashing Kollaps-Kompression

Model Checking Gegeben

Eine Modell einesSystems.

Die Spezifikation einerEigenschaft

Problem Erfüllt das System die Eigenschaft?

•search

•specification

•state rep.

•modeling•language

•Abstraction

Objectcode

Beispiel: Prüfen eines C++ Programms

igccCompiler

Model checker

Virtual Machine

char globalChar;

int globalBlocksize = 7;

int main(){allocateBlock(blocksize);

void allocateBlock(int size){

void *memBlock;

memBlock = (void *) malloc(size);}

Interpretieren des Objectcodes

char globalChar;

int globalBlocksize = 7;

int main(){allocateBlock(blocksize);

void allocateBlock(int size){

void *memBlock;

memBlock = (void *) malloc(size);}

Register

BSS SectionData Section

Text Section

StackMemory Pool

Virtuelle Maschine

Objectcode

Generierung von Zuständen

Register

BSS SectionData Section

Text Section

StackMemory Pool

Virtuelle Maschine

Register

BSS Section

Data Section

Text Section

Memory Pool

Startzust.Register

BSS Section

Memory Pool

Zust. 1Register

BSS Section

Data Section

Zust. 2

„Kollaps“-Kompression für große Zustände

Fehlerhafte Wörterbücher sparen Platz

Fehlerwahrscheinlichkeit in Bit-State Hashing (Bloom Filter) n: Anzahl der Elemente m: Anzahl der Bits (Tabellengröße) i tes Element kollidiert mit 1…i-1 mit W‘keit von

Wahrscheinlichkeit für einen fehlerhafte Suche

Senken der Fehlerrate

h unabhängige Hashfunktionen, hn <=n

Mit zwei Bits (Double Bit-State Hashing)

Übersicht

Editierdistanz-ProblemBerechne für zwei gegebene Zeichenfolgen A und B

möglichst effizient die Editier-Distanz D(A,B) und eine minimale Folge von Editieroperationen, die A in B überführt.

i n f - - - o r m a t i k -i n t e r p o l - a t i o n

Sequenzalignierung

Größere Protein/DNA Sequenzen

Rekursionsgleichung

Programm

Beispiel: ABCD,BCD, DB

Spurgraph der Editier-operationen

1 2 3 4

1 1 2 3

1 2 2 3

2 2 2 3

3 3 3 2

B = a b a c

Subgraph der Editieroperationen

Spurgraph: Übersicht über alle möglichen Spuren zur Transformation von A in B, gerichtete Kanten von Knoten (i, j) zu (i + 1, j), (i, j + 1) und (i + 1, j + 1).Gewichtung der Kanten entsprechen den Editierkosten.

Kosten nehmen entlang eines optimalen Weges monoton zu.

Jeder Weg mit monoton wachsenden Kosten von der linken oberen Ecke zu rechten unteren Ecke entspricht einer optimalen Spur.

Approximative ZeichenkettensucheGegeben: zwei Zeichenketten P = p1p2 ... pm ( Muster) und

T = t1t2 ... tn (Text)

Gesucht: Ein Intervall [j´, j], 1 ≤ j´ ≤ j ≤ n, so dass das Teilwort Tj´ , j = tj´ ... tj das dem Muster P ähnlichste Teilwort von T ist, d.h. für alle anderen Intervalle [k´ , k], 1 ≤k´ ≤ k ≤ n, gilt: D(P,Tj´, j) ≤ D(P, Tk´, k)

Erster Ansatz

Naives Verfahren:

for all 1 ≤ j´ ≤ j ≤ n doBerechne D(P,Tj´, j)

wähle Minimum

TrickBetrachte verwandtes Problem:

iE(i, j)

PFür jede Textstelle j und jede Musterstelle i berechne die Editierdistanz des zu Piähnlichsten, bei j endenden Teilstücks Tj´,j von T.

AlgorithmusMethode:for all 1 ≤ j ≤ n do

Berechne j´, so dass D(P,Tj´, j) minimal ist

Für 1 ≤ i ≤ m und 0 ≤ j ≤ n sei:

Optimale Spur:

Pi = b a a c a a b c

Tj´, j = b a c b c a c

),(min ,1´1, jjijjji TPDE ′+≤′≤=

Rekursionsgleichung:

Bemerkung:j´ kann für Ei-1, j-1, Ei – 1,j und Ei, j – 1 ganz verschieden sein.Teilspur einer optimalen Spur ist eine optimale Teilspur.

−−

),,(min

Approximative ZeichenkettensucheAnfangsbedingungen:

E0,0 = E(ε, ε) = 0Ei,0 = E(Pj ,ε) = i

aberE0,j = E(ε ,Tj) = 0

Beobachtung:Die optimale Editiersequenz von P nach Tj´, j beginnt nicht miteiner Einfügung von tj´ .

Abhängigkeitsgraph

0 0 0 0

0 1 1 1

1 1 2 1

2 1 1 2

3 2 1 2

0 0 0 0

1 1 1 1

0 1 2 2

1 1 1 2

2 2 1 2

5 4 3 2 2 3 3 2 2 1

T = a b b d a d c b cP=

Approximative Zeichenkettensuche

Gibt es im Abhängigkeitsgraphen einen Weg von E0, j´- 1 nach Ei, j , so ist Tj´, j ein zu Pi ähnlichstes, bei j endendes Teilstück von T mit

D(Pi, Tj´,j) = Ei, j

Übersicht

Teilmengen-Wörterbücher

Sei D eine Menge von n Teilmengen aus U.

Das SUBSET QUERY (CONTAINMENT QUERY) Problem fragt für q ob es ein p in D gibt mit q ist Teilmenge von p (p ist Teilmenge von q).

Ein Teilmengen Wörterbuch ist eine abstrakteDatenstruktur die Einfügen erlaubt und Teilmengen-(Supermengen-) Anfragen anbietet

Subzeichenketten- vs. Teilzeichenkettenmatching

Subzeichenkette: ADEK in Alphabet ABCD….XYZ Teilzeichenkette: STUV in Alphabet ABCD….XYZ

Anwendung Teilzeichenkettenmatching

Beispiel Subzeichenkettenmatching: Sokoban

Generierung größerer Muster

Anfragen mit Wildcards

Sei ? ein spezieller don’t care das jeden Buchstaben imAlphabet ersetzt (wildcard)

Gegeben eine Menge D von n Zeichenketten, dannbeantwortet eine Datenstruktur für das PARTIAL MATCH Problem für eine Anfrage q (mit wildcards) ob es einenEintrag q in D gibt, so dass q zu p passt

Kreuzworträtsel -Konstruktionsproblem

State-of-the-Art !?Combus „Crossword Puzzles as a Constraint Problem“ CP 2008: Anbulagan and Adi Botea (words 45K, UK 220K Einträge, T sek. N expan. Knoten)

Datenstruktur? 1. Array und Listen

Arrays: Platz O(2^m), m =|U| Zu groß in der Praxis Anfragezeit O(m)Listen: Optimaler Platz O(n) Anfragezeit: O(nm) Zu groß in der Praxis

2. Tries(PARTIALMATCH)

3. Hashing (PARTIAL MATCH)

4. „Unlimited“ Branching Trees(CONTAINMENT QUERY)

Einfügen UBT

Suche UBT

Beispiel: Hex

Virtuelle Verbindungen

Zielmusterdatenbank

UBT-Adaption

Symmetrien

Algorithm Engineering „Teilmengen-Suche“ fileÜbersicht Speicherplatzsparende Wörterbücher...

Documents

Einführung in SQL - Deutsche Digitale Bibliothek · PDF fileÜbersicht IV. Erweiterungen 283 28. DDL – Einzelheiten 285 29. Fremdschlüssel-Beziehungen 305 30. SQL-Programmierung

ERSTE SCHRITTE MIT DER QUASSELKISTE 60 NEU€¦ · „Deutsche Wortstrategie“ und „Quasselkiste“ sind Warenzeichen der Semantic Compaction Systems. „Erste Schritte mit der

Algorithm Engineering „ Teilmengen-Suche “

Cohesin, Chromosomes and Cancermcb.med.uoc.gr/mysite/arxeia/grad-study_uhlmann_cohesin.pdf · Nse2 Eukaryotic Prokaryotic Nucleoid compaction Chromosome segregation (non-essential)

Übersicht OGS Schulen incl. Schulnummer zum 1.8.2007 · PDF fileÜbersicht OGS Schulen incl. Schulnummer zum 1.8.2007 NRW Detmold Grundschule 127218 Bad Oeynhausen GS Dehme Detmold

Algebraische Kombinatorik - minet.uni-jena.de · 2 Vektorräume 2.1VorbemerkungImFolgendenwerdenwirversuchen,Mengen,Teilmengen,Abbil-dungenzuersetzendurchVektorräume,UntervektorräumeundlineareAbbildungen.Dazu

Ausleger Kopfplatten - · PDF fileÜbersicht Deckenabhängungen! Das Eigengewicht der einzelnen Bauteile (Rinne, Formstücke, Ausleger etc.) ist den Tabellen zu entnehmen. Bitte beachten

Für Asphalt- und Erdbau HAMM COMPACTION QUALITY · 5 7 9 HCQ 4 8 10 2 1 5 3 2 1 HAMM COMPACTION METER (HCM) Der HAMM Compaction Meter gibt mit dem HMV-Wert Aufschluss über die Veränderung

Stadt Friedrichshafen · PDF fileÜbersicht über die Kontakte zu unserer Partnerstadt Sarajevo seit dem Bestehen der Partnerschaft 1972 Juni 1972 Unterzeichnung des Freundschafts-

EVALUATION OF IMPACT OF SOIL COMPACTION IN DITCH …one of the main reasons that contribute to reduction of soil porosity [5]. Soil compaction intensity is directly dependent on the

Übersicht der Fertigungsmuster der Fenstergitter - · PDF fileÜbersicht der Fertigungsmuster der Fenstergitter: ... 2. Dekor Fenstergitter 2 . 3. Dekor Fenstergitter 3

shb-schotter.de · Durchgang d = 10 mm [M.-%] vor- und nach dem ZV Anforderungen an die Korngrößenverteilung von Teilmengen. Werden die Anforderungen bezüglich des vom Hersteller

Mathematik - uni-hannover.de · kennenlernt, betrachten wir nur spezielle Operatoren auf Funktionen Hilberträumen. Wir definieren Bergman-, Hardy- und Fockräume über Teilmengen

Übersicht der wichtigsten Gitarrenakkorde bersicht... · PDF fileÜbersicht der wichtigsten Gitarrenakkorde – . Author: Halswerker Created Date: 2/11/2013 10:47:14 AM

2 Wahrscheinlichkeitstheorie - statistik.uni-muenchen.de · 2.1 Grundlagen der Wahrscheinlichkeitstheorie 2 De nition 2.2. Alle die Teilmengen A , f ur die nach den Versuchsbedingungen

Ein vereinheitlichendes Modell einer speicherprogrammier ... · PDF fileÜbersicht •Einführende Beispiele der Anlagensicherung •Speicherprogrammierbare Steuerungen •DIN EN/IEC

HAMM - UNSER WERK - media.wirtgen-group.com · HAM M Compaction Quality Die Innovationsschmiede 10 % der Mitarbeiter im Werk in Tirschenreuth arbeiten im Bereich Forschung und Entwicklung,

Oil shales: Compaction, Petroleum Generation and Expulsiondarwin.bth.rwth-aachen.de/opus3/volltexte/2006/1601/pdf/Eseme... · Oil shales: Compaction, Petroleum Generation and

Orientierte Matroide mit wenigen Mutationen - kortenkamps.net · Ubereinstimmung wider: So kann man genau die linear bzw. aﬃn unabh¨ ¨angi- gen Teilmengen der Punktmenge auf die

Übersicht über die Sozialversicherungen - aon. · PDF fileÜbersicht über die Sozialversicherungen Februar 2013 3 Februar 2013 Liebe Leserin, lieber Leser Wir freuen uns, auch dieses