Komplexpraktikum DIPBench Computer Science Faculty, System Architecture, Database Technology Group...

Komplexpraktikum DIPBench

Computer Science Faculty, System Architecture, Database Technology Group

Dresden, 14.11.2007

TU Dresden, 14.11.07 Komplexpraktikum DIPBench Folie 2 von 58

Gliederung

01 Einführung02 Vorstellung des Komplexpraktikums03 Aufgaben und Ergebnisse

Teil 1 Katrin BraunschweigTeil 2 Dirk AlsfaßerTeil 3 Romain Treboux

04 Zusammenfassung

Zeitraum: 10.09. – 21.09. 2007 (Blockpraktikum)

Teilnehmer: Katrin Braunschweig

Dirk Alsfaßer

Romain Treboux

Aufgabe: Erweiterung des DIPBench-Initializers

02 Komplexpraktikum DIPBench

DIPBench Macro Architecture

Initializer (alter Zustand)

Aufgabenstellung

Woche 1: Realisierung von verschiedenen Erweiterungen

• neue Konfigfurationsmöglichkeiten• Ist/Soll Vergleich: Erhebung von Ist-Werten• Platformunabhängigkeit: Anpassung von TORQUE• Modelierung von Einschränkungen (Constraints)

und Speicherung der Schemata als XML-Dateien• Implementierung einer Verbindung zur CSV Dateien• Einbindung einer Log-Funktionalität mithilfe des Frameworks Log4j

Woche 2: Realisierung von Verteilungsfunktionen

Aufgabenstellung

Woche 1: Realisierung von Verwaltungsfunktionalitäten

Angabe von Dateneigenschaften mit SOLL/IST-Vergleich

Erweiterung der Konfigurationsmöglichkeiten

Woche 2: Realisierung von Verteilungsfunktionen

Normalverteilung

Poissonverteilung

03 Aufgaben und Ergebnisse

Dateneigenschaften

Anzahl unterschiedlicher Werte (selectivity)

Prozentsatz an Nullwerten (zero_percentage)

Parameter der Verteilungsfunktionen (mean, variance, skewness)

Angabe in Metadaten (TableMetadata)

Eingabe über Konstruktor setDistributionParameters(…)

keine Angabe setDefaultDistribution()

Default-Werte: in Initializer.properties

Verwaltungsfunktionalitäten

Ausgabe des Ist-Zustandes in Log-Datei

für verschiedene Connections (CSV, JDBC, XML)

CSV: Ist-Zustand von Funktionsparametern wird dokumentiert

JDBC: bisher nur selectivity

XML: bisher noch nicht implementiert

Erweiterung der Konfigurationsmöglichkeiten

Konfigurationsmöglichkeiten

batch processing + batch-size

multiple concurrent connections

number of concurrent tuplestreams

tuplestream buffer size

Normalverteilung und Poissonverteilung

Funktionsverlauf sehr ähnlich

nicht gemeinsam implementiert

Verteilungsfunktion

Normalverteilung

kontinuierlich

Schiefe ist immer 0

Poissonverteilung

diskret (+ nur für pos. Werte definiert)

Schiefe ist variabel

Normalverteilung (Gauß-Verteilung)

Symmetrie

Parameter

Verteilungsfunktion

Allgemeine Umsetzung

Verteilungsfunktion

selectivity bestimmt das Intervall und die Standardabweichung bzw. Varianz

cardinality gibt Gesamtanzahl an zu generierenden Werten an

getProbability(position, index) liefert Wahr-scheinlichkeitswert nach Verteilungs-funktion

Verteilungsfunktion

Datentypen-spezifische Umsetzung:

- INTEGER / BIGINT siehe Vorgehensweise

- DOUBLE / FLOAT Schrittweite 0,01, wie INTEGER, skaliert

- CHAR / VARCHAR Spaltenname + INTEGER

- BOOLEAN 50/50 (da Symmetrie)

- DATE Referenzdatum = Mittelwert (mean), Berechnen der Tage nach Verteilungsfunktion

range, value list

- value list: Verteilung der Indizes nach Verteilungsfunktion.

- range: Überprüfung, ob Werte innerhalb von Range liegen

Verteilungsfunktion

Probleme und Einschränkungen

Rundungsfehler

zu wenig unterschiedliche Werte – selectivity wird nicht erreicht

selectivity bestimmt variance – Benutzereingabe wird ignoriert

Open tasks

Poissonverteilung anpassen

Verbesserungsvorschläge

evtl. Prioritäten der Parameter ändern (variance)

Verteilungsfunktion

03. Teil 2

Aufgabenstellung

Woche 1: Realisierung von Verwaltungsfunktionen

-Erweiterung der Metadaten um Constraints

-Definition XML Schema für Tabellendefinition

-Adaption der PlatformModels von Torque

Woche 2: Realisierung der Verteilungsfunktion “Logarithmische Normalverteilung”

Erweiterung der Metadaten um Constraints

Definition XML Schema für Tabellendefinition

Adaption des PlatformModels von Torque

Ziel : DBMS-Unabhängigkeit

Verschiedene DBMS verwenden unterschiedliche Datentypen

--> dies muß bei der Erzeugung der Tabellen berücksichtigt werden (wenn man DBMS-unabhängig sein will)

--> mit Hilfe des PlatformModels von Torque werden beim Erstellen der “Create Table”-Statements die im Programm verwendeten Datentypen auf die entsprechenden Datentypen des Ziel-DBMS gemapped

Unterstützte DBMS

- Axion

- Cloudscape

- DB2-AS400

- Derby

- HSQLDB (Hypersonic)

- Interbase

- MS Acces

- MS SQL

- MySQL

- Oracle

- PostgreSQL

- SAP DB

- Sybase

Realisierung der Verteilungsfunktion “Logarithmische Normalverteilung”

Verteilungsdichtefuntion:

Dichtefunktion der Lognormalverteilung (mit μ = 0)

Verteilungsfunktion

Verteilungsfunktion der

Lognormalverteilung (mit μ = 0)

Erste Idee: Umkehrung der Verteilungsfunktion

Nachteile / Gründe für das Verwerfen der ersten Idee

-insbesondere bei kleineren Datenmengen können die erzeugten Daten (zum Teil stark) von der gewünschten Verteilung abweichen

-(Pseudo-)Zufall überflüssig oder sogar hinderlich beim Erzeugen eines gewünschten Testdatensatzes

Umgesetzte Lösung

-Berechnung der Anzahl der verschiedenen Werte aus Selektivität und Kardinalität

-Einteilung des Wertebereichs in Intervalle

-Schrittweise Abarbeitung von links nach rechts: an jeder Intervallgrenze wird berechnet, wieviele Exemplare des aktuellen Wertes (Intervallgrenze) gemäß der Warscheinlichkeit des Wertes erzeugt werden müssen

Beispiel

Datentyp: IntegerWertebereich (Range): 0-10

Beispiel

Behandlung der verschiedenen Datentypen

Integer + Bigint: s. Beispiel

Float + Double: wie Integer, nur Intervallberechnung für reelle Zahlen angepasst

Char + Varchar: Spaltenname + Integer

Boolean: 50/50 (keine sinnvolle Anwendung der Verteilungsfunktion möglich)

Date: Referenzdatum + x tage (x --> Bigint)

Probleme

- Rundungsfehler

- teilweise zu wenig unterschiedliche Werte (selectivity wird nicht erreicht)

03. Teil 3

Aufgabenstellung

Woche 1:

• Implementierung einer „CSV Connection“Verbindung zu einer CSV Datei

• Einbindung von Log4jAnpassung des Quellkode vom Initializer

Woche 2:

Implementierung der Zipfsche Verteilungund der Verteilung von Pareto

CSV Datei

Verwendung der API OpenCSV (http://opencsv.sourceforge.net/):

au.com.bytecode.opencsv:„A very simple CSV parser for Java released under a commercial-friendly license.“

im Projekt schon eingebunden wegen der Konfigurationsdateien

einfache und gut dokumentierte Schnittstelle

Ziel: Umsetzung einer ähnliche Funktionalität vie JDBCConnection

(transparente Nützung von JDBC oder CSV)

CSV Datei: Schnittstelle

TU Dresden, 01.11.07 Komplexpraktikum DIPBench

Erhebung von IST-Werten

• Keine Anfragemöglichkeit

• Durchschnitt, Varianz, Schiefe werden „on the fly“ ermittelt:ausgehend von (X1, ..., Xi,... Xn)

– X1 + ... + Xi

+... + Xn = 1

– X12 + ... + Xi

2 + ... + Xn2 =

– X13 + ... + Xi

3 + ... + Xn3 =

– Durchschnitt: m = 1 / n

– Varianz: v = ( 2 / n) / n

– Schiefe: s = (3 / n 3.1. / n2 + 4.1

3 / n3) / sqrt(v)

CSV Datei: E/A Leistung

Skalierungsfaktor Größe der Datei (MB) Zeit (s)

0,1 7,6 2,64

1 77,4 25,45

10 786 258,78

Generierung von 350.000 gleichverteilten Tupeln (f = 1)

Log4j - http://logging.apache.org/log4j

Framework für eine leicht einstellbare Protokollierung

• Begriffe:Hierarchie von „Loggers“: 1 Logger für jeden Knoten der KlassenhierarchieAppender

• Konfiguration:– hartkodiert– mit einer XML-Datei– mit einer Properties-Datei

• Aufruf:getLogger() gibt eine Referenz über ein Logger zurückdebug, info, warn, log Methoden

Log4j – Konfigurationsdatei: Beispiellog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.console.layout=org.apache.log4j.PatternLayoutlog4j.appender.console.layout.ConversionPattern=(%-10r)[%-15t]%-5p %-20c{1} - %m%n

log4j.appender.fileAppender=org.apache.log4j.FileAppenderlog4j.appender.fileAppender.File=log/demo.loglog4j.appender.fileAppender.layout=org.apache.log4j.PatternLayoutlog4j.appender.fileAppender.layout.ConversionPattern=%d [%-10t] %-5p %c{2} %x - %m%n

log4j.appender.null=org.apache.log4j.varia.NullAppender

log4j.logger.org=DEBUG, null

#log4j.logger.org.tud.dipbench.initializer.gen=INFO, console#log4j.logger.org.tud.dipbench.initializer.conn=INFO, console

log4j.logger.org.tud.dipbench.initializer.gen.UniformDataGenerator=DEBUG, consolelog4j.logger.org.tud.dipbench.initializer.conn=INFO, console

Log4j – Konfigurationsdatei: Gliederung (1)

log4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.console.layout=org.apache.log4j.PatternLayoutlog4j.appender.console.layout.ConversionPattern=(%-10r)[%-15t]%-5p %-20c{1} - %m%n

Log4j – Konfigurationsdatei: Gliederung (2)

log4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.console.layout=org.apache.log4j.PatternLayoutlog4j.appender.console.layout.ConversionPattern=(%-10r)[%-15t]%-5p %-20c{1} - %m%n

Die Zipfsche Verteilung

• Diskrete Verteilung, Support: {1 , ... , N}

• f(n;k,N)= a(k,N) / ks

• Problem:– Kein einfacher Zusammenhang

zwischen (k,N) und dem Durchschnitt / der Varianz

– Es werden keine Werte sondern Indizes generiert

m = HN,k-1 / HN,k wobei:

Die Pareto Verteilung

• Kontinuerliche Verteilungsfunktion

• Dichtefunktion :Definitionsbereich: [xm, infinity [

• Nützliche Gleichung (kumulative Dichtefunktion):

Die Pareto Verteilung:Bestimmung von k und xm

Grundlagen:

• m = k.xm / (k – 1) - (wenn k > 1)

• V = m 2 . 1 / [(k – 2).k] – (wenn k > 2)

Einschränkungen:

• Intervall [xm , xMax]

• xMax / P(x > xMax) ist klein (z.B < 10-3)

• Vorgegebene Varianz V und Durchschnitt m• Selektivität: Anzahl von generierten Werten

Pareto: Prinzip der Generierung

Anpassung der Schrittweite während der Generierung

Pareto: Typkonvertierung

Unterstütze Typen:• double, float: wird „natürlich“ von der Verteilung erzeugt

• integer, bigint: Rundung zur nächsten Ganzzahl

• enumeration: eine Ganzzahl wird generiert und den entsprechenden Wert wird ausgewählt

• boolean: zweiwertiges Set

• Date: Referenzdatum + Zeitspanne(Varianz und Durchschnitt in Tagen angegeben)

Zusammenfassung

Initializer (aktueller Zustand)

Komplexpraktikum DIPBench Computer Science Faculty, System Architecture, Database Technology Group...

Documents

Faculty of Computer Science Institute ... - Operating Systemsos.inf.tu-dresden.de/Studium/einfprakt/intro.pdf · Faculty of Computer Science Institute of Systems Architecture, Operating

Dr. T. Yousef - Münster 14.11.2007 Marie Curie hat einmal gesagt: Man merkt nie, was getan wurde. Man sieht nur, was noch getan werden muss!

pflichtenheft - TU Dresden · Komplexpraktikum Graphische Datenverarbeitung – Spieleprogrammierung Sommersemester 2005 – TU Dresden Gruppe: TUM Maik Lathan - Andreas Hollmann

Analytische Chemie - analytik.ethz.ch · 14.11.2007 AC – BPBS HS07 1 Analytische Chemie für Biologie Pharmazie Bewegungs-wissenschaften und Sport Teil Chromatographische und Elektrophoretische

VERSUCHSPROTOKOLL - HTW Dresden · 2019. 9. 19. · Komplexpraktikum _____ VERSUCHSPROTOKOLL Versuch Protokollant Versuchsgruppe Versuchsort weitere Teilnehmer Unterschrift Unterschrift

Faculty Programm „Kardiologische Highlights 2016“ · 61. Kardiologisches Expertengespräch 61. Kardiologisches Expertengespräch Faculty Prim. Univ.-Doz. Dr. Georg Delle-Karth

FACULTY OF HYDROTECHNICAL ENGINEERING152 FACULTY OF HYDROTECHNICAL ENGINEERING 5. Elaboration of technical expertise documentation for the following dams in Timis County: Hitias, Secas

FACULTY AND STAFF PORTRAIT NEGATIVES · 2011. 10. 5. · FACULTY AND STAFF PORTRAIT NEGATIVES Name Date Kelly's passport? N/A 180 Assistants (Fr. Engr.) 11/12/1993 Aaltonen, Eino

FACULTY OF INDUSTRIAL TECHNOLOGY INTERNATIONAL …

Презентация PowerPoint€¦ · 2020 implementation stages master's degree publications publications per 1 faculty petroleum industry 34,2 citations per 1 faculty ssau's

Tunnelfahrzeug Lüneburg 14.11.2007. 14.11.2007©TEC, 21337 LÜNEBURG2 Lastbrücke Stand: Entwurf siehe Bilder Höhe:1600mm / 2300mm Hub:700mm - die höchste

Akademischer Bericht Faculty of Theology über Aktivitäten und Ereignisse im … · 2018-03-06 · Akademischer Bericht Faculty of Theology über Aktivitäten und Ereignisse im Jahr

Informationen zu Komplexpraktikum und Praktikum fileInformatik » Angewandte Informatik » Technische Informationssysteme Informationen zu Komplexpraktikum und Praktikum Einführungsveranstaltung

FACULTY RECITAL RICHARD STOUT, trombone CHRISTINA …data.instantencore.com/pdf/1007062/09-28-11+Stout,+Dahl..pdf · FACULTY RECITAL RICHARD STOUT, trombone CHRISTINA DAHL, ... once

Kurs Bearbeiten von Fachliteratur Dr. Barbara Hoffmann LiteraturKompetenz 14.11.2007 Literatur bearbeiten mit Der alte Karteikasten zum Erfassen von Forschungsliteratur

Faculty Websites | Franklin College Faculty Sites · Reisebericht aufzuzeigen und näher zu untersuchen, um dadurch einen besseren Einblick nicht nur in seine wirklichen Erlebnisse,

«СЕВЕРНЫЙ ГОСУДАРСТВЕННЫЙ МЕДИЦИНСКИЙ …nsmu.ru/student/faculty/faculty/im/raspisanie/RP... · сформировать практические

Ende EUC- FB Fachbereich / Faculty ... - uni- · PDF file01 FB Rechtswissenschaft / Faculty of Law Rechtswissenschaft / Law Hermes, Georg Sekr.Hermes@jur.uni‐frankfurt.de 069/798‐34275

Faculty Development HSG Entwicklungsprozess

Englisch ganz leicht Hörkurs für Fortgeschrittene...Sprachen lernen ohne Buch Begleitheft 122911 14.11.2007 15:17 Uhr Seite 1 Begleitheft Englisch Hörkurs für Fortgeschrittene