Download pdf - 03.TB.Daten V1 2005-11-07d · Steve Fortune: A sweepline algorithm for Voronoi diagrams, Proceedings of the Second Annual Symposium on Computational Geometry, Yorktown Heights, New

Prof. Dr. Detlef Krömker

Goethe-Universität, FrankfurtGraphische Datenverarbeitung

Visualisierung

Vorlesung 3

WS 2005/20062Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker

Übersicht

� Wiederholung letzte Vorlesung (Teil B+C)

� Was kann visualisiert werden? (Teil D)


Allgemeine Anforderungen

� Eine Visualisierung soll� expressiv,� möglichst effektiv und� angemessen

� sein


Einflussfaktoren der Visualisierungsqualität

�Einflussfaktoren auf die Visualisierung sind� Art und Struktur der Daten

� Z.B. Typ der Daten, Dimension des Beobachtungsbereiche� Bearbeitungsziel bei der Visualisierung

� Z.B. Überblick, Detailanalyse oder Ergebnispräsentation für Dritte

� Vorwissen des Anwenders/Betrachters� Z.B. Laie, Entscheider, Planer

� Visuellen Fähigkeiten und Vorlieben des Betrachters� Z.B. rot-grün-blind, spezielle Farbpräferenzen

� Übliche Metaphern oder Konventionen des Anwendungsgebietes,� Z.B. übliche Symbole oder übliche Darstellungsformen

� Charakteristika des Darstellungsmediums� Z.B. Auflösung, Anzahl der darstellbaren Farben und Rechenleistung


Der Visualisierungsprozess

� Die Visualisierungspipeline� Transformationen (Funktionen)� Datenarten und Datenfluss

� Klassifikation der Visualisierungen� Rollen im Visualisierungsprozess� Referenzmodell für die Visualisierung� Visualisierungsszenarien


Die VisualisierungspipelineVisualisierungspipeline� Repräsentiert die typische

Vorgehensweise zurErzeugung einer Visualisierungfür vorgegebene Daten und Visualisierungsziel

� Zeigt die verschiedenen Stufendes Visualisierungs-prozessesund die entsprechendenZwischenergebnisse auf

Filterung

Mapping

Rendering

Daten

Medien

Aufbereitete Daten

Visualisierungselemente

Steuerung

Steuerung

User

Wahrnehmung

Interaktion


VisualisierungsszenarienBsp. Interaktives Postprocessing

SchrittDatenerzeugung

Roh-daten

BeobachtungMessung

Modellierung

SimulationBerechnung

1 SchrittInteraktive Visualisierung

Bild

2

Roh-daten

Visualisierung

Analyse

Nutzer


Visualisierungsprozesse

�Rollen im Visualisierungsprozess:� Autor – Betrachter

�Nutzungsszenarien:� Tracking� Interaktives Postprocessing� Bewegungsmodus� Interaktive Steuerung

Prof. Dr. Detlef Krömker

Goethe-Universität, FrankfurtGraphische Datenverarbeitung

Was kann visualisiert werden?

Teil D


Übersicht

� Beschreibung der Daten� Datenquellen� Beobachtungsraum� Datenmerkmale

� Datenspezifikation� Datenformate� Reduktion einer Datenmenge

� Projektion� Selektion


Beschreibung der Daten

� Daten unterscheiden sich bezüglich� Struktur� Dimensionalität� Umfang� ...� Bezugsraum in dem sie gemessen, beobachtet

berechnet, entworfen werden� Kennen und Berücksichtigen dieser

Charakteristika ist entscheidend für die Erfüllung des Kriteriums „Expressivität“


Datenquellen

� Daten stammen aus� der realen Welt� theoretischen Welten� künstlichen Welten

� liefern Datenmengen im Mega-, Giga-, Terabytebereich, wobei maßgebend sind� Anzahl der Mess- oder Beobachtungspunkte� Anzahl der Parameter pro Punkt� Anzahl der Werte pro Parameter� Speicheraufwand pro Wert


Beispiele: Datenquellen

FilmeSpezialeffekteWWW(gesamtes Web)

SpieleVR-Szenarien

WWW (Einzeldokumente)

KünstlicheWelten

Hochenergie-physikAstronomieGeographie(Militär ?)

SeismikKristallographieGeographieMeteorologieMedizin

MedizinGeographieMeteorologieElektronen-mikroskopie

Reale Welt

Messdaten

TerabyteGigabyteMegabyte


Beispiele: Datenquellen

CustomerRelationship Data

Ökonomie- oder Finanzmodelle

GeschäftsdatenWirtschafts-wissenschaften

Styling (Auto)ArchitekturKonstruktion (FEM)Anlagenplanung

Ingenieur-wissenschaften

MoleküldesignMeteorologieStrömungs-simulation (CFD)

MolekulardynamikQuantenchemieMathematik

Naturwissen-schaften

TerabyteGigabyteMegabyteTheoretische Welten


Beobachtungsraum

�Wir unterscheiden:� physikalischer Raum � (3 Ortsdimensionen + Zeit)� abstrakter Raum � beliebige Dimension

�Allgemeine Annahme:� metrische Räume

�Beobachtungsraum� Dimensionalität� Wirkungskreis und Verbund der Beobachtungspunkte

�Beobachtungspunkte � Koordinaten des Beobachtungsraums, an denen Daten

vorliegen


Beobachtungsraum

�Dimensionalität des Beobachtungsraums� entspricht der Anzahl der unabhängigen Parameter

(Variablen)

�Charakteristika des Beobachtungsraums� diskret

� regulär (äquidistant)� nicht regulär (Scattered, z.B. Event-gesteuert)

� Kontinuierlich� Aber: im Rechner immer diskretisiert und quantisiert!


Dimension des Beobachtungsraums

� Terminologie zur Dimension des Beobachtungsraums� 1-dimensionale Daten Dimension = 1� 2-dimensionale Daten Dimension = 2� 3-dimensionale Daten Dimension = 3� Multidimensionale Daten Dimension > 1


Datenmerkmale

�Merkmale� Größen, die in einem Beobachtungsraum gemessen,

berechnet oder entworfen werden� Spannen den Merkmalsraum auf� Andere Bezeichnung: abhängige Variable

�Aspekte� Datentyp: Typ des Merkmals� Dimensionalität: Anzahl der Werte pro

Beobachtungspunkt� Wertebereich: mögliche Ausprägung des Wertebereichs� Strukturierung: Beziehungen zwischen den Merkmalen


Merkmalsraum (I)

� “Unabhängige Variablen" vs. “abhängige Variablen"� Unabhängige Variablen werden durch den

Beobachtungsraum beschrieben� Alle anderen Attribute sind “abhängige Variablen” und

beschreiben den Merkmalsraum� Bemerkung: die Unterscheidung von unabhängigen

und abhängigen Variablen ist oft nur bei Daten mir Orts-/Raumbezug eindeutig möglich und in vielen anderen Fällen willkürlich!


Merkmalsraum (II)

� Terminologie� Univariate Daten

� Dimension des Merkmalsraums = 1� Bivariate data

� Dimension des Merkmalsraums = 2� Multivariate Daten, Multiparameter-Daten

� Dimension des Merkmalsraums > 2


Datentypen (I)

� Datentypen� Unterscheidung interner Formate wie zum Beispiel „Byte“ oder „Real“

� Auch: Beschreibung des Grads der Quantisierung� Charakterisierung der Anzahl der Komponenten eines Merkmals

� Skalare Größen � Werden als Zahl repräsentiert� Beispiel: Temperatur

� Vektorielle Größen � Betrag und Richtung, n-Tupel von Skalaren � Beispiel: Geschwindigkeit

� Tensorielle Größen� Zusammenfassung mehrerer skalarer Größen mit bestimmten

Transformationsverhalten� Repräsentieren eine Menge von Werten und Richtungen


Datentypen (II)

� Zusammenhänge� Skalar: Tensor 0-ter Ordnung� Vektor: Tensor 1-ter Ordnung� Matrix: Tensor 2-ter Ordnung


Datentypen (III)�Qualitativ (Nominal)

� Keine Ordnungsrelation definiert� Beispiele: Städtenamen, Automarken

�Qualitativ (Ordinal)� Ordnungsrelation, aber kein Maß zur

Bestimmung von Intervallgrößen� Beispiele: erster, zweiter, dritter, …,

kalt, warm, heiß�Quantitativ (Intervall und Ratio)

� Kontinuierliche Prozesse oder Phänomene

� Beispiel: Temperatur über die Zeit� Ratio Scales erlauben zusätzlich zur

Bestimmung von Differenzen auch die Bestimmung von Verhältnissen

Daten

Qualitativ Quantitativ

Nominal Ordinal Intervall

Ratio


Datentypen (IV)

� Bemerkung:� Eine detailliertere Klassifikation von

Datentypen ist nur auf Basis eines akzeptierten gemeinsamen Verständnisses (z.B. standardisierte Ontologie) möglich

� Dies korrespondiert zu einer Klassifikation des Wissens und zumindest nicht trivial!


Beobachtungsraum: Wirkungskreis

punktuell

lokal

global

Daten gelten nur für den Beobachtungspunkt

Daten gelten in einer gewissen Umgebung um den Beobachtungs-punkt (z.B. durch endliche Apertur der Abtastung � Integration über eine Region)

Daten gelten für den gesamten Beobachtungsraum


Diskussion: Wirkungskreis

� Wirkungskreis ist abhängig von � Messverfahren und � Kontext (d.h. Interpretation)

� Bei punktuellem und globalem Wirkungskreis ist die Zuordnung der Messwerte eindeutig


Abtastung und Rekonstruktion (I)

Abtastung

Signal

Samples

Signal

Kontinuierliches Signal

Rekonstruktion

Diskretes Signal

Samples

Signal

Rekonstruiertes Signal


Abtastung und Rekonstruktion (II)

Abtastung

Signal

Rekonstruktion

Diskretes Signal

Samples

Signal

Rekonstruiertes Signal

Samples

Signal


Beispiel: Pixel Matrix


Abtasttheorem (I)

�Frage:� Wie muss ein Signal abgetastet werden, um eine

korrekte Rekonstruktion zu ermöglichen�Antwort:� Shannon (1949)*:

„If a function f(t) contains no frequencies higher than W cps, it is completely determined by giving its ordinates at a series of points spaced 1/2 W seconds apart.The function can be simply reconstructed from thesamples by using a pulse of the type sin 2

2π

πWtWt

*Vorarbeiten durch H. Nyquist (1924) und J.M. Whittaker (1935).


Abtasttheorem (II)

� Ein bandbegrenztes (kontinuierliches) Signal f(x), das mit Abtastintervallen abgetastet wird, kann fehlerfrei rekonstruiert werden, wenn die Abtastfrequenzen größer als die Nyquist-Frequenz ist:

x∆

us bux

21 >=∆mit

ubfürF >= ξξ 0)(

ub

su

(Bandbegrenzung)

© D

etle

f Krö

mke

r


Abtasttheorem (III)� Ein diskretes Signal lässt sich mit Hilfe eines (idealen)

Tiefpasses mit der Übertragungsfunktion

� rekonstruieren, so dass dieses mit dem ursprünglichen Signal identisch ist. Das rekonstruierte Signal ist dann

][)sinc()(

][)()(

Ortsraumxxxhbub

umFrequenzramiturectxuH

TP

uu

TP

ξξ

ξ

∆=−∆<<

∆=

)(xfd

π

π

)(

)sin()()(

mx

x

mx

x

xmfxfm −

∆

−∆∆= �

∞

−∞=

© D

etle

f Krö

mke

r


Verbund der Beobachtungspunkte (I)� Unstrukturiert

� Keine implizite Ordnung der Datenobjekte� Beispiel: Personendaten in Datenbank

� Sequentiell� Implizite Struktur der Datenobjekte in Form

eine geordneten Liste� Beispiel: zeitvariante Daten

� Gitter� Datenobjekte definiert mit Bezug auf ein

Gitter� Beispiel: Daten mit Raumbezug

� Hierarchisch� Hierarchische Struktur der Datenobjekte� Beispiel: Dokumentenstruktur

� Netz� Netzstruktur der Datenobjekte� Beispiel: Hypertext, Hypermedia, WWW


Verbund der Beobachtungspunkte (II)

Gitter als Verbund der BeobachtungspunkteMan unterscheidet:

� Regelmäßige Gitter� Unregelmäßige Gitter� Blockstrukturierte Gitter� Strukturierte Gitter� Hybride Gitter

Oft Vereinfachungen möglich, wenn eine bestimmte Gitterstruktur gewählt wird


Regelmäßiges Gitter

Andere Bezeichnung� uniformes Gitter

Eigenschaften� achsparallele Gitterlinien� sehr oft orthogonal� häufig gleichabständig


Unregelmäßige Gitter

Andere Bezeichnung� unstrukturierte Gitter

(Scattered Data)

Eigenschaften� Gitterpunkte müssen immer

explizit angegeben werden

Typische Quellen� Geländekartierungen


Blockstrukturierte Gitter

Eigenschaften� Achsenparallele Gitternetzlinien mit

unterschiedlichen Abständen


Strukturiertes Gitter

Eigenschaften� Koordinaten der Gitterpunkte sind

implizit durch einen Index gegeben

Sind die Gitterlinien als Kurven in Parameterform gegeben, sprechen wir von kurvilinearen Gitter


Hybride Gitter

Zusammensetzung aus unterschiedlichen Gittertypen


Schema zur Klassifikation von DatenDaten über metrischen Räumen

skalare Daten tensorielle Datenvektorielle Daten

1,- 2,- 3-dimensionale Räume

höherdimensionale Räume

Einparameter-Daten Multiparameter-Daten

Daten auf regelmäßigenblockstrukturierten oderstrukturierten Gittern

gitterfreieDaten

Daten auf unregel-mäßigen oderhybriden Gittern

Dimensionalitätdes Beobach-tungsraums

Datenverbund

Anzahl der Merkmale

Datentyp


Unvollständige Daten und Daten mit lokalem Wirkungskreis

�Viele Visualisierungsverfahren verlangen� Vollständige Datensätze� (Annährend) kontinuierliche Daten

�Zusätzliches Problem� Fehlende Daten könnnen zu unerwünschten Artefakten

bei der Visualisierung führen�Häufig gewählter Ansatz� Interpolation oder Approximation des Werteverlaufs für

fehlende Daten auf Basis benachbarter Datenwerte mit lokalem/punktuellen Wirkungskreis


Interpolation und Approximation

Interpolation� Verfahren zur Rekonstruktion des

kontinuierlichen Werteverlaufs auf Basis diskreter Datenwerte

� Eigenschaft: alle ursprünglichen Datenwerte sind Teil der Kurve

� Beispiele: Lagrange, SplinesInterpolation in 2d

� Voronoi Diagramme� Scattered Data Interpolation

Approximation� Eigenschaft: Datenwerte sind nicht

notwendigerweise Teil der Kurve� Ggf. Vorteilhaft im Fall von fehlerbehafteten

Daten� Beispiel: Taylor


Datenwertzuordnung

� Datenwertzuordnung bei lokalem Wirkungskreis

� Ausgangspunkt: � Menge beliebig verteilter Beobachtungspunkte

(Scattered Data) in einem Beobachtungsraum

� Übliche Verfahren zur Datenwertzuordnung� Voronoi-Zerlegung� Scattered-Data-Interpolation


Voronoi -Zerlegung

�Vorgehensweise� Beobachtungsraum wird unterteilt in Gebiete, so dass

jedem Gebiet genau ein Beobachtungspunkt zugeordnet ist

� Jeder Punkt X des Beobachtungsraumes wird nun genau einem Gebiet Gj zugeordnet und zwar so, dass alle Punkte dieses Gebietes zu dem Beobachtungspunkt dieses Gebietes einen geringeren Abstand haben als zu allen anderen Beobachtungspunkten

{ }mkjkPXPXXG kjn

j ≤∧≠∀−<−ℜ∈= :


Beispiel: Voronoi-Zerlegung

Für die Messwerte wurde eine Klasseneinteilung vorgenommen

Voronoi-Zerlegung zur Visualisierung:


Algorithmus

� Steve Fortune: A sweepline algorithmfor Voronoi diagrams, Proceedings of theSecond Annual Symposium on Computational Geometry, Yorktown Heights, New York, USA, pp. 313 – 322, 1986

� Overmars et. Al.: Computational Geometry


Scattered-Data-Interpolation�Voraussetzungen:� Gegeben: Menge von Beobachtungspunkten

Pi = (x1i, .. ,xni) mit i = 1, 2, ... m; m ≥ 1 und � m: Anzahl der Beobachtungspunkte, � n: Dimension des Beobachtungsraumes mit n ≥ 1,� xl: l-te Dimension des Beobachtungsraums mit l = 1, ...,n und � xli die Koordinate des i-ten Beobachtungspunktes bzgl. der I-

ten Dimension.� Für jeden Beobachtungspunkt Pi sei ein Datenwert fi

gegeben. �Gesucht:� Funktion F(x1, .. , xn) = fi

ohne Voraussetzungen bzgl. Verteilung der Beobachtungspunkte


Shepard-Interpolation

�

.

12222

211

11

11

11

1

))(...)()(()..,,(..

)..,,(

)..,,(),..,(

−−

=

=

−+−+−==

=�

�

nknkkknk

m

knk

m

kknk

n

xxxxxxdxxWmitBz

xxW

fxxWxxF

Kritik: alle Datenwerte haben globalen Einfluss. Man beschränkt also den Einfluss eines Datenwertes, z.B. nach Franke-Little

��

≤>−

=−

��

��

⋅−=

+

+

k

kkk

k

knk

drdrdr

dr

mitdrdrxxW

falls0falls

)(

)(),..,(2

1

r ist Radius des Wirkungskreises


Beispiel: Shepard-Interpolation


Weitere Charakteristika

� Zusammensetzung der Datenmenge: � Welche Datentypen mit welchen Wertebereich:

nominal, ordinal, metrisch� Umfang der Datenmenge:

� Wieviele Merkmale, wie oft, an wievielenBeobachtungspunkten

� Qualität der Datenmenge:� Vollständigkeit und Fehlerbetrachtung

� Weitere bekannte Zusammenhänge:� Redundanzen, Korrelationen, ...

© D

etle

f Krö

mke

r


Metadaten (nach Treinisch)�„Datenbasis“ – Metadaten

� Notwendige Informationen zum Datenzugriff (z.B. Datenbankkennung, Passwort, Datenformate)

�„Attribut“ – Metadaten � Charakterisierung der Daten (z.B. Merkmalsraum, Typen, etc.)

�„Hilfs“(meta)daten � Zusätzliche (i. allg.) numerische Daten, die für eine richtige

Interpretation der gegebenen Datenmenge erforderlich sind (z.B. demographische Daten oder Zeitangaben)

�„Andere“ Metadaten � Daten zur qualitativen Beurteilung� In der Regel begleitende Texte

© D

etle

f Krö

mke

r


Attributmetadaten (I)� Spezifikation von Attributmetadaten nach Bergeron und

Grinstein� Grundlegender Ansatz zur Klassifikation

� m-dimensionale Datenelemente auf einem k-dimensionalen Gitter

� Beispiele:� Multiparameter-Daten: mit m ≥ 2 und k beliebig.

� Gitterfreie Daten: mit m ≥ 1.� Volumendaten: und Datenelement ist

Skalar� Strömungsdaten: mit k ≤ 3 und Daten-

element Vektor � Kritik: Volumendaten und Strömungsdaten nicht ohne weiteres

unterscheidbar

kmL

0mL

31L

kL1

kmL


Attributmetadaten (II)

� Spezifikation von Attributmetadaten nach Brodlie� Grundlegender Ansatz zur Klassifikation

� Unabhängige Variablen werden in ihrer Dimensionalität(unterer Index) beschrieben:

� Wirkungskreis Keine Klammer: Daten gelten an einem PunktEckige Klammer: Daten gelten in einem BereichGeschweifte Klammer: Daten sind vom Aufzählungstyp

� Abhängige Variablen werden durch Dimensionalität und Typ(oberer Index) beschrieben, z.B.

� iS: i Skalare� iV3: i 3-Dimensionale Vektoren� Beispiele:

33VE [ ]

SE 52

Achtung:unterer und oberer Index zu

Begeron, Grinsteinvertauscht!


Attributmetadaten (II)

� Spezifikation von Attributmetadaten nach Graw� A: Anzahl der Beobachtungsfälle � c: Qualität der Datenmenge (vollständig/unvollständig)� di: Anzahl der Merkmale mit Charakteristik (ti, oi, ui)

� ti: Datentyp� oi: Existenz einer Ordnungsrelation über Wertebereich (ja/nein)� ui: Umfang des Wertebereichs

� n: Dimensionalität des Beobachtungsraumes� g: Verbund der Beobachtungspunkte� w: Wirkungskreis der Beobachtungspunkte (punktuell, lokal,

global)� t = (ta, tdis, te) mit

ta Anfangszeitpunkttdis Größe der Zeitintervalle (kontinuierlich, diskret)te Endzeitpunkt


Datenformate

� Daten werden in unterschiedlichsten Formen und Formaten abgelegt� Große Anzahl proprietärerer Datenformate� Einige internationale und de-facto Standards für

Datenaustausch und -zugriff� Im Folgenden wird eine kleine Auswahl kurz

vorgestellt:� Tabellen und Excel� Datenbanken� NetCDF� Topic Maps


Datenformate: Tabellen

Tabellen: � Meistverwendete Form zur Repräsentation großer Datensätze

Case1 Case2 Case3 ...

Attribute1

Attribute2

Attribute3

...

Value11 Value21 Value31



Bermerkung:Cases korrespondieren zu Datenobjekten, sind im Kontext von Tabellen jedoch die üblichere Bezeichnung


Datenformate: Beispiel fürDatentabelle

2-3

1-2

.286

5

2

Washington

0-00-01-11-0Div.

1-32-13-24-1Conf.

.333.429.667.833Pct.

4421Loss

2345Win

MiamiOrlandoBostonNew Jersey

NBA Eastern Conference Standings


Datenformate: Excel und ASCII Dump Format

�Typische Repräsentationsformen von Tabellen in der Praxis

� Proprietäres Austauschformat von Microsoft Excel� ASCII Dump Formats, z.B.

� TAB Separated List� Semicolon Separated List

�Viele Werkzeuge und Datenbanken unterstützen diese Formate zum Import und Export�Daten können im Netz häufig in einem dieser Formate gefunden werden

;New Jersey;Boston;Orlando;Miami;Washington

Win;5;4;3;2;2

Loss;1;2;4;4;5

Pct.;.833;.667;.429;.333;.286

Div.;1-0;1-1;0-0;0-0;1-2

Conf.;4-1;3-2;2-1;1-3;2-3


Datenformate: Daten in Databanken

Große und mittelgroße Firmen sowie Content Provider speichern und managen ihre Daten häufig in Datenbanksystemen

Zugriff auf Daten erfolgt dann im allgemeinen unter Verwendung von SQL

72-6750income34372450age

164163170187sizefemalemalefemalemalesexIreneBobElsaTomname

4321

72-6750income34372450age

femalemalefemalemalesex4321

SELECT sex, age, incomeFROM persons


Datenformate: Datenbankzugriffe

There are several ways to access data from database for the purpose of visualization, e.g.

a) Access of a database from a visualization application

b) Access over the Web via PHP or Java Server Pages (JSP)

c) Access over the Web via Flash

DB

OD

BC

Inte

rfac

e

Application

DB

Dat

abas

e Se

rver

Web Browser

Flash

DBWeb

Browser

JSP

PHP

Web

Ser

ver

a)

b)

c)


Datenformate: Zugriff über das Netz

Beispiel: � Visualisierung von

demographischen Daten� Starkenburg

(www.regionaldaten.de)Technische Umsetzung

� mySQL-Datenbank zur Verwaltung der Daten

� PHP-Skripte zur Extraktion der relevanten Daten aus der Datenbank und zur Generierung der HTML-Seiten mit Navigationselementen

� Flash zur Visualisierung


Datenformate: NetCDF

�Network Common Data Format (NetCDF)�Entwicklung der University Corporation for Atmospheric Research (UCAR, 1993)�Aspekte

� Textuelle Beschreibung sowohl von Daten wie auch von Metadaten� Primär zur Repräsentation von Daten mit Raum- und Zeitbezug auf

unterschiedlichen Gitterformen, aber auch Mechanismen zurBeschreibung von Netzen

� Weite Verbreitung in der Wissenschaftswelt� Selbsterklärend � Erweiterbar=> Wird voraussichtlich mit Hierarchical Data Format 5 kombiniert


Beispiel eines NetCDF Filesnetcdf example { //example of CDL notation for a netCDF file

dimensions: // dimension names and sizes are declared firstlat = 5, lon = 10, level =4, time = unlimited;

variables: // variable types, names, shapes, attributesfloat temp(time, level, lat, lon);

temp: long_name = “temperature“;temp: units = “celcius“;

float rh(time, lat, lon);rh: long_name = „relative humidity“;rh: valid_range = 0.0, 1.0; // min and max

int lat(lat), lon(lon), level(level);lat: units = “degrees_north“;lon: units = “degrees_east“;level: units = “millibars“;

short time(time);time: units = “hours since 1990-11-25 12:00 UTC“;

// global attributes: source = “National Weather Service“;

data: //optional data assignmentslevel = 1000, 850, 700, 500;lat = 20, 30, 40, 50, 60;lon = -160, -140, -118, -96, -84, -52, -45, -35, -25, -15;time= 12;rh = .5, .2, .4, .2, .3, .2, .4, .5, .6, .7, .1, .3, .1, .1, .1, .1, .5,

.7, .8, .8, .1, .2, .2, .2, .2, .5, .7, .8, .8, .9,

.1, .2, .3, .3, .3, .3, .7, .8, .8, .9, 0, .1, .2, .4, .4, .4, .4,

.7, .9, .9;}

Terminologie:

Dimensions: Unabh. Variablen

Variables: Abh. Variablen


Topic Maps

Semantische Netze� Zuerst eingeführt auf dem

Gebiet der Künstlichen Intelligenz zur Wissensrepräsentation (Quillian 1966)

� Darstellung von Konzepten und Relationen in Form eines Graphen

Frames� Partitionen eines

semantischen Netzwerkes� Hierarchische Struktur

Document Registration

Inference-basedInformation System

Knowledge Aquisition

Information System

Content Extraction

Fulltext Database

Database System

Expert System

User Interface

Thesaurus

Retrieval

Indexing

Input

<<is-part>>

<<is-tool>>

<<is-a>>

<<is-function>>

<<is-a>>

<<is-function>>

<<is-a>>

<<is-a>>

<<is-function>>

<<is-tool>>

<<is-a>>

<<is-part>>

<<is-a>>

Knorz, 2001


Topic Maps�Topic Maps� Austauschformat für Begriffsnetze / Semantische Netze

�Internationaler Standard seit 1999 (ISO/IEC FCCD 13250:2000)�XTM 1.0� XML Encoding für Topic Maps

�Komponenten� Typen, Instanzen (Occurrences), sowie Assoziationen

zwischen Topics�Weitere Informationen� http://www.topicmaps.org/xtm/1.0/core.xtm


Topic Maps

Data

Meta Data

M0: Core Elements

M1: Conceptual Layer

M2: Core Elements

occurrence

association

Course

Krömker

Script.htm


Reduktion einer Datenmenge

� Entfernung irrelevanter Daten� statistische oder� informationstheoretische Methoden

� Abstraktion durch Aggregation: � Durchschnittswert und min, max Werte oder� Durchschnittswert und Standardabweichung� Gruppierung (Clustern � Clusteranalyse)

� Angabe des Bereichs von Interesse� Beobachtungsraum� Merkmalsraum

� Auswahl von Teilmengen:� Projektion� Selektion� ggf. Teilmengen durch Methoden des Focusing & Linking verbinden


Unterstützung zur Datenauswahl

� Methoden der Statistik, u.a.� Korrelationen, diverse statistische Tests, ...� Varianzanalyse� Faktoranalyse� Clusteranalyse� Diskriminanzanalyse

� Methoden der Informationstheorie:� Redundanzanalyse, Relevanzanalyse


Data Filtering and Preprocessing Techniques

� Dimension Reduction� (Set of d-dim Data Items -> Set of k-dim. Data Items; k << d)

� Principal Component Analysis [DE82]� Determines a minimal set of principal components (linear combinations of the original

dimensions) which explain the main variations of the data.� Factor Analysis [Har 67]

� Determines a set of unobservable common factors which explain the main variations of the data.

� The original dimensions are linear combinations of the common factors.� Multidimensional Scaling [SRN72]

� Uses the similarity (or dissimilarity) matrix of the data as defining coordinate axes in multidimensional space.

� The Euclidean distance in that space is a measure of the similarity of the data items.� Fastmap [FL95]

� Fastmap also operates on a given similarity matrix and iteratively reduces the number of dimensions while preserving the distances as much as possible.

after Keim, 2000


Data Filtering and Preprocessing Techniques

� Subsetting Techniques� (Set of Data Items -> Subset of Data Items)� Sampling (determines a representative subset of the database)� Querying (determines a certain, usually a-priori fixed subset of the database)

� Segmentation Techniques� (Set of Data Items -> Set of (Set of Data Items))� Segmentation based upon attribute values or attribute ranges

� Aggregation Techniques� (Set of Data Items -> Set of Aggregate Values)� Aggregation (sum, count, min, max, ...) based upon

� Attribute values� Topological properties, etc.

� Visualizations of Aggregations:� Histograms� Pie Charts, Bar Charts, Line Graphs, etc.

after Keim, 2000


Zusammenfassung

� Beschreibung der Daten� Datenquellen� Beobachtungsraum� Datenmerkmale

� Datenspezifikation� Datenformate� Reduktion einer Datenmenge

� Projektion� Selektion


Hausaufgabe

� Lesen Sie:� Schumann, Müller

Kap. 3

� Exzerpieren Sie wesentliche Punkte