Prof. Dr. Detlef Krömker
Goethe-Universität, FrankfurtGraphische Datenverarbeitung
Visualisierung
Vorlesung 3
WS 2005/20062Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Übersicht
� Wiederholung letzte Vorlesung (Teil B+C)
� Was kann visualisiert werden? (Teil D)
WS 2005/20063Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Allgemeine Anforderungen
� Eine Visualisierung soll� expressiv,� möglichst effektiv und� angemessen
� sein
WS 2005/20064Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Einflussfaktoren der Visualisierungsqualität
�Einflussfaktoren auf die Visualisierung sind� Art und Struktur der Daten
� Z.B. Typ der Daten, Dimension des Beobachtungsbereiche� Bearbeitungsziel bei der Visualisierung
� Z.B. Überblick, Detailanalyse oder Ergebnispräsentation für Dritte
� Vorwissen des Anwenders/Betrachters� Z.B. Laie, Entscheider, Planer
� Visuellen Fähigkeiten und Vorlieben des Betrachters� Z.B. rot-grün-blind, spezielle Farbpräferenzen
� Übliche Metaphern oder Konventionen des Anwendungsgebietes,� Z.B. übliche Symbole oder übliche Darstellungsformen
� Charakteristika des Darstellungsmediums� Z.B. Auflösung, Anzahl der darstellbaren Farben und Rechenleistung
WS 2005/20065Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Der Visualisierungsprozess
� Die Visualisierungspipeline� Transformationen (Funktionen)� Datenarten und Datenfluss
� Klassifikation der Visualisierungen� Rollen im Visualisierungsprozess� Referenzmodell für die Visualisierung� Visualisierungsszenarien
WS 2005/20066Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Die VisualisierungspipelineVisualisierungspipeline� Repräsentiert die typische
Vorgehensweise zurErzeugung einer Visualisierungfür vorgegebene Daten und Visualisierungsziel
� Zeigt die verschiedenen Stufendes Visualisierungs-prozessesund die entsprechendenZwischenergebnisse auf
Filterung
Mapping
Rendering
Daten
Medien
Aufbereitete Daten
Visualisierungselemente
Steuerung
Steuerung
User
Wahrnehmung
Interaktion
WS 2005/20067Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
VisualisierungsszenarienBsp. Interaktives Postprocessing
SchrittDatenerzeugung
Roh-daten
BeobachtungMessung
Modellierung
SimulationBerechnung
1 SchrittInteraktive Visualisierung
Bild
2
Roh-daten
Visualisierung
Analyse
Nutzer
WS 2005/20068Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Visualisierungsprozesse
�Rollen im Visualisierungsprozess:� Autor – Betrachter
�Nutzungsszenarien:� Tracking� Interaktives Postprocessing� Bewegungsmodus� Interaktive Steuerung
Prof. Dr. Detlef Krömker
Goethe-Universität, FrankfurtGraphische Datenverarbeitung
Was kann visualisiert werden?
Teil D
WS 2005/200610Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Übersicht
� Beschreibung der Daten� Datenquellen� Beobachtungsraum� Datenmerkmale
� Datenspezifikation� Datenformate� Reduktion einer Datenmenge
� Projektion� Selektion
WS 2005/200611Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Beschreibung der Daten
� Daten unterscheiden sich bezüglich� Struktur� Dimensionalität� Umfang� ...� Bezugsraum in dem sie gemessen, beobachtet
berechnet, entworfen werden� Kennen und Berücksichtigen dieser
Charakteristika ist entscheidend für die Erfüllung des Kriteriums „Expressivität“
WS 2005/200612Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Datenquellen
� Daten stammen aus� der realen Welt� theoretischen Welten� künstlichen Welten
� liefern Datenmengen im Mega-, Giga-, Terabytebereich, wobei maßgebend sind� Anzahl der Mess- oder Beobachtungspunkte� Anzahl der Parameter pro Punkt� Anzahl der Werte pro Parameter� Speicheraufwand pro Wert
WS 2005/200613Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Beispiele: Datenquellen
FilmeSpezialeffekteWWW(gesamtes Web)
SpieleVR-Szenarien
WWW (Einzeldokumente)
KünstlicheWelten
Hochenergie-physikAstronomieGeographie(Militär ?)
SeismikKristallographieGeographieMeteorologieMedizin
MedizinGeographieMeteorologieElektronen-mikroskopie
Reale Welt
Messdaten
TerabyteGigabyteMegabyte
WS 2005/200614Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Beispiele: Datenquellen
CustomerRelationship Data
Ökonomie- oder Finanzmodelle
GeschäftsdatenWirtschafts-wissenschaften
Styling (Auto)ArchitekturKonstruktion (FEM)Anlagenplanung
Ingenieur-wissenschaften
MoleküldesignMeteorologieStrömungs-simulation (CFD)
MolekulardynamikQuantenchemieMathematik
Naturwissen-schaften
TerabyteGigabyteMegabyteTheoretische Welten
WS 2005/200615Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Beobachtungsraum
�Wir unterscheiden:� physikalischer Raum � (3 Ortsdimensionen + Zeit)� abstrakter Raum � beliebige Dimension
�Allgemeine Annahme:� metrische Räume
�Beobachtungsraum� Dimensionalität� Wirkungskreis und Verbund der Beobachtungspunkte
�Beobachtungspunkte � Koordinaten des Beobachtungsraums, an denen Daten
vorliegen
WS 2005/200616Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Beobachtungsraum
�Dimensionalität des Beobachtungsraums� entspricht der Anzahl der unabhängigen Parameter
(Variablen)
�Charakteristika des Beobachtungsraums� diskret
� regulär (äquidistant)� nicht regulär (Scattered, z.B. Event-gesteuert)
� Kontinuierlich� Aber: im Rechner immer diskretisiert und quantisiert!
WS 2005/200617Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Dimension des Beobachtungsraums
� Terminologie zur Dimension des Beobachtungsraums� 1-dimensionale Daten Dimension = 1� 2-dimensionale Daten Dimension = 2� 3-dimensionale Daten Dimension = 3� Multidimensionale Daten Dimension > 1
WS 2005/200618Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Datenmerkmale
�Merkmale� Größen, die in einem Beobachtungsraum gemessen,
berechnet oder entworfen werden� Spannen den Merkmalsraum auf� Andere Bezeichnung: abhängige Variable
�Aspekte� Datentyp: Typ des Merkmals� Dimensionalität: Anzahl der Werte pro
Beobachtungspunkt� Wertebereich: mögliche Ausprägung des Wertebereichs� Strukturierung: Beziehungen zwischen den Merkmalen
WS 2005/200619Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Merkmalsraum (I)
� “Unabhängige Variablen" vs. “abhängige Variablen"� Unabhängige Variablen werden durch den
Beobachtungsraum beschrieben� Alle anderen Attribute sind “abhängige Variablen” und
beschreiben den Merkmalsraum� Bemerkung: die Unterscheidung von unabhängigen
und abhängigen Variablen ist oft nur bei Daten mir Orts-/Raumbezug eindeutig möglich und in vielen anderen Fällen willkürlich!
WS 2005/200620Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Merkmalsraum (II)
� Terminologie� Univariate Daten
� Dimension des Merkmalsraums = 1� Bivariate data
� Dimension des Merkmalsraums = 2� Multivariate Daten, Multiparameter-Daten
� Dimension des Merkmalsraums > 2
WS 2005/200621Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Datentypen (I)
� Datentypen� Unterscheidung interner Formate wie zum Beispiel „Byte“ oder „Real“
� Auch: Beschreibung des Grads der Quantisierung� Charakterisierung der Anzahl der Komponenten eines Merkmals
� Skalare Größen � Werden als Zahl repräsentiert� Beispiel: Temperatur
� Vektorielle Größen � Betrag und Richtung, n-Tupel von Skalaren � Beispiel: Geschwindigkeit
� Tensorielle Größen� Zusammenfassung mehrerer skalarer Größen mit bestimmten
Transformationsverhalten� Repräsentieren eine Menge von Werten und Richtungen
WS 2005/200622Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Datentypen (II)
� Zusammenhänge� Skalar: Tensor 0-ter Ordnung� Vektor: Tensor 1-ter Ordnung� Matrix: Tensor 2-ter Ordnung
WS 2005/200623Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Datentypen (III)�Qualitativ (Nominal)
� Keine Ordnungsrelation definiert� Beispiele: Städtenamen, Automarken
�Qualitativ (Ordinal)� Ordnungsrelation, aber kein Maß zur
Bestimmung von Intervallgrößen� Beispiele: erster, zweiter, dritter, …,
kalt, warm, hei�Quantitativ (Intervall und Ratio)
� Kontinuierliche Prozesse oder Phänomene
� Beispiel: Temperatur über die Zeit� Ratio Scales erlauben zusätzlich zur
Bestimmung von Differenzen auch die Bestimmung von Verhältnissen
Daten
Qualitativ Quantitativ
Nominal Ordinal Intervall
Ratio
WS 2005/200624Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Datentypen (IV)
� Bemerkung:� Eine detailliertere Klassifikation von
Datentypen ist nur auf Basis eines akzeptierten gemeinsamen Verständnisses (z.B. standardisierte Ontologie) möglich
� Dies korrespondiert zu einer Klassifikation des Wissens und zumindest nicht trivial!
WS 2005/200625Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Beobachtungsraum: Wirkungskreis
punktuell
lokal
global
Daten gelten nur für den Beobachtungspunkt
Daten gelten in einer gewissen Umgebung um den Beobachtungs-punkt (z.B. durch endliche Apertur der Abtastung � Integration über eine Region)
Daten gelten für den gesamten Beobachtungsraum
WS 2005/200626Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Diskussion: Wirkungskreis
� Wirkungskreis ist abhängig von � Messverfahren und � Kontext (d.h. Interpretation)
� Bei punktuellem und globalem Wirkungskreis ist die Zuordnung der Messwerte eindeutig
WS 2005/200627Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Abtastung und Rekonstruktion (I)
Abtastung
Signal
Samples
Signal
Kontinuierliches Signal
Rekonstruktion
Diskretes Signal
Samples
Signal
Rekonstruiertes Signal
WS 2005/200628Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Abtastung und Rekonstruktion (II)
Abtastung
Signal
Rekonstruktion
Diskretes Signal
Samples
Signal
Rekonstruiertes Signal
Samples
Signal
WS 2005/200629Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Beispiel: Pixel Matrix
WS 2005/200630Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Abtasttheorem (I)
�Frage:� Wie muss ein Signal abgetastet werden, um eine
korrekte Rekonstruktion zu ermöglichen�Antwort:� Shannon (1949)*:
„If a function f(t) contains no frequencies higher than W cps, it is completely determined by giving its ordinates at a series of points spaced 1/2 W seconds apart.The function can be simply reconstructed from thesamples by using a pulse of the type sin 2
2π
πWtWt
*Vorarbeiten durch H. Nyquist (1924) und J.M. Whittaker (1935).
WS 2005/200631Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Abtasttheorem (II)
� Ein bandbegrenztes (kontinuierliches) Signal f(x), das mit Abtastintervallen abgetastet wird, kann fehlerfrei rekonstruiert werden, wenn die Abtastfrequenzen größer als die Nyquist-Frequenz ist:
x∆
us bux
21 >=∆mit
ubfürF >= ξξ 0)(
ub
su
(Bandbegrenzung)
© D
etle
f Krö
mke
r
WS 2005/200632Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Abtasttheorem (III)� Ein diskretes Signal lässt sich mit Hilfe eines (idealen)
Tiefpasses mit der Übertragungsfunktion
� rekonstruieren, so dass dieses mit dem ursprünglichen Signal identisch ist. Das rekonstruierte Signal ist dann
][)sinc()(
][)()(
Ortsraumxxxhbub
umFrequenzramiturectxuH
TP
uu
TP
ξξ
ξ
∆=−∆<<
∆=
)(xfd
π
π
)(
)sin()()(
mx
x
mx
x
xmfxfm −
∆
−∆∆= �
∞
−∞=
© D
etle
f Krö
mke
r
WS 2005/200633Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Verbund der Beobachtungspunkte (I)� Unstrukturiert
� Keine implizite Ordnung der Datenobjekte� Beispiel: Personendaten in Datenbank
� Sequentiell� Implizite Struktur der Datenobjekte in Form
eine geordneten Liste� Beispiel: zeitvariante Daten
� Gitter� Datenobjekte definiert mit Bezug auf ein
Gitter� Beispiel: Daten mit Raumbezug
� Hierarchisch� Hierarchische Struktur der Datenobjekte� Beispiel: Dokumentenstruktur
� Netz� Netzstruktur der Datenobjekte� Beispiel: Hypertext, Hypermedia, WWW
WS 2005/200634Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Verbund der Beobachtungspunkte (II)
Gitter als Verbund der BeobachtungspunkteMan unterscheidet:
� Regelmäßige Gitter� Unregelmäßige Gitter� Blockstrukturierte Gitter� Strukturierte Gitter� Hybride Gitter
Oft Vereinfachungen möglich, wenn eine bestimmte Gitterstruktur gewählt wird
WS 2005/200635Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Regelmäßiges Gitter
Andere Bezeichnung� uniformes Gitter
Eigenschaften� achsparallele Gitterlinien� sehr oft orthogonal� häufig gleichabständig
WS 2005/200636Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Unregelmäßige Gitter
Andere Bezeichnung� unstrukturierte Gitter
(Scattered Data)
Eigenschaften� Gitterpunkte müssen immer
explizit angegeben werden
Typische Quellen� Geländekartierungen
WS 2005/200637Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Blockstrukturierte Gitter
Eigenschaften� Achsenparallele Gitternetzlinien mit
unterschiedlichen Abständen
WS 2005/200638Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Strukturiertes Gitter
Eigenschaften� Koordinaten der Gitterpunkte sind
implizit durch einen Index gegeben
Sind die Gitterlinien als Kurven in Parameterform gegeben, sprechen wir von kurvilinearen Gitter
WS 2005/200639Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Hybride Gitter
Zusammensetzung aus unterschiedlichen Gittertypen
WS 2005/200640Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Schema zur Klassifikation von DatenDaten über metrischen Räumen
skalare Daten tensorielle Datenvektorielle Daten
1,- 2,- 3-dimensionale Räume
höherdimensionale Räume
Einparameter-Daten Multiparameter-Daten
Daten auf regelmäßigenblockstrukturierten oderstrukturierten Gittern
gitterfreieDaten
Daten auf unregel-mäßigen oderhybriden Gittern
Dimensionalitätdes Beobach-tungsraums
Datenverbund
Anzahl der Merkmale
Datentyp
WS 2005/200641Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Unvollständige Daten und Daten mit lokalem Wirkungskreis
�Viele Visualisierungsverfahren verlangen� Vollständige Datensätze� (Annährend) kontinuierliche Daten
�Zusätzliches Problem� Fehlende Daten könnnen zu unerwünschten Artefakten
bei der Visualisierung führen�Häufig gewählter Ansatz� Interpolation oder Approximation des Werteverlaufs für
fehlende Daten auf Basis benachbarter Datenwerte mit lokalem/punktuellen Wirkungskreis
WS 2005/200642Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Interpolation und Approximation
Interpolation� Verfahren zur Rekonstruktion des
kontinuierlichen Werteverlaufs auf Basis diskreter Datenwerte
� Eigenschaft: alle ursprünglichen Datenwerte sind Teil der Kurve
� Beispiele: Lagrange, SplinesInterpolation in 2d
� Voronoi Diagramme� Scattered Data Interpolation
Approximation� Eigenschaft: Datenwerte sind nicht
notwendigerweise Teil der Kurve� Ggf. Vorteilhaft im Fall von fehlerbehafteten
Daten� Beispiel: Taylor
WS 2005/200643Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Datenwertzuordnung
� Datenwertzuordnung bei lokalem Wirkungskreis
� Ausgangspunkt: � Menge beliebig verteilter Beobachtungspunkte
(Scattered Data) in einem Beobachtungsraum
� Übliche Verfahren zur Datenwertzuordnung� Voronoi-Zerlegung� Scattered-Data-Interpolation
WS 2005/200644Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Voronoi -Zerlegung
�Vorgehensweise� Beobachtungsraum wird unterteilt in Gebiete, so dass
jedem Gebiet genau ein Beobachtungspunkt zugeordnet ist
� Jeder Punkt X des Beobachtungsraumes wird nun genau einem Gebiet Gj zugeordnet und zwar so, dass alle Punkte dieses Gebietes zu dem Beobachtungspunkt dieses Gebietes einen geringeren Abstand haben als zu allen anderen Beobachtungspunkten
{ }mkjkPXPXXG kjn
j ≤∧≠∀−<−ℜ∈= :
WS 2005/200645Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Beispiel: Voronoi-Zerlegung
Für die Messwerte wurde eine Klasseneinteilung vorgenommen
Voronoi-Zerlegung zur Visualisierung:
WS 2005/200646Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Algorithmus
� Steve Fortune: A sweepline algorithmfor Voronoi diagrams, Proceedings of theSecond Annual Symposium on Computational Geometry, Yorktown Heights, New York, USA, pp. 313 – 322, 1986
� Overmars et. Al.: Computational Geometry
WS 2005/200647Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Scattered-Data-Interpolation�Voraussetzungen:� Gegeben: Menge von Beobachtungspunkten
Pi = (x1i, .. ,xni) mit i = 1, 2, ... m; m ≥ 1 und � m: Anzahl der Beobachtungspunkte, � n: Dimension des Beobachtungsraumes mit n ≥ 1,� xl: l-te Dimension des Beobachtungsraums mit l = 1, ...,n und � xli die Koordinate des i-ten Beobachtungspunktes bzgl. der I-
ten Dimension.� Für jeden Beobachtungspunkt Pi sei ein Datenwert fi
gegeben. �Gesucht:� Funktion F(x1, .. , xn) = fi
ohne Voraussetzungen bzgl. Verteilung der Beobachtungspunkte
WS 2005/200648Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Shepard-Interpolation
�
.
12222
211
11
11
11
1
))(...)()(()..,,(..
)..,,(
)..,,(),..,(
−−
=
=
−+−+−==
=�
�
nknkkknk
m
knk
m
kknk
n
xxxxxxdxxWmitBz
xxW
fxxWxxF
Kritik: alle Datenwerte haben globalen Einfluss. Man beschränkt also den Einfluss eines Datenwertes, z.B. nach Franke-Little
���
≤>−
=−
��
���
⋅−=
+
+
k
kkk
k
knk
drdrdr
dr
mitdrdrxxW
falls0falls
)(
)(),..,(2
1
r ist Radius des Wirkungskreises
WS 2005/200649Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Beispiel: Shepard-Interpolation
WS 2005/200650Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Weitere Charakteristika
� Zusammensetzung der Datenmenge: � Welche Datentypen mit welchen Wertebereich:
nominal, ordinal, metrisch� Umfang der Datenmenge:
� Wieviele Merkmale, wie oft, an wievielenBeobachtungspunkten
� Qualität der Datenmenge:� Vollständigkeit und Fehlerbetrachtung
� Weitere bekannte Zusammenhänge:� Redundanzen, Korrelationen, ...
© D
etle
f Krö
mke
r
WS 2005/200651Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Metadaten (nach Treinisch)�„Datenbasis“ – Metadaten
� Notwendige Informationen zum Datenzugriff (z.B. Datenbankkennung, Passwort, Datenformate)
�„Attribut“ – Metadaten � Charakterisierung der Daten (z.B. Merkmalsraum, Typen, etc.)
�„Hilfs“(meta)daten � Zusätzliche (i. allg.) numerische Daten, die für eine richtige
Interpretation der gegebenen Datenmenge erforderlich sind (z.B. demographische Daten oder Zeitangaben)
�„Andere“ Metadaten � Daten zur qualitativen Beurteilung� In der Regel begleitende Texte
© D
etle
f Krö
mke
r
WS 2005/200652Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Attributmetadaten (I)� Spezifikation von Attributmetadaten nach Bergeron und
Grinstein� Grundlegender Ansatz zur Klassifikation
� m-dimensionale Datenelemente auf einem k-dimensionalen Gitter
� Beispiele:� Multiparameter-Daten: mit m ≥ 2 und k beliebig.
� Gitterfreie Daten: mit m ≥ 1.� Volumendaten: und Datenelement ist
Skalar� Strömungsdaten: mit k ≤ 3 und Daten-
element Vektor � Kritik: Volumendaten und Strömungsdaten nicht ohne weiteres
unterscheidbar
kmL
0mL
31L
kL1
kmL
WS 2005/200653Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Attributmetadaten (II)
� Spezifikation von Attributmetadaten nach Brodlie� Grundlegender Ansatz zur Klassifikation
� Unabhängige Variablen werden in ihrer Dimensionalität(unterer Index) beschrieben:
� Wirkungskreis Keine Klammer: Daten gelten an einem PunktEckige Klammer: Daten gelten in einem BereichGeschweifte Klammer: Daten sind vom Aufzählungstyp
� Abhängige Variablen werden durch Dimensionalität und Typ(oberer Index) beschrieben, z.B.
� iS: i Skalare� iV3: i 3-Dimensionale Vektoren� Beispiele:
33VE [ ]
SE 52
Achtung:unterer und oberer Index zu
Begeron, Grinsteinvertauscht!
WS 2005/200654Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Attributmetadaten (II)
� Spezifikation von Attributmetadaten nach Graw� A: Anzahl der Beobachtungsfälle � c: Qualität der Datenmenge (vollständig/unvollständig)� di: Anzahl der Merkmale mit Charakteristik (ti, oi, ui)
� ti: Datentyp� oi: Existenz einer Ordnungsrelation über Wertebereich (ja/nein)� ui: Umfang des Wertebereichs
� n: Dimensionalität des Beobachtungsraumes� g: Verbund der Beobachtungspunkte� w: Wirkungskreis der Beobachtungspunkte (punktuell, lokal,
global)� t = (ta, tdis, te) mit
ta Anfangszeitpunkttdis Größe der Zeitintervalle (kontinuierlich, diskret)te Endzeitpunkt
WS 2005/200655Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Datenformate
� Daten werden in unterschiedlichsten Formen und Formaten abgelegt� Große Anzahl proprietärerer Datenformate� Einige internationale und de-facto Standards für
Datenaustausch und -zugriff� Im Folgenden wird eine kleine Auswahl kurz
vorgestellt:� Tabellen und Excel� Datenbanken� NetCDF� Topic Maps
WS 2005/200656Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Datenformate: Tabellen
Tabellen: � Meistverwendete Form zur Repräsentation großer Datensätze
Case1 Case2 Case3 ...
Attribute1
Attribute2
Attribute3
...
Value11 Value21 Value31
Value12 Value22 Value32
Value13 Value23 Value33
Bermerkung:Cases korrespondieren zu Datenobjekten, sind im Kontext von Tabellen jedoch die üblichere Bezeichnung
WS 2005/200657Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Datenformate: Beispiel fürDatentabelle
2-3
1-2
.286
5
2
Washington
0-00-01-11-0Div.
1-32-13-24-1Conf.
.333.429.667.833Pct.
4421Loss
2345Win
MiamiOrlandoBostonNew Jersey
NBA Eastern Conference Standings
WS 2005/200658Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Datenformate: Excel und ASCII Dump Format
�Typische Repräsentationsformen von Tabellen in der Praxis
� Proprietäres Austauschformat von Microsoft Excel� ASCII Dump Formats, z.B.
� TAB Separated List� Semicolon Separated List
�Viele Werkzeuge und Datenbanken unterstützen diese Formate zum Import und Export�Daten können im Netz häufig in einem dieser Formate gefunden werden
;New Jersey;Boston;Orlando;Miami;Washington
Win;5;4;3;2;2
Loss;1;2;4;4;5
Pct.;.833;.667;.429;.333;.286
Div.;1-0;1-1;0-0;0-0;1-2
Conf.;4-1;3-2;2-1;1-3;2-3
WS 2005/200659Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Datenformate: Daten in Databanken
Große und mittelgroße Firmen sowie Content Provider speichern und managen ihre Daten häufig in Datenbanksystemen
Zugriff auf Daten erfolgt dann im allgemeinen unter Verwendung von SQL
72-6750income34372450age
164163170187sizefemalemalefemalemalesexIreneBobElsaTomname
4321
72-6750income34372450age
femalemalefemalemalesex4321
SELECT sex, age, incomeFROM persons
WS 2005/200660Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Datenformate: Datenbankzugriffe
There are several ways to access data from database for the purpose of visualization, e.g.
a) Access of a database from a visualization application
b) Access over the Web via PHP or Java Server Pages (JSP)
c) Access over the Web via Flash
DB
OD
BC
Inte
rfac
e
Application
DB
Dat
abas
e Se
rver
Web Browser
Flash
DBWeb
Browser
JSP
PHP
Web
Ser
ver
a)
b)
c)
WS 2005/200661Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Datenformate: Zugriff über das Netz
Beispiel: � Visualisierung von
demographischen Daten� Starkenburg
(www.regionaldaten.de)Technische Umsetzung
� mySQL-Datenbank zur Verwaltung der Daten
� PHP-Skripte zur Extraktion der relevanten Daten aus der Datenbank und zur Generierung der HTML-Seiten mit Navigationselementen
� Flash zur Visualisierung
WS 2005/200662Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Datenformate: NetCDF
�Network Common Data Format (NetCDF)�Entwicklung der University Corporation for Atmospheric Research (UCAR, 1993)�Aspekte
� Textuelle Beschreibung sowohl von Daten wie auch von Metadaten� Primär zur Repräsentation von Daten mit Raum- und Zeitbezug auf
unterschiedlichen Gitterformen, aber auch Mechanismen zurBeschreibung von Netzen
� Weite Verbreitung in der Wissenschaftswelt� Selbsterklärend � Erweiterbar=> Wird voraussichtlich mit Hierarchical Data Format 5 kombiniert
WS 2005/200663Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Beispiel eines NetCDF Filesnetcdf example { //example of CDL notation for a netCDF file
dimensions: // dimension names and sizes are declared firstlat = 5, lon = 10, level =4, time = unlimited;
variables: // variable types, names, shapes, attributesfloat temp(time, level, lat, lon);
temp: long_name = “temperature“;temp: units = “celcius“;
float rh(time, lat, lon);rh: long_name = „relative humidity“;rh: valid_range = 0.0, 1.0; // min and max
int lat(lat), lon(lon), level(level);lat: units = “degrees_north“;lon: units = “degrees_east“;level: units = “millibars“;
short time(time);time: units = “hours since 1990-11-25 12:00 UTC“;
// global attributes: source = “National Weather Service“;
data: //optional data assignmentslevel = 1000, 850, 700, 500;lat = 20, 30, 40, 50, 60;lon = -160, -140, -118, -96, -84, -52, -45, -35, -25, -15;time= 12;rh = .5, .2, .4, .2, .3, .2, .4, .5, .6, .7, .1, .3, .1, .1, .1, .1, .5,
.7, .8, .8, .1, .2, .2, .2, .2, .5, .7, .8, .8, .9,
.1, .2, .3, .3, .3, .3, .7, .8, .8, .9, 0, .1, .2, .4, .4, .4, .4,
.7, .9, .9;}
Terminologie:
Dimensions: Unabh. Variablen
Variables: Abh. Variablen
WS 2005/200664Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Topic Maps
Semantische Netze� Zuerst eingeführt auf dem
Gebiet der Künstlichen Intelligenz zur Wissensrepräsentation (Quillian 1966)
� Darstellung von Konzepten und Relationen in Form eines Graphen
Frames� Partitionen eines
semantischen Netzwerkes� Hierarchische Struktur
Document Registration
Inference-basedInformation System
Knowledge Aquisition
Information System
Content Extraction
Fulltext Database
Database System
Expert System
User Interface
Thesaurus
Retrieval
Indexing
Input
<<is-part>>
<<is-tool>>
<<is-a>>
<<is-function>>
<<is-a>>
<<is-function>>
<<is-a>>
<<is-a>>
<<is-function>>
<<is-tool>>
<<is-a>>
<<is-part>>
<<is-a>>
Knorz, 2001
WS 2005/200665Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Topic Maps�Topic Maps� Austauschformat für Begriffsnetze / Semantische Netze
�Internationaler Standard seit 1999 (ISO/IEC FCCD 13250:2000)�XTM 1.0� XML Encoding für Topic Maps
�Komponenten� Typen, Instanzen (Occurrences), sowie Assoziationen
zwischen Topics�Weitere Informationen� http://www.topicmaps.org/xtm/1.0/core.xtm
WS 2005/200666Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Topic Maps
Data
Meta Data
M0: Core Elements
M1: Conceptual Layer
M2: Core Elements
occurrence
association
Course
Krömker
Script.htm
WS 2005/200667Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Reduktion einer Datenmenge
� Entfernung irrelevanter Daten� statistische oder� informationstheoretische Methoden
� Abstraktion durch Aggregation: � Durchschnittswert und min, max Werte oder� Durchschnittswert und Standardabweichung� Gruppierung (Clustern � Clusteranalyse)
� Angabe des Bereichs von Interesse� Beobachtungsraum� Merkmalsraum
� Auswahl von Teilmengen:� Projektion� Selektion� ggf. Teilmengen durch Methoden des Focusing & Linking verbinden
WS 2005/200668Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Unterstützung zur Datenauswahl
� Methoden der Statistik, u.a.� Korrelationen, diverse statistische Tests, ...� Varianzanalyse� Faktoranalyse� Clusteranalyse� Diskriminanzanalyse
� Methoden der Informationstheorie:� Redundanzanalyse, Relevanzanalyse
WS 2005/200669Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Data Filtering and Preprocessing Techniques
� Dimension Reduction� (Set of d-dim Data Items -> Set of k-dim. Data Items; k << d)
� Principal Component Analysis [DE82]� Determines a minimal set of principal components (linear combinations of the original
dimensions) which explain the main variations of the data.� Factor Analysis [Har 67]
� Determines a set of unobservable common factors which explain the main variations of the data.
� The original dimensions are linear combinations of the common factors.� Multidimensional Scaling [SRN72]
� Uses the similarity (or dissimilarity) matrix of the data as defining coordinate axes in multidimensional space.
� The Euclidean distance in that space is a measure of the similarity of the data items.� Fastmap [FL95]
� Fastmap also operates on a given similarity matrix and iteratively reduces the number of dimensions while preserving the distances as much as possible.
after Keim, 2000
WS 2005/200670Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Data Filtering and Preprocessing Techniques
� Subsetting Techniques� (Set of Data Items -> Subset of Data Items)� Sampling (determines a representative subset of the database)� Querying (determines a certain, usually a-priori fixed subset of the database)
� Segmentation Techniques� (Set of Data Items -> Set of (Set of Data Items))� Segmentation based upon attribute values or attribute ranges
� Aggregation Techniques� (Set of Data Items -> Set of Aggregate Values)� Aggregation (sum, count, min, max, ...) based upon
� Attribute values� Topological properties, etc.
� Visualizations of Aggregations:� Histograms� Pie Charts, Bar Charts, Line Graphs, etc.
after Keim, 2000
WS 2005/200671Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Zusammenfassung
� Beschreibung der Daten� Datenquellen� Beobachtungsraum� Datenmerkmale
� Datenspezifikation� Datenformate� Reduktion einer Datenmenge
� Projektion� Selektion
WS 2005/200672Visualisierung – Vorlesung 3Prof.Dr. Detlef Krömker
Hausaufgabe
� Lesen Sie:� Schumann, Müller
Kap. 3
� Exzerpieren Sie wesentliche Punkte