Upload
afya
View
22
Download
0
Embed Size (px)
DESCRIPTION
Daten. Texteditor. beliebige Anwendung. Datenstruktur 1: Textdatei - PowerPoint PPT Presentation
Citation preview
Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs
Datenstruktur 1: Textdatei
Heike Boß, wohnhaft in der Darmstädter Straße 46, hat die Konten 200004 und 200005. Auf dem ersten Konto hat sie derzeit 4560,00 €, auf dem zweiten Konto hat sie 2398,78 €. Für beide Konten hat sie einen Kreditrahmen von 2000 €. Friedrich Coy wohnt im Siedlerweg 17und hat die Konten 200001 und 200002. Auf dem ersten Konto hat er derzeit 23,56 € (mit einem Kreditrahmen von 50 €), auf dem zweiten Konto hat er 1200 € (mit einem Kreditrahmen von 500 €. Hans-Peter Daab, wohnhaft in der Adalbert-Stifter-Str. 10, hat auf seinem Konto 200006 derzeit kein Geld (aber auh keine Schulden); Kredit hat er derzeit auch nicht.
Vorteil:Nachteil:
Daten beliebige Anwendung
Texteditor
Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs
Datenstruktur 2: Textdatei standardisiert
Heike Boß wohnt in der Darmstädter Straße 46. Sie hat Konto 200004 mit einem Kontostand von 4560,00 € und einem Kreditrahmen von 2000 €. Sie hat Konto 200005 mit einem Kontostand von 2398,78 € und einem Kreditrahmen von 2000 €.
Friedrich Coy wohnt im Siedlerweg 17. Er hat Konto 200001 mit einem Kontostand von 23,56 € und einem Kreditrahmen von 50 €. Er hat Konto 200002 mit einem Kontostand von 1200 € und einem Kreditrahmen von 500 €.
Hans-Peter Daab wohnt in der Adalbert-Stifter-Str. 10. Er hat Konto 200006 mit einem Kontostand von 0 € und einem Kreditrahmen von 0 €.
Vorteil:Nachteil:
Daten beliebige Anwendung
Texteditor
Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs
(noch) Datenstruktur 2: Textdatei standardisiert mit expliziter Strukturdefinition
Name wohnt in Strasse. Sie/Er hat Konto Kontonummer mit einem Kontostand von Kontostand und einem Kreditrahmen von Kreditrahmen. Sie/Er hat Konto Kontonummer mit einem Kontostand von Kontostand und einem Kreditrahmen von Kreditrahmen. (und so weiter)
Vorteil:Nachteil:
Daten beliebige Anwendung
Texteditor
Struktur-info
Validator
Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs
(immer noch) Datenstruktur 2: Textdatei standardisiert mit expliziter Strukturdefinition (BNF)
Bank ::= <Eintrag> <Bank>Eintrag ::= <Inhaber> <Konten>Konten ::= <Konto> <Konten>Inhaber ::= <Name> wohnt in <Strasse>. Konto ::= (Sie|Er) hat Konto <Kontonummer> mit einem Kontostand von
<Kontostand> und einem Kreditrahmen von <Kreditrahmen>. Strasse ::= <Zeichenfolge>Zeichenfolge ::= <Zeichen> <Zeichenfolge>Zeichen ::= (A|B|C … Z)Kontonummer ::= <Ganzzahl>Ganzzahl::= <Ziffer> <Ganzzahl>Ziffer ::= (0|1|2 … 9)Kreditrahmen ::= <Fließpunktzahl>…
Daten beliebige Anwendung
Texteditor
Struktur-info
Validator
Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs
Datenstruktur 3: Strukturdatei (selbstverständlich standardisiert; Vorbild: Lochkarte)
IHeike Boß Darmstädter Straße 46K200004 4560,00 € 2000 €K200005 2398,78 € 2000 €IFriedrich Coy Siedlerweg 17K200001 23,56 € 50 €K200002 1200 € 500 €IHans-Peter Daab Adalbert-Stifter-Str. 10K200006 0 € 0 €.
Vorteil:Nachteil:
Daten beliebige Anwendung
Daten-erfassung
Struktur-info
Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs
Datenstruktur 3: Strukturdatei (comma separated value; CSV)
I;Heike Boß;Darmstädter Straße 46K;200004;4560,00 €;2000 €K;200005;2398,78 €;2000 €I;Friedrich Coy;Siedlerweg 17K;20000;23,56 €;50 €K;200002;1200 €;500 €I;Hans-Peter Daab;Adalbert-Stifter-Str. 10K;200006;0 €;0 €.
Vorteil:Nachteil:
Daten beliebige Anwendung
Daten-erfassung
Struktur-info
Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs
Noch Datenstruktur 3: Strukturdatei (comma separated value; ohne Zeilenstruktur)
I;Heike Boß;Darmstädter Straße 46;K;200004;4560,00 €;2000 €;K;200005; 2398,78 €;2000 €;I;Friedrich Coy;Siedlerweg 17;K;20000;23,56 €;50 €;K; 200002;1200 €;500 €;I;Hans-Peter Daab;Adalbert-Stifter-Str. 10;K;200006;0 €;0 €.
Vorteil:Nachteil:
Daten beliebige Anwendung
Daten-erfassung
Struktur-info
Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs
Noch Datenstruktur 3: Strukturdatei (Binärformat; anderes Beispiel)
- nicht für das menschliche Auge bestimmt -
Vorteil:Nachteil:
Attribut DatentypMannschaftsname char [20]Spiele gespielt intSätze gewonnen intSätze verloren intPunkte gewonnen intPunkte verloren int
Daten beliebige Anwendung
Daten-erfassung
Struktur-info
Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs
Datenstruktur 4: Datenbank mit Data Dictionary
Daten in irgendeinem internen Format; Strukturbeschreibung: in irgendeiner DDL
Beispiel (SQL-DDL):
CREATE TABLE Konto( Kontonummer integer; Kontostand integer; Kreditrahmen integer; Inhaber integer; PRIMARY KEY (Kontonummer); FOREIGN KEY (Inhaber) REFERENCES Inhaber;);
CREATE TABLE Inhaber( Nr integer; Name varchar (50); Strasse varchar (50); PRIMARY KEY (Nr););
Vorteil:Nachteil:
DataDiction.
Daten beliebige Anwendung
DDLInterface
Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs
Zwischenfazit:
Unstrukturierte Daten: Textdatei ohne explizite Strukturierung; Semantik erschließt sich aus der Textinterpretation
Strukturierte Daten: Erst wird eine bindende Struktur festgelegt (-> Semantische Datenmodellierung), dann werden Daten entsprechend dieser Struktur eingegeben (Anwender benötigt spezielle Schnittstelle, da er die Struktur nicht kennt resp. kennen soll). Die Struktur ist weitgehend statisch; Änderungen („Schema Evolution“) machen Mühe.
Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs
Wie geht der Nicht-Informatiker vor?
•Er nimmt keine semantische Datenmodellierung vor (kann/will er nicht ...).•Er erhebt zunächst seine Daten und strukturiert sie (vielleicht) anschließend.•Er vertraut auf geeignete Werkzeuge, die ihm die Auswertung ermöglichen.
•Beispiel: F&A (für eigene Datensammlungen)•Beispiel: Google (für fremde Datensammlungen)
Vorgehen stößt an Grenzen (s.o.)
Ausweg:
Der Anwender ergänzt die Daten um syntaktisch/semantische Zusätze („Tags“).
Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs
Datenstruktur 5: Textdatei mit Tags (zunächst nur Idee)
Heike Boß wohnt in der Darmstädter Straße 46. Sie hat Konto 200004 mit einem Kontostand von 4560,00 € und einem Kreditrahmen von 2000 €. Sie hat Konto 200005 mit einem Kontostand von 2398,78 € und einem Kreditrahmen von 2000 €.
Friedrich Coy wohnt im Siedlerweg 17. Er hat Konto 200001 mit einem Kontostand von 23,56 € und einem Kreditrahmen von 50 €. Er hat Konto 200002 mit einem Kontostand von 1200 € und einem Kreditrahmen von 500 €.
Hans-Peter Daab wohnt in der Adalbert-Stifter-Str. 10. Er hat Konto 200006 mit einem Kontostand von 0 € und einem Kreditrahmen von 0 €.
Vorteil:Nachteil:
NameKontonummer
Straße
Kontostand Kreditrahmen
Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs
Nochmals Datenstruktur 5: Textdatei mit Tags (nun aber – fast – richtig)
Inhaber Heike Boß wohnt in der Straße Darmstädter Straße 46. Sie hat Konto Kontonummer 200004 mit einem Kontostand von 4560,00 € und einem Kreditrahmen von 2000 €. Sie hat Konto Kontonummer 200005 mit einem Kontostand von 2398,78 € und einem Kreditrahmen von 2000 €.
Friedrich Coy wohnt im Siedlerweg 17. Er hat Konto 200001 mit einem Kontostand von 23,56 € und einem Kreditrahmen von 50 €. Er hat Konto 200002 mit einem Kontostand von 1200 € und einem Kreditrahmen von 500 €.
Hans-Peter Daab wohnt in der Adalbert-Stifter-Str. 10. Er hat Konto 200006 mit einem Kontostand von 0 € und einem Kreditrahmen von 0 €.
Vorteil:Nachteil:
Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs
Nochmals Datenstruktur 5: Textdatei mit Tags (nochmals besser)
Anfang_Inhaber Anfang_Name Heike Boß Ende_Name wohnt in der Anfang_Straße Darmstädter Straße 46 Ende_Straße Ende_Inhaber. Sie hat Anfang_Konto Anfang_Kontonummer 200004 Ende_Kontonummer mit einem Anfang_Kontostand von 4560,00 € Ende_Kontostand und einem Anfang_Kreditrahmen von 2000 € Ende_Kreditrahmen Ende_Konto. Sie hat Anfang_Konto Anfang_Kontonummer 200005 Ende_Kontonummer mit einem Anfang_Kontostand von 2398,78 € Ende_Kontostand und einem Anfang_Kreditrahmen von 2000 € Ende_Kreditrahmen Ende_Konto.
Friedrich Coy wohnt im Siedlerweg 17. Er hat Konto 200001 mit einem Kontostand von 23,56 € und einem Kreditrahmen von 50 €. Er hat Konto 200002 mit einem Kontostand von 1200 € und einem Kreditrahmen von 500 €.
Hans-Peter Daab wohnt in der Adalbert-Stifter-Str. 10. Er hat Konto 200006 mit einem Kontostand von 0 € und einem Kreditrahmen von 0 €.
Was fehlt in dieser Datenstruktur? Was ist zuviel?
Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs
Nochmals Datenstruktur 5: Textdatei mit Tags (XML)
<Inhaber> <Name> Heike Boß </Name> <Straße> Darmstädter Straße 46 </Straße> <Konto> <Kontonummer> 200004 </Kontonummer> <Kontostand> 4560,00 € </Kontostand> <Kreditrahmen 2000 € </Kreditrahmen> </Konto> <Konto> <Kontonummer> 200005 </Kontonummer> <Kontostand 2398,78 € </Kontostand> <Kreditrahmen> 2000 € </Kreditrahmen> </Konto></Inhaber>
Friedrich Coy wohnt im Siedlerweg 17. Er hat Konto 200001 mit einem Kontostand von 23,56 € und einem Kreditrahmen von 50 €. Er hat Konto 200002 mit einem Kontostand von 1200 € und einem Kreditrahmen von 500 €.
Hans-Peter Daab wohnt in der Adalbert-Stifter-Str. 10. Er hat Konto 200006 mit einem Kontostand von 0 € und einem Kreditrahmen von 0 €.
Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs
Fazit:
Unstrukturierte Daten: Textdatei ohne explizite Strukturierung; Semantik erschließt sich aus der Textinterpretation
Semistrukturierte Daten: Die Strukturinformation ist Teil der Daten (implizit oder explizit). Die Struktur weist Variationen auf. Neue von der bisherigen Struktur abweichende Daten sind jederzeit einfügbar (keine Schema-Evolution nötig). Strukturinformation (Schema) lässt sich nachträglich aus den Daten gewinnen.
Strukturierte Daten: Erst wird eine bindende Struktur festgelegt (-> Semantische Datenmodellierung), dann werden Daten entsprechend dieser Struktur eingegeben (Anwender benötigt spezielle Schnittstelle, da er die Struktur nicht kennt resp. kennen soll). Die Struktur ist weitgehend statisch; Änderungen („Schema Evolution“) machen Mühe.