16
Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs Datenstruktur 1: Textdatei Heike Boß, wohnhaft in der Darmstädter Straße 46, hat die Konten 200004 und 200005. Auf dem ersten Konto hat sie derzeit 4560,00 €, auf dem zweiten Konto hat sie 2398,78 €. Für beide Konten hat sie einen Kreditrahmen von 2000 €. Friedrich Coy wohnt im Siedlerweg 17und hat die Konten 200001 und 200002. Auf dem ersten Konto hat er derzeit 23,56 € (mit einem Kreditrahmen von 50 €), auf dem zweiten Konto hat er 1200 € (mit einem Kreditrahmen von 500 €. Hans-Peter Daab, wohnhaft in der Adalbert-Stifter-Str. 10, hat auf seinem Konto 200006 derzeit kein Geld (aber auh keine Schulden); Kredit hat er derzeit auch nicht. Vorteil: Nachteil: Daten beliebige Anwendung Texteditor

Datenstruktur 1: Textdatei

  • Upload
    afya

  • View
    22

  • Download
    0

Embed Size (px)

DESCRIPTION

Daten. Texteditor. beliebige Anwendung. Datenstruktur 1: Textdatei - PowerPoint PPT Presentation

Citation preview

Page 1: Datenstruktur 1: Textdatei

Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs

Datenstruktur 1: Textdatei

Heike Boß, wohnhaft in der Darmstädter Straße 46, hat die Konten 200004 und 200005. Auf dem ersten Konto hat sie derzeit 4560,00 €, auf dem zweiten Konto hat sie 2398,78 €. Für beide Konten hat sie einen Kreditrahmen von 2000 €. Friedrich Coy wohnt im Siedlerweg 17und hat die Konten 200001 und 200002. Auf dem ersten Konto hat er derzeit 23,56 € (mit einem Kreditrahmen von 50 €), auf dem zweiten Konto hat er 1200 € (mit einem Kreditrahmen von 500 €. Hans-Peter Daab, wohnhaft in der Adalbert-Stifter-Str. 10, hat auf seinem Konto 200006 derzeit kein Geld (aber auh keine Schulden); Kredit hat er derzeit auch nicht.

Vorteil:Nachteil:

Daten beliebige Anwendung

Texteditor

Page 2: Datenstruktur 1: Textdatei

Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs

Datenstruktur 2: Textdatei standardisiert

Heike Boß wohnt in der Darmstädter Straße 46. Sie hat Konto 200004 mit einem Kontostand von 4560,00 € und einem Kreditrahmen von 2000 €. Sie hat Konto 200005 mit einem Kontostand von 2398,78 € und einem Kreditrahmen von 2000 €.

Friedrich Coy wohnt im Siedlerweg 17. Er hat Konto 200001 mit einem Kontostand von 23,56 € und einem Kreditrahmen von 50 €. Er hat Konto 200002 mit einem Kontostand von 1200 € und einem Kreditrahmen von 500 €.

Hans-Peter Daab wohnt in der Adalbert-Stifter-Str. 10. Er hat Konto 200006 mit einem Kontostand von 0 € und einem Kreditrahmen von 0 €.

Vorteil:Nachteil:

Daten beliebige Anwendung

Texteditor

Page 3: Datenstruktur 1: Textdatei

Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs

(noch) Datenstruktur 2: Textdatei standardisiert mit expliziter Strukturdefinition

Name wohnt in Strasse. Sie/Er hat Konto Kontonummer mit einem Kontostand von Kontostand und einem Kreditrahmen von Kreditrahmen. Sie/Er hat Konto Kontonummer mit einem Kontostand von Kontostand und einem Kreditrahmen von Kreditrahmen. (und so weiter)

Vorteil:Nachteil:

Daten beliebige Anwendung

Texteditor

Struktur-info

Validator

Page 4: Datenstruktur 1: Textdatei

Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs

(immer noch) Datenstruktur 2: Textdatei standardisiert mit expliziter Strukturdefinition (BNF)

Bank ::= <Eintrag> <Bank>Eintrag ::= <Inhaber> <Konten>Konten ::= <Konto> <Konten>Inhaber ::= <Name> wohnt in <Strasse>. Konto ::= (Sie|Er) hat Konto <Kontonummer> mit einem Kontostand von

<Kontostand> und einem Kreditrahmen von <Kreditrahmen>. Strasse ::= <Zeichenfolge>Zeichenfolge ::= <Zeichen> <Zeichenfolge>Zeichen ::= (A|B|C … Z)Kontonummer ::= <Ganzzahl>Ganzzahl::= <Ziffer> <Ganzzahl>Ziffer ::= (0|1|2 … 9)Kreditrahmen ::= <Fließpunktzahl>…

Daten beliebige Anwendung

Texteditor

Struktur-info

Validator

Page 5: Datenstruktur 1: Textdatei

Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs

Datenstruktur 3: Strukturdatei (selbstverständlich standardisiert; Vorbild: Lochkarte)

IHeike Boß Darmstädter Straße 46K200004 4560,00 € 2000 €K200005 2398,78 € 2000 €IFriedrich Coy Siedlerweg 17K200001 23,56 € 50 €K200002 1200 € 500 €IHans-Peter Daab Adalbert-Stifter-Str. 10K200006 0 € 0 €.

Vorteil:Nachteil:

Daten beliebige Anwendung

Daten-erfassung

Struktur-info

Page 6: Datenstruktur 1: Textdatei

Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs

Datenstruktur 3: Strukturdatei (comma separated value; CSV)

I;Heike Boß;Darmstädter Straße 46K;200004;4560,00 €;2000 €K;200005;2398,78 €;2000 €I;Friedrich Coy;Siedlerweg 17K;20000;23,56 €;50 €K;200002;1200 €;500 €I;Hans-Peter Daab;Adalbert-Stifter-Str. 10K;200006;0 €;0 €.

Vorteil:Nachteil:

Daten beliebige Anwendung

Daten-erfassung

Struktur-info

Page 7: Datenstruktur 1: Textdatei

Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs

Noch Datenstruktur 3: Strukturdatei (comma separated value; ohne Zeilenstruktur)

I;Heike Boß;Darmstädter Straße 46;K;200004;4560,00 €;2000 €;K;200005; 2398,78 €;2000 €;I;Friedrich Coy;Siedlerweg 17;K;20000;23,56 €;50 €;K; 200002;1200 €;500 €;I;Hans-Peter Daab;Adalbert-Stifter-Str. 10;K;200006;0 €;0 €.

Vorteil:Nachteil:

Daten beliebige Anwendung

Daten-erfassung

Struktur-info

Page 8: Datenstruktur 1: Textdatei

Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs

Noch Datenstruktur 3: Strukturdatei (Binärformat; anderes Beispiel)

- nicht für das menschliche Auge bestimmt -

Vorteil:Nachteil:

Attribut DatentypMannschaftsname char [20]Spiele gespielt intSätze gewonnen intSätze verloren intPunkte gewonnen intPunkte verloren int

Daten beliebige Anwendung

Daten-erfassung

Struktur-info

Page 9: Datenstruktur 1: Textdatei

Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs

Datenstruktur 4: Datenbank mit Data Dictionary

Daten in irgendeinem internen Format; Strukturbeschreibung: in irgendeiner DDL

Beispiel (SQL-DDL):

CREATE TABLE Konto( Kontonummer integer; Kontostand integer; Kreditrahmen integer; Inhaber integer; PRIMARY KEY (Kontonummer); FOREIGN KEY (Inhaber) REFERENCES Inhaber;);

CREATE TABLE Inhaber( Nr integer; Name varchar (50); Strasse varchar (50); PRIMARY KEY (Nr););

Vorteil:Nachteil:

DataDiction.

Daten beliebige Anwendung

DDLInterface

Page 10: Datenstruktur 1: Textdatei

Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs

Zwischenfazit:

Unstrukturierte Daten: Textdatei ohne explizite Strukturierung; Semantik erschließt sich aus der Textinterpretation

Strukturierte Daten: Erst wird eine bindende Struktur festgelegt (-> Semantische Datenmodellierung), dann werden Daten entsprechend dieser Struktur eingegeben (Anwender benötigt spezielle Schnittstelle, da er die Struktur nicht kennt resp. kennen soll). Die Struktur ist weitgehend statisch; Änderungen („Schema Evolution“) machen Mühe.

Page 11: Datenstruktur 1: Textdatei

Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs

Wie geht der Nicht-Informatiker vor?

•Er nimmt keine semantische Datenmodellierung vor (kann/will er nicht ...).•Er erhebt zunächst seine Daten und strukturiert sie (vielleicht) anschließend.•Er vertraut auf geeignete Werkzeuge, die ihm die Auswertung ermöglichen.

•Beispiel: F&A (für eigene Datensammlungen)•Beispiel: Google (für fremde Datensammlungen)

Vorgehen stößt an Grenzen (s.o.)

Ausweg:

Der Anwender ergänzt die Daten um syntaktisch/semantische Zusätze („Tags“).

Page 12: Datenstruktur 1: Textdatei

Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs

Datenstruktur 5: Textdatei mit Tags (zunächst nur Idee)

Heike Boß wohnt in der Darmstädter Straße 46. Sie hat Konto 200004 mit einem Kontostand von 4560,00 € und einem Kreditrahmen von 2000 €. Sie hat Konto 200005 mit einem Kontostand von 2398,78 € und einem Kreditrahmen von 2000 €.

Friedrich Coy wohnt im Siedlerweg 17. Er hat Konto 200001 mit einem Kontostand von 23,56 € und einem Kreditrahmen von 50 €. Er hat Konto 200002 mit einem Kontostand von 1200 € und einem Kreditrahmen von 500 €.

Hans-Peter Daab wohnt in der Adalbert-Stifter-Str. 10. Er hat Konto 200006 mit einem Kontostand von 0 € und einem Kreditrahmen von 0 €.

Vorteil:Nachteil:

NameKontonummer

Straße

Kontostand Kreditrahmen

Page 13: Datenstruktur 1: Textdatei

Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs

Nochmals Datenstruktur 5: Textdatei mit Tags (nun aber – fast – richtig)

Inhaber Heike Boß wohnt in der Straße Darmstädter Straße 46. Sie hat Konto Kontonummer 200004 mit einem Kontostand von 4560,00 € und einem Kreditrahmen von 2000 €. Sie hat Konto Kontonummer 200005 mit einem Kontostand von 2398,78 € und einem Kreditrahmen von 2000 €.

Friedrich Coy wohnt im Siedlerweg 17. Er hat Konto 200001 mit einem Kontostand von 23,56 € und einem Kreditrahmen von 50 €. Er hat Konto 200002 mit einem Kontostand von 1200 € und einem Kreditrahmen von 500 €.

Hans-Peter Daab wohnt in der Adalbert-Stifter-Str. 10. Er hat Konto 200006 mit einem Kontostand von 0 € und einem Kreditrahmen von 0 €.

Vorteil:Nachteil:

Page 14: Datenstruktur 1: Textdatei

Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs

Nochmals Datenstruktur 5: Textdatei mit Tags (nochmals besser)

Anfang_Inhaber Anfang_Name Heike Boß Ende_Name wohnt in der Anfang_Straße Darmstädter Straße 46 Ende_Straße Ende_Inhaber. Sie hat Anfang_Konto Anfang_Kontonummer 200004 Ende_Kontonummer mit einem Anfang_Kontostand von 4560,00 € Ende_Kontostand und einem Anfang_Kreditrahmen von 2000 € Ende_Kreditrahmen Ende_Konto. Sie hat Anfang_Konto Anfang_Kontonummer 200005 Ende_Kontonummer mit einem Anfang_Kontostand von 2398,78 € Ende_Kontostand und einem Anfang_Kreditrahmen von 2000 € Ende_Kreditrahmen Ende_Konto.

Friedrich Coy wohnt im Siedlerweg 17. Er hat Konto 200001 mit einem Kontostand von 23,56 € und einem Kreditrahmen von 50 €. Er hat Konto 200002 mit einem Kontostand von 1200 € und einem Kreditrahmen von 500 €.

Hans-Peter Daab wohnt in der Adalbert-Stifter-Str. 10. Er hat Konto 200006 mit einem Kontostand von 0 € und einem Kreditrahmen von 0 €.

Was fehlt in dieser Datenstruktur? Was ist zuviel?

Page 15: Datenstruktur 1: Textdatei

Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs

Nochmals Datenstruktur 5: Textdatei mit Tags (XML)

<Inhaber> <Name> Heike Boß </Name> <Straße> Darmstädter Straße 46 </Straße> <Konto> <Kontonummer> 200004 </Kontonummer> <Kontostand> 4560,00 € </Kontostand> <Kreditrahmen 2000 € </Kreditrahmen> </Konto> <Konto> <Kontonummer> 200005 </Kontonummer> <Kontostand 2398,78 € </Kontostand> <Kreditrahmen> 2000 € </Kreditrahmen> </Konto></Inhaber>

Friedrich Coy wohnt im Siedlerweg 17. Er hat Konto 200001 mit einem Kontostand von 23,56 € und einem Kreditrahmen von 50 €. Er hat Konto 200002 mit einem Kontostand von 1200 € und einem Kreditrahmen von 500 €.

Hans-Peter Daab wohnt in der Adalbert-Stifter-Str. 10. Er hat Konto 200006 mit einem Kontostand von 0 € und einem Kreditrahmen von 0 €.

Page 16: Datenstruktur 1: Textdatei

Unstrukturierte, semistrukturierte und strukturierte Daten H.E. Erbs

Fazit:

Unstrukturierte Daten: Textdatei ohne explizite Strukturierung; Semantik erschließt sich aus der Textinterpretation

Semistrukturierte Daten: Die Strukturinformation ist Teil der Daten (implizit oder explizit). Die Struktur weist Variationen auf. Neue von der bisherigen Struktur abweichende Daten sind jederzeit einfügbar (keine Schema-Evolution nötig). Strukturinformation (Schema) lässt sich nachträglich aus den Daten gewinnen.

Strukturierte Daten: Erst wird eine bindende Struktur festgelegt (-> Semantische Datenmodellierung), dann werden Daten entsprechend dieser Struktur eingegeben (Anwender benötigt spezielle Schnittstelle, da er die Struktur nicht kennt resp. kennen soll). Die Struktur ist weitgehend statisch; Änderungen („Schema Evolution“) machen Mühe.