95
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Universit¨ at Karlsruhe (TH) Fakult¨ at f¨ ur Informatik Institut f¨ ur Programmstrukturen und Datenorganisation Datenbankunterst ¨ utzung f ¨ ur imperfekte Daten im Verkehrsumfeld Diplomarbeit von Erik Alexander Koop Tag der Anmeldung: 15. Dezember 2003 Tag der Abgabe: 14. Juni 2004 verantwortlicher Gutachter: Prof. Dr.-Ing. Dr. h.c. Peter C. Lockemann Betreuende Mitarbeiter: Dipl.-Inform. Jutta M¨ ulle Dipl.-Inform. Heiko Schepperle

Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

¡¡¡ @

@@

@@@ ¡

¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡

¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡

@@@@@@@@@@@@@@@@@@@@ ¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡

@@@@@@@@@@@@@@@@@@@@

¡¡¡

@@@¡

¡¡

@@@

Universitat Karlsruhe (TH)Fakultat fur Informatik

Institut fur Programmstrukturen undDatenorganisation

Datenbankunterstutzung fur imperfekteDaten im Verkehrsumfeld

Diplomarbeit

von

Erik Alexander Koop

Tag der Anmeldung: 15. Dezember 2003Tag der Abgabe: 14. Juni 2004

verantwortlicher Gutachter: Prof. Dr.-Ing. Dr. h.c. Peter C. Lockemann

Betreuende Mitarbeiter:Dipl.-Inform. Jutta Mulle

Dipl.-Inform. Heiko Schepperle

Page 2: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und
Page 3: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

Ich erklare hiermit, dass ich die vorliegende Arbeit selbstandig verfasst und keineanderen als die angegebenen Quellen und Hilfsmittel verwendet habe.

Karlsruhe, den 14. Juni 2004

Page 4: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und
Page 5: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

Zusammenfassung

Im Verkehrsumfeld entstehen immer wieder Informationen, die zum Teil unvollstandig,unprazise oder unscharf beschrieben sind. In gewohnlichen Datenbanksystemen wird die-se Imperfektion nicht aufgenommen. Die Informationen werden als prazise angesehen.

Im Rahmen dieser Arbeit werden Informationen aus dem Verkehrsumfeld auf ihreImperfektion hin uberpruft. Fur die Modellierung und Verwaltung der Daten in einemDatenbanksystem werden Ansatze zur Unterstutzung imperfekter Informationen aus demBereich Verkehr, in Datenbanken untersucht. Zwei ausgewahlte Ansatze werden anhandder eingangs analysierten Daten gemeinsam in ein Konzept eingebunden um die Imper-fektion in Verkehrsdaten zu beschreiben. Die Arbeit schließt mit einer Umsetzung desKonzeptes in eine Datenbank.

Page 6: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und
Page 7: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

Inhaltsverzeichnis

1 Einleitung 1

1.1 OVID-Projekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Aufgabenstellung und Gliederung der Arbeit . . . . . . . . . . . . . . . 2

2 Imperfektion im Verkehrsumfeld 5

2.1 Daten - Information - Wissen . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Arten von Imperfektion . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.3 Imperfekte Informationen im Verkehrsumfeld . . . . . . . . . . . . . . 7

2.3.1 Verkehrsinformationen . . . . . . . . . . . . . . . . . . . . . . . 7

2.3.2 Informationen uber Verkehrsinfrastruktur . . . . . . . . . . . . . 10

2.3.3 Informationen uber Ereignisse und Storungen . . . . . . . . . . 12

3 Theorien uber Imperfektion 15

3.1 Fuzzy-Theorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.1.1 Linguistische Variable . . . . . . . . . . . . . . . . . . . . . . . 17

3.1.2 Possibilitatstheorie . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 Probabilitatstheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4 Datenmodelle fur imperfekte Daten 21

4.1 Kriterien fur die Beurteilung von Datenmodellen im Verkehrsumfeld . . 21

4.2 Herkommliche Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4.2.1 Das relationale Modell . . . . . . . . . . . . . . . . . . . . . . . 23

4.2.2 Objektorientiertes Modell . . . . . . . . . . . . . . . . . . . . . 23

4.3 Objektorientiertes Fuzzy-Modell . . . . . . . . . . . . . . . . . . . . . 24

4.3.1 Einbettung imperfekter Information . . . . . . . . . . . . . . . . 24

4.3.2 Fuzzy-Formeln . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.3.3 Annotationen und Facetten . . . . . . . . . . . . . . . . . . . . 26

4.3.4 Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.4 Relationales probabilistisches Modell mit festen Wahrscheinlichkeiten . 28

4.4.1 Die algebraischen Operatoren . . . . . . . . . . . . . . . . . . . 29

4.4.2 Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Page 8: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

ii INHALTSVERZEICHNIS

4.5 Relationales Modell mit Wahrscheinlichkeitsintervallen . . . . . . . . . 30

4.5.1 Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.6 Relationales Fuzzy-Model . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.6.1 Das relationale ciset-Modell . . . . . . . . . . . . . . . . . . . . 36

4.6.2 Relationale Algebra mit cisets . . . . . . . . . . . . . . . . . . . 37

4.6.3 Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.7 Relationales possibilistisches Datenmodell . . . . . . . . . . . . . . . . 39

4.7.1 Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.8 Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.8.1 Scharfe und unscharfe Fuzzy-Klassifikation . . . . . . . . . . . 42

4.8.2 Fuzzy-Klassifikationssprache . . . . . . . . . . . . . . . . . . . . 45

4.8.3 Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.9 Fazit aus den Bewertungen . . . . . . . . . . . . . . . . . . . . . . . . . 47

5 Konzept der Modellierung 49

5.1 Grobarchitektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

5.2 Szenario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5.3 Konzept fur die Abfrage . . . . . . . . . . . . . . . . . . . . . . . . . . 53

5.3.1 Die Terme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

5.3.2 Kontextklassen . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5.4 Konzept fur die Speicherung . . . . . . . . . . . . . . . . . . . . . . . 56

6 Implementierung 59

6.1 Datenbankschema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

6.1.1 Relationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

6.1.2 Prozeduren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

6.2 Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

6.3 Szenarioablauf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

7 Zusammenfassung und Ausblick 77

A Aquivalenzklassen im Kontextmodell 79

Literatur 81

Page 9: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

TABELLENVERZEICHNIS iii

Tabellenverzeichnis

1 Imperfektion in Induktionsschleifen . . . . . . . . . . . . . . . . . . . . 11

2 Imperfektion in stationaren Erfassungssystemen . . . . . . . . . . . . . 11

3 Imperfektion in Floating Car-Daten . . . . . . . . . . . . . . . . . . . . 11

4 Imperfektion in Meldungen von Verkehrsteilnehmern . . . . . . . . . . 11

5 Imperfektion bei Baustellen . . . . . . . . . . . . . . . . . . . . . . . . 14

6 Imperfektion bei Wetterangaben . . . . . . . . . . . . . . . . . . . . . . 14

7 Die linguistische Variable”Verkehrsfluss“ . . . . . . . . . . . . . . . . . 18

8 Possibilitaten beim Fruhstucksei . . . . . . . . . . . . . . . . . . . . . . 18

9 Eine probabilistische Wetterrelation . . . . . . . . . . . . . . . . . . . . 30

10 Wetterrelation mit Wahrscheinlichkeiten auf Attributebene . . . . . . . 31

11 Pfadannotierte Reprasentation der Wetterrelation . . . . . . . . . . . . 33

12 Wetterrelation mit Zuverlassigkeitsindizes . . . . . . . . . . . . . . . . 36

13 Verkehrsmeldung mit ci . . . . . . . . . . . . . . . . . . . . . . . . . . 36

14 Allgemeine Relation fur Imperfektion auf Tupelebene . . . . . . . . . . 39

15 Allgemeine Relation fur Possibilitaten auf Attribut-Ebene . . . . . . . . 40

16 Beispielrelation mit Possibilitaten auf Attribut-Ebene . . . . . . . . . . 40

17 Die Autobahnabschnitte mit ihren Attributwerten . . . . . . . . . . . . 42

18 Die Autobahnabschnitte aufgteilt auf die Kontextklassen . . . . . . . . 42

19 Kontexte uber einem Autobahnteilstuck . . . . . . . . . . . . . . . . . 43

20 Unscharfe Klassifikation mit scharfen Aquivalenzklassen . . . . . . . . . 43

21 Dichtezugehorigkeiten durch eine linguistische Variable . . . . . . . . . 44

22 Defuzzifizzierung durch Minimum- bzw. Maximum-Operator . . . . . . 45

23 Defuzzifizzierung durch normierte Kardinalitaten . . . . . . . . . . . . 45

24 Zugehorigkeiten der zu Klasse C1 selektierten Autobahnen . . . . . . . 45

25 Unscharfe Klassifikation mit unscharfen Termen . . . . . . . . . . . . . 46

26 Autobahnabschnitte auf der Strecke von Karlsruhe nach Darmstadt . . 51

27 Routen von Karlsruhe nach Darmstadt . . . . . . . . . . . . . . . . . . 52

28 Verkehrszustande abhangig von Verkehrsdichteklassen nach [24] . . . . 54

29 Interpretationen der acht Klassifikationen . . . . . . . . . . . . . . . . . 57

30 Routen von Karlsruhe nach Darmstadt . . . . . . . . . . . . . . . . . . 74

31 Baustellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

32 Storungsmeldungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

33 Klassifikation der Routen 1–4 . . . . . . . . . . . . . . . . . . . . . . . 75

34 Klassifikation der Routen 5–8 . . . . . . . . . . . . . . . . . . . . . . . 76

Page 10: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

iv ABBILDUNGSVERZEICHNIS

Abbildungsverzeichnis

1 Abgrenzung: Daten - Information - Wissen . . . . . . . . . . . . . . . . 6

2 Das Informationspaket einer Induktionsschleife . . . . . . . . . . . . . . 8

3 Imperfekte Informationen aus einer Staumeldung . . . . . . . . . . . . 10

4 Skizze uber die Verfugbarkeit von Verkehrsinformationen . . . . . . . . 10

5 Zwei Flaschen fur einen durstigen Wanderer . . . . . . . . . . . . . . . 20

6 Beispielrelation uber eine Studentenkartei . . . . . . . . . . . . . . . . 23

7 Struktur des Annotations-Entwurfsmusters . . . . . . . . . . . . . . . . 26

8 Objektstruktur mit Annotationen und Facetten . . . . . . . . . . . . . 27

9 Verteilung der Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . 29

10 Die partielle Ordnung ¹ . . . . . . . . . . . . . . . . . . . . . . . . . . 35

11 Zugehorigkeitsfunktionen fur quantitative Merkmale zur Modellierungvon unscharfen Klassen . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

12 Interpretation der Kontexte mit linguistischen Variablen . . . . . . . . 46

13 Einbindung der Datenbank . . . . . . . . . . . . . . . . . . . . . . . . . 50

14 Skizze der Strecke Karlsruhe – Darmstadt . . . . . . . . . . . . . . . . 51

15 Der Raum der Klassifikationen durch die drei Terme . . . . . . . . . . . 57

16 Die partielle Hierarchie der Terme . . . . . . . . . . . . . . . . . . . . . 57

17 Bestimmung der Werte in der Meta-Relation aus mehreren Storungs-meldungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

18 Die Relationen des Datenbankschemas . . . . . . . . . . . . . . . . . . 60

19 Das Wetter im Bereich der Routen . . . . . . . . . . . . . . . . . . . . 74

20 Grafische Darstellung der Klassifikation . . . . . . . . . . . . . . . . . . 76

Page 11: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

Das Endergebnis ist: Wir wissen erstaunlich wenig,und doch ist es erstaunlich, dass wir uberhaupt so viel wissen,und noch erstaunlicher, dass so wenig Wissen uns so viel Macht geben kann.

(Bertrand Russell)

Page 12: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und
Page 13: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

1 Einleitung

Verkehr stellt neben Versorgung, Entsorgung und Kommunikation einen Pfeiler der techni-schen Infrastruktur unserer Gesellschaft dar und bildet damit eine Grundeinrichtung, die dasFunktionieren unserer arbeitsteiligen Volkswirtschaft garantiert. Auf Verkehr kann in unsererGesellschaft nicht verzichtet werden. Im letzten Jahr stieg der PKW-Bestand in Deutsch-land im Schnitt taglich um 1.000 Fahrzeuge an auf einen Gesamtbestand von 54.082.169Kraftfahrzeugen [21]. Jahrlich legen deutsche Autofahrer eine Distanz von 528.000.000.000Kilometern zuruck, das entspricht etwa 3500-mal der mittleren Entfernung zwischen Erdeund Sonne. Trotz einer umfassenden modernen Sensorausstattung der deutschen Fernstra-ßen und eigenen Verkehrsleitzentralen fur die Ballungsraume, welche die Daten aus demVerkehrsumfeld auswerten und durch Verkehrsregeltechniken ausnutzen sollen, lassen sichStorungen im Verkehr nicht kategorisch vermeiden. So stehen jahrlich in Deutschland auf76.285 Autobahnkilometern die Rader fur mindestens eine Stunde still. Insgesamt verbrin-gen die Deutschen jahrlich 4.700.000.000 Stunden im Stau, dies entspricht in etwa einerbrachliegenden Arbeitsleistung von mehr als 2.500.000 Arbeitsjahren eines durchschnittlichBeschaftigten. Nach Schatzungen aus dem Bundesministerium fur Bildung und Forschungkosten Staus auf Deutschlands Straßen die Volkswirtschaft jahrlich 97.000.000.000 ¿, zusatz-lich entstehen bei den betroffenen Verkehrsteilnehmern nervliche Belastungen und durch denerhohten Energieverbrauch in gestorten Verkehrszustanden eine großere Umweltbelastung alsbei freiem Verkehr [16].

Heutzutage werden in Verkehrsleitzentralen Datenbanken eingesetzt um Messergebnisse vonSensoren, Baustelleninformationen, Parkraumbelegungen, Wetterprognosen und weitere In-formationen, die fur die Verkehrsplanung nutzlich sind zu speichern und fur die Verkehrs-regelung einzusetzen um das Verkehrsaufkommen in uberlasteten Bereichen zu reduzierenund eine moglichst hohe Stauvermeidung zu erreichen. Zusatzlich helfen die gesammeltenInformationen bei der Planung von neuen Verkehrssystemen um Verkehrswege so zu planen,dass sie das prognostizierte Verkehrsaufkommen bestmoglichst aufnehmen konnen.

Die Informationen, die in den Datenbanken abgespeichert werden und auf denen die Progno-sen und Regelungsmaßnahmen getroffen werden sind allerdings nicht immer prazise, scharfund vollstandig. So kann es bei Messungen zu Ungenauigkeiten kommen, Ortsangaben vonVerkehrsteilnehmern konnen ungenau sein. Wenn die Informationsquellen nicht eine zen-tral getaktete Uhr verwenden kann es auch bezuglich der Zeitangaben zu ungenauen Wer-ten kommen. Doch diese Ungenauigkeiten werden von den bisherigen Datenbanksystemenim Allgemeinen nicht weiter betrachtet. Informationen werden ohne Berucksichtigung evtl.Ungenauigkeiten oder Unsicherheiten als prazise und sichere Daten gespeichert. Das fuhrtdazu, dass, bei der Weiterverarbeitung der Daten, diese allenfalls generell als unsicher oderunscharf betrachtet werden konnen. Es ware aber oftmals hilfreich, z.B. bei widerspruchli-chen Informationen oder bei ungenauen Ortsangaben, wenn man bei der Verarbeitung dasWissen besitzen wurde, inwiefern die Information zuverlassig und genau ist. Schon Sokra-tes konstatierte mit seiner Aussage ”Ich weiß, dass ich nicht weiß!“ 1, dass Wissen uber dieUnsicherheit von Wissen einen hoheren Stellenwert hat, als wenn man das unsichere Wis-sen als sicher darstellt. So soll es auch das Ziel sein, durch die Erhaltung der Imperfektion

1Der Legende nach prophezeite das Orakel von Delphi, Sokrates sei der weiseste Mensch auf der Welt.Sokrates mit seiner ihm eigenen Bescheidenheit glaubte dies nicht und ging los um Großen der Gesellschaft undder Politik uber ihr Wissen zu befragen. Dabei stellte er fest, dass diese Menschen mit ihrem Wissen prahltenohne aber Sicherheit uber das zu besitzen was sie glaubten. Daraufhin stellte Sokrates fest, dass er wirklichder weiseste Mensch auf der Welt sei, da er im Gegensatz zu den anderen Menschen wisse, dass er nichts weiß,wahrend die anderen Menschen falschlicherweise davon ausgehen ihr Wissen als sicher anzunehmen. [34]

Page 14: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

2 1: Einleitung

in den Daten, den Verkehrsteilnehmern und den Verkehrsleitzentralen ein besseres Wissenuber den Verkehr bereitzustellen. Als Folge dieses zusatzlichen Wissens lassen sich hoffentlichVerkehrsstorungen besser vermeiden.

So ist es das Ziel dieser Arbeit einen Ansatz zu finden, der die Imperfektion im Verkehrsum-feld unterstutzt. Dafur muss ein Datenmodell gesucht werden, in dem die Imperfektion vonInformationen bei der Aufnahme in die Datenbank erhalten bleibt und fur Anwendungen zuVerfugung steht ohne aber dadurch die Weiterverarbeitung der Daten zu behindern.

1.1 OVID-Projekt

Diese Arbeit findet im Rahmen des Projekts OVID (Starkung der Selbstorganisationsfahig-keit im Verkehr durch I+K-gestutzte Dienste) [29] statt. Ziel des vom Bundesministerium furBildung und Forschung (BMBF) geforderten Verbundprojektes OVID der Universitat Karls-ruhe, der PTV Planung Transport Verkehr AG, des Fraunhofer Instituts fur Informations-und Datenverarbeitug (Fraunhofer-IITB) und der Locom Consulting GmbH ist der Aufbauund die Nutzung einer Plattform zur Modellierung und Bewertung von verkehrsinfrastruk-turellen, verkehrstelematischen und logistischen Maßnahmen im Verkehrs- und sozio-okono-mischen System.

Das Projekt gliedert sich in mehrere Teilprojekte. Diese Diplomarbeit wurde im Teilpro-jekt B1 Verlassliche Datenbanken fur die Informationsbereitstellung im Verkehr entstellt.Ziel dieses Teilprojektes ist die Entwicklung der informationstechnischen Infrastruktur inForm erweiterter Datenbanksysteme. Uber das ganze Projekt hinweg entstehen vielfaltigeAufgaben hinsichtlich der Speicherung und Verarbeitung von Verkehrsdaten. Dafur mussenneben den Standardeigenschaften von Datenbanken besonders Verfahren zur Informations-verdichtung in einer verteilten mobilen Umgebung und zum Umgang mit imperfekten Datenbereitgestellt werden.

1.2 Aufgabenstellung und Gliederung der Arbeit

Ziel der Arbeit ist es ein Datenmodell zu finden, in dem Daten aus dem Verkehrsumfeldgespeichert werden und die Imperfektion, welche in den Daten steckt, erhalten bleibt. Dafurist es notwendig, erstmal die Imperfektion in den zu behandelnden Daten zu untersuchen.Anschließend mussen existierende Ansatze auf ihre Tauglichkeit zur Speicherung dieser Da-ten samt Imperfektion uberpruft und geeignete Ansatze eventuell an die Anforderungen furDaten aus dem Verkehrsumfeld angepasst werden. Daraufhin soll die Verarbeitung von im-perfekten Daten exemplarisch realisiert werden, dafur muss ein Konzept fur dei Verarbeitungerstellt und anschließend in einem Datenbanksystem implementiert werden. Abschließend fin-det eine Bewertung statt, inwiefern die Imperfektion der Daten ubernommen werden kann,welche Beeintrachtigungen man dafur in Kauf genommen werden muss und ob die Erhaltungder Imperfektion dem Verkehrsteilnehmer Vorteile bringt.

Um dieses Aufgaben umzusetzen werden im zweiten Kapitel zuerst die unterschiedlichenKategorien von Imperfektion von vorgestellt, die in dieser Arbeit verwendet werden, an-schließend findet eine Analyse uber die Imperfektion der Daten aus dem Verkehrsumfeldstatt. Im dritten Kapitel werden die formalen Theorien vorgestellt mit denen die verwen-deten Arten von Imperfektion beschrieben werden konnen und in modernen Ansatzen furdie Verarbeitung von imperfekten Daten verwendet werden. Das vierte Kapitel widmet sichden bestehenden Ansatzen zur Verarbeitung von Imperfektion in Datenbanksystemen und

Page 15: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

1.2: Aufgabenstellung und Gliederung der Arbeit 3

bewertet sie anhand ihrer Einsetzbarkeit im Verkehrsumfeld. Im funften Kapitel folgt dieVorstellung einer Architektur, die Ansatze aus dem vierten Kapitel verwendet, mit der Da-ten aus dem Verkehrsumfeld verarbeitet werden konnen. Es wird außerdem ein Szenariovorgestellt anhand dessen ein Konzept fur eine beispielhafte Anwendung erarbeitet wird.Die konkrete Implementierung des Konzeptes wird im sechsten Kapitel vorgestellt und einbeispielhafter Szenarioablauf anhand der Implementierung beschrieben. Im Kapitel 7, findeteine Bewertung statt, inwiefern imperfekte Daten im Verkehrsumfeld verarbeitet werden,welche Einbußen man dafur in Kauf nehmen muss und welche Vorteile die Verkehrsteilneh-mer dadurch erhalten.

Page 16: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

4 1: Einleitung

Page 17: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

2: Imperfektion im Verkehrsumfeld 5

2 Imperfektion im Verkehrsumfeld

In diesem Kapitel werden einfuhrend die Begriffe Daten, Information und Wissen vonein-ander abgegrenzt. Anschließend folgt eine Ubersicht uber Imperfektion im Allgemeinen undabschließend eine Analyse des Verkehrsumfeldes bezuglich Imperfektion.

2.1 Daten - Information - Wissen

Daten, Information und Wissen sind drei Begriffe, die haufig — auch in der Wissenschaft —synonym und inkonsistent verwendet werden. Deswegen ist es schwierig eine einheitliche De-finition zu finden. Damit im Laufe der Arbeit aber eine konsistente Anwendung der Begriffeerfolgen kann, werden die drei Begriffe hier gegeneinander abgegrenzt:

Daten: Die DIN 44300 ”Informationsverarbeitung“ versteht unter Daten Zeichen oder steti-ge Funktionen, die aufgrund bekannter oder unterstellter Abmachungen Informationendarstellen, die maschinell verarbeitet werden konnen. Ahnlich sehen das Hauf [19] undHansen und Neumann [18]. Sie sehen Daten als ”potentielle Information“ [19] oderDaten stellen ”Information [. . .] auf Grund bekannter oder unterstellter Abmachungenin einer maschinell verarbeitbaren Form dar“ [18].

Information: Informationen stellen interpretierte Daten dar. Nach Hansen und Neumann[18] ergeben sich Information aus Daten, wenn man den Daten eine bekannte oderunterstellte Semantik ”hinzufugt“.

Wissen: Wissen ergibt sich erst durch das Einfugen von Informationen in einen Kontext,z.B. durch Vernetzung mit anderen Informationen.

Beispiel 2-1: In Abbildung 1 ist die Abgrenzung exemplarisch dargestellt. Die beiden Daten’1319478’ und ’Adam Riese’ stellen noch keine Information dar, erst durch die Hinzunahmevon Semantik (’1319478’ = Matrikelnummer, ’Adam Riese’ = Name) ergeben sich Informa-tionen. Fugt man diese Informationen in den Kontext ein, dass die beiden Informationenzusammengehoren und mit Matrikelnummern Studenten identifiziert werden, erhalt man dasWissen, dass Adam Riese ein Student mit der Matrikelnummer 1319478 ist. An diesemBeispiel wird auch deutlich, dass Wissen nicht per definitionem korrekt ist. Es ist ja auchmoglich, dass die beiden Informationen in diesem Beispiel falsch verknupft sind, und dieMatrikelnummer zu einem anderen Studenten gehort.

2.2 Arten von Imperfektion

Wenn man mit der Suche nach Definitionen fur Imperfektion bei dem lateinischen Ursprungdes Wortes beginnt, erhalt man als Bedeutung fur das Wort imperfectus die Worte ”un-vollstandig“, ”unvollendet“ und ”mangelhaft“. Intuitiv stellt imperfektes Wissen demnachWissen dar, welches einen Sachverhalt, mit allen Elementen aus denen er besteht (bzw. allenInformationen die ihn charakterisieren), nur unvollstandig oder fehlerhaft beschreibt. Es gibtden Sachverhalt zwar wieder, allerdings fehlen Informationen (uber einzelne Elemente) oderInformationen sind nicht korrekt respektive hinreichend genau um ein identisches Abbilddes Sachverhaltes zu ermoglichen. Dies fuhrt dazu, dass bei dem Versuch aus dem Wissenden Sachverhalt zu generieren, einzelne Elemente des Sachverhaltes fehlen, eine Menge an

Page 18: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

6 2: Imperfektion im Verkehrsumfeld

1319478

Matrikelnr.

1319478

’Adam Riese’

Name

’Adam Riese’

Der Student Adam Riese hat die Matrikelnummer 1319478.

Daten

Information

Wissen

Semantik

Kontext

Abbildung 1: Abgrenzung: Daten - Information - Wissen

moglichen Sachverhalten entsteht (in welcher der ursprungliche Sachverhalt enthalten ist)oder ein Sachverhalt entsteht in dem einzelne Elemente falsch wiedergegeben werden. Die-se Imperfektion tritt offenkundig zutage bei einer Taterbeschreibung in einem Kriminalfall:die imperfekte Beschreibung des Taters von einem Zeugen fuhrt zu einem Abbild — demPhantombild — welches nicht mit dem Tater identisch ist, hinsichtlich der Ubereinstimmungeinzelner Elemente. Dem Phantombild werden einzelne Elemente fehlen (z.B. kleinere Ge-sichtskonturen), einzelne Elemente werden vage wiedergegeben (z.B. Frisur) und vielleichtsind auch Elemente fehlerhaft wiedergegeben (z.B. zu kleiner Schnurrbart, zu große Augen-partie). Hier ergibt sich offensichtlich eine Abweichung zwischen Original und Abbildungaufgrund unvollstandiger und mangelhafter Beschreibung also imperfektem Wissen. Den-noch ist es moglich mit Hilfe des imperfekten Wissens — dem Phantombild — den Tater zufassen, die Taterbeschreibung reicht vollkommen aus. So wird deutlich, dass die Verarbei-tung von imperfekten Informationen nicht wie ein Stiefkind in der Datenbankwelt behandeltwerden darf und die zahlreichen Forschungen in dieser Richtung [27] sicherlich gerechtfertigtsind.

An dieser Stelle wird außerdem deutlich, dass imperfektes Wissen auf keinem Fall mit

”schlechtem“ Wissen oder ”unvollkommenem“ Wissen gleichgesetzt werden darf, dies for-dert auch schon Wittgenstein in seinen ”Philosophische Untersuchungen“[41].

Um im Laufe dieser Arbeit mit imperfektem Wissen hantieren zu konnen, wird zunachsteine Einteilung von imperfekter Information in Unterkategorien vorgestellt. Ich halte michin dem Punkt an [42], da weitreichendere Einteilungen wie sie von Philipe Smets [37] getroffenwerden sicherlich ihre Rechtfertigung haben (es werden 32 Arten an imperfekter Informationidentifiziert), fur diese Arbeit allerdings sind nur die Einteilung in unscharf, ungenau undunsicher interessant.

Unsichere Informationen: Eine Information wird als unsicher bezeichnet, wenn nichtentschieden werden kann, ob sie wahr oder falsch ist. Ein Beispiel fur eine unsichereAussage ist: ”Das Sparschwein enthalt mehr als 50,- ¿“. In diesem Beispiel lasst sichdie Unsicherheit, ob die Aussage wahr oder falsch ist, durch weitere Informationen(Knacken des Sparschweines) beseitigen.

Unscharfe Information: Diese Information entsteht bei der Anwendung von Katego-rien fur deren Verwendung keine scharfe Grenze festgelegt ist (linguistische Variablen),so dass sich nicht genau uber Zugehorigkeit entscheiden lasst. So existiert beispielswei-se keine scharfe Grenze fur die Korpergroße eines Menschen, mit der er noch unter die

Page 19: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

2.3: Imperfekte Informationen im Verkehrsumfeld 7

Kategorie groß fallt. Andere Beispiele sind die Kategorien schnelle Autos, große Hitzeoder schone Frauen.

Ungenaue Information: Information, die durch Intervalle oder ahnlich grobkorni-ge Einheiten angegeben wird. Ungenaue Information entsteht z.B. bei physikalischenMessungen, die nicht beliebig genau bestimmt werden konnen oder bei statistisch be-dingtem Verrauschen von Messungen.

Wichtig ist diese Unterteilung, da man fur verschiedene Arten imperfekter Informationenunterschiedliche Theorien benotigt, um sie formal beschreiben zu konnen.

Zum Schluß dieses Abschnittes muss festgehalten werden, dass es — aufgrund der Definitionvon Wissen in Kapitel 2.1 — eigentlich nicht korrekt ist von imperfekten Daten zu sprechen,da die Daten immer perfekt sind insofern sie syntaktisch korrekt sind. Viel mehr ist es die In-formation, beziehungsweise das Wissen, welches man aus den Daten zieht, die imperfekt ist.Wenn im Folgenden von imperfekten Daten die Rede ist, ist damit eigentlich ein Datenformatgemeint, bei dem zusatzlich zu den Informationen die Imperfektion der Information gespei-chert wird, damit bei einer Interpretation der Daten die Imperfektion erkennbar ist. Anstellevon imperfekten Daten musste man exakterweise von Daten fur imperfekte Informationensprechen.

2.3 Imperfekte Informationen im Verkehrsumfeld

Da die modernen Straßennetze hochkomplexe Gebilde sind, die von vielen Seiten aus beein-flusst werden, existiert eine große Menge von Informationen im Verkehrsumfeld. Der eineTeil der Informationen versucht den Verkehr an sich zu beschreiben, und der andere Teil derInformationen beschaftigt sich mit Ereignissen, die den Verkehr beeinflussen.

An dieser Stelle wird zunachst eine große Auswahl an Informationen zusammengetragen, dieim Verkehrsumfeld entstehen. Dies ist erforderlich um zu wissen, welche Informationen dieDatenbank speichern muss und welche Imperfektion in den Informationen vorkommt.

Die Informationen werden vorerst grob in drei Kategorien gegliedert:

Verkehrsinformationen: Verkehrsbeschreibende Informationen, die durch technischeSensoren oder Menschen erhoben werden und Aufschluss uber die gegenwartige Ver-kehrslage liefern.

Informationen uber Verkehrsinfrastruktur: Die grundlegenden Informationenuber die Verkehrsnetze, wie Straßenfuhrung, Parkraum und die Fahrplane des offentli-chen Personennahverkehrs.

Informationen uber Ereignisse und Storungen: Informationen uber Ereignisse,die mittelbar oder unmittelbar Einfluss auf den Zustand des Verkehrsflusses oder dieVerkehrsinfrastruktur nehmen.

2.3.1 Verkehrsinformationen

Die verkehrsbeschreibenden Informationen werden durch Sensoren erhoben; dazu zahlenstreckenabschnittsbezogene Sensoren wie Induktionsschleifen in der Fahrbahndecke und sta-tionare Erfassungssysteme (SES), also Radar-, Infrarot- und Lasersensoren die an Brucken

Page 20: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

8 2: Imperfektion im Verkehrsumfeld

oder am Wegrand angebracht sind [17]. Ebenfalls dazu zahlen sogenannte Floating Car-Daten(FCD), bei denen Einzelfahrzeuge als Messsonden im Verkehr fungieren, die im Fahrzeug er-hobenen Informationen werden zur Beurteilung der Verkehrsflussbedingungen herangezogen.Als letzte Informationsquelle in diesem Bereich dienen die Beobachtungen von Verkehrsteil-nehmern, die einen Stau oder eine Storung im Fahrtbetrieb beobachten und an eine zentraleStelle melden. In den folgenden Absatzen werden diese vier Quellen fur Verkehrsinformatio-nen genauer vorgestellt.

Induktionsschleifen: Die Induktionsschleifen sind im Fahrbahnboden eingebettet underfassen jedes metallene Fahrzeug, das eine Schleife uberquert [17]. Die Hauptaufgabe derInduktionsschleifen liegt in der Zahlung passierender Fahrzeuge und bei einer entsprechendenAuswertungselektronik konnen sie sogar Kategorisierungen in den Fahrzeugtyp vornehmen(z.B. PKW, PKW mit Anhanger oder LKW). Zwei hintereinander geschaltete Induktions-schleifen liefern zusatzlich die Geschwindigkeitswerte. Da die Induktionsschleifen wegen derStromversorgung ohnehin kabelangebunden sind, werden die erhobenen Daten (Anzahl derFahrzeuge, die in einer festen Zeitspanne die Induktionsschleife passieren und die gemittelteGeschwindigkeit) in einem festen Takt (von z.B. einer Minute) uber eine Datenleitung aneinen zentralen Rechner geliefert [32]. Die Messungen erfolgen demnach ortsfest und die In-formationen liegen periodisch getaktet vor. Die Anzahl der Fahrzeuge pro Zeiteinheit wirdauch als Fluss bezeichnet. Aus den Fluss- (f) und Geschwindigkeitswerten (v) lassen sichauch die Werte fur die lokale Dichte berechnen: d = f/v.

Damit erhalten wir von den Induktionsschleifen ein Paket an Informationen wie in Abbil-dung 2 illustriert. Der Ort der Schleife wird eindeutig identifiziert durch eine eineindeutigeIdentifikationsnummer der Schleife. Die Zeit der Messung hingegen kann einer Ungenauigkeitunterliegen, falls die Uhr in der Schleife nicht exakt lauft. Die Werte fur Verkehrsfluss, Ge-schwindigkeit und Dichte hingegen sind auf die Messgenauigkeit angewiesen, die durch dieWitterung beeinflusst wird. So lasst bei Feuchtigkeit oder gar einer Schnee- oder Eisdecke aufder Fahrbahn die Messleistung nach. Es handelt sich in diesem Fall demnach um ungenaueWerte. Die Tabelle 1 listet die auftretenden Arten von Imperfektion in den Informationender Induktionsschleifen nochmals gesammelt auf.

Schleife #5

f: 100 Kfz/min ungenau v: 120 km/h ungenau d: 50 Kfz/km ungenau t: 17:50 Uhr ungenau

# 5

Abbildung 2: Das Informationspaket einer Induktionsschleife

Stationare Erfassungssysteme: Die Detektoren im SES-Netz liefern die gleichen phy-sikalischen Messgroßen von festen Orten. Da sie aber, im Gegensatz zu den kabelangebun-denen Induktionsschleifen, uber eine Solarversorgung verfugen [39], werden die Daten ubereine GSM-Funkverbindung ubertragen. Um den Stromaufwand gering zu halten, werdendie Daten nur ereignisinduziert ubertragen, also bei einem Wechsel der Verkehrsqualitat.stadtinfokoln [39] unterscheidet drei Verkehrsstufen (Verkehrsqualitat) ”freier Verkehr“, ”zah

Page 21: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

2.3: Imperfekte Informationen im Verkehrsumfeld 9

fließender Verkehr“ und ”Stau“, diese Einteilung deckt sich auch mit den menschlichen Ein-teilung der Verkehrszustande. Ein SES sendet die Daten also nur bei einem Wechsel zwischenzwei der Verkehrsstufen. Die Informationen aus den SES-Detektoren gleichen also denjeni-gen der Induktionsschleifen (Abbildung 2). Auch hier gibt es — aufgrund der statistischenAggregierung — Ungenauigkeiten bezuglich der drei physikalischen Messwerte, wobei dieMessgenauigkeit bei den Induktionsschleifen hoher liegt, als bei den SES-Detektoren [39],die auf eine gute Sichtverbindung angewiesen sind. Ihre Messleistung ist demnach auch sehrwetterabhangig. In der Tabelle 2 sind die Imperfektionen bei SES-Detektoren nochmals auf-gelistet.

Floating Car-Daten: Die dritte technische Quelle fur Verkehrsmesswerte — die Floa-ting Car-Daten — liefern bisher nur die Geschwindigkeitswerte eines Fahrzeuges gepaartmit Ort und Zeitpunkt der Messung. Es gibt aber auch Konzepte um den Informationsge-winn aus einem Fahrzeug zu erhohen, so wird im Konzept der Extended Floating Car-Daten(XFCD) von BMW [20] die erweiterte Sensorausstattung moderner Fahrzeuge genutzt, umzusatzlich Niederschlage, Temperaturen und Rutschgefahren zu erfassen. Dabei wird die Nie-derschlagsmenge aus der Scheibenwischerfrequenz und der Geschwindigkeit ermittelt, darauserfolgt dann eine Zuteilung in eine Kategorie von ”kein Regen“ bis ”starker Regen“. Hierhandelt es sich also um einen unscharfen Wert, da keine scharfe Grenze fur die Kategori-en existiert. Der Temperaturwert hingegen ist ein diskreter Wert aus den Temperaturdatendes Fahrzeugs, der ungenau ist bezuglich einer vorgegebenen Toleranz von beispielsweise 1Grad Celsius. Die Ermittlung der Rutschgefahr geschieht durch Auswertung der Signale desAnti-Blockier-Systems (ABS) und der Antriebsschlupfkontrolle. Die Regeleingriffe der bei-den Systeme sind jedoch sehr stark vom personlichen Fahrverhalten des Fahrers abhangig.Hier entsteht somit ein unsicherer Wert, da das ABS bei aggressivem Fahrverhalten selbstbei guter Witterung zum Einsatz kommt, wahrend ein defensiver Fahrer auch bei schlechterWitterung ohne ABS-Eingriffe zurecht kommt. Einen Uberblick uber die Imperfektion inFloating Car-Daten findet sich in Tabelle 3.

Verkehrsteilnehmer: Neben den Meldungen technischer Systeme gibt es auch noch dieMeldungen von Verkehrsteilnehmern, die einen Stau oder ein anderes Ereignis beobachtenund dieses zumeist einer Rundfunkanstalt melden. Diese Meldungen sind — wie die FCD —orts- und zeitunabhangig. Eine solche Staumeldung (siehe Abbildung 3) hat den Vorteil, dassdie Beobachtung einen großeren Teil abdeckt als eine Sensormeldung. Im optimalen Fall, kannman aus einer Meldung Information uber den gestorten Verkehrszutand, die Lange des Ver-kehrszustandes, den Ort und die Ursache der Storung ziehen. Dabei sind die Informationenuber die Lange und den Ort Ungenauigkeiten unterlegen, da sie entweder vom Urheber derMeldung geschatzt werden oder ihm nicht die Instrumente (bzw. das Wissen) zu Verfugungsteht genauere Angaben zu machen. So misst (in Bezug auf die Abbildung 3) das Auto-bahnteilstuck zwischen dem Kreuz Walldorf und dem Kreuz Heidelberg 15,46km. Zwischenden beiden Autobahnkreuzen befinden sich noch zwei Abfahrten. Aufgrund der Ortsangabeist es somit nicht moglich zu entscheiden, ob man eine der Abfahrten noch erreicht, oh-ne die gestorte Stelle zu durchfahren. Der Verkehrszustand wird unscharf beschrieben, daeine Angabe in physikalischen Messgroßen — wie sie die technischen Sensoren vornehmen— dem Verkehrsteilnehmer nicht moglich ist. So unterliegt die Information uber den Ver-kehrszustand der subjektiven Einschatzung des Urhebers. Die ganze Meldung unterliegt derHypothek, dass sie unsicher ist, da der Staumelder bewusst oder unbewusst (durch mangeln-de Ortskenntnis) eine Falschmeldung abgegeben haben kann. Hierzu findet sich ebenfalls zur

Page 22: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

10 2: Imperfektion im Verkehrsumfeld

Ubersichtlichkeit die Beschreibung der Imperfektion in Verkehrsmeldungen in Tabellenformin Tabelle 4.

5km Stau auf der zwischen dem Kreuz Walldorf Kreuz Heidelberg und dem wegen Markierungsarbieten A5,

Länge ( ungenau )

Verkehrszustand ( unscharf )

Ort ( ungenau )

Komplette Meldung ( unsicher )

Abbildung 3: Imperfekte Informationen aus einer Staumeldung

Jede dieser Quellen vermittelt in unterschiedlichen Bereichen und aus unterschiedlichenGrunden imperfekte Informationen (siehe Tabellen 1-4). Man hat demnach keine Quelle,die sichere, scharfe und genaue Informationen zum Verkehrszustand liefert und die somitals sicherer Maßstab fur die aktuelle Verkehrslage dienen kann. Somit ist man darauf an-gewiesen die Informationen unter dem Vorbehalt der Imperfektion zu betrachten und dieseImperfektion bei dem Speichern in Datenbanken mit aufzunehmen. Ein weiterer Aspekt, derfur Imperfektion der Informationen bei allen Quellen sorgt, ist die Dynamik. Die Messungeiner Induktionsschleife oder die Meldung eines Verkehrsteilnehmers ist eine Momentaufnah-me des Verkehrs. Aber wie sieht die Verkehrslage 15min spater aus? Das Wissen uber denVerkehrszustand nimmt also im Laufe der Zeit an Imperfektion zu und muss durch neueMessungen und Meldungen perfektioniert werden um eine moglichst genaue Beschreibungdes Verkehrszustandes zu erhalten. Die Verkehrsinformationen sind also nur sehr luckenhaftund unregelmaßig uber Ort und Zeit verfugbar (siehe Abbildung 4 aus [17]).

Ort x

Zeit taktueller Zeitpunkt

FCD Schleifenstandorte

SES-Standort

Radio-Meldung

Ausfall einer Schleife

Abbildung 4: Skizze uber die Verfugbarkeit von Verkehrsinformationen

2.3.2 Informationen uber Verkehrsinfrastruktur

Die Informationen uber die Verkehrsinfrastruktur enthalten wenig Imperfektion, sie sind diefundamentalen Informationen zu den Verkehrsnetzen. Die Verkehrsinfrastruktur gliedert sichin Straßennetze, Netz des offentlichen Personennahverkehrs (OPNV) und Parkraume.

Straßennetze: Das Wissen uber die Struktur der Straßennetze wird in sogenannten Kar-tendatenbanken [8] gespeichert. Sie stellen die reale Welt abstrakt und idealisiert als geogra-phisch referenzierte Objekte dar. Bei geographischen Informationssystemenen, wie z.B. AT-KIS (Amtliches Topographisch-Kartographisches Informationssystem) erhalten geographi-schen Objekte eine Position relativ zur Erde, eine Position relativ zu benachbarten Objekten

Page 23: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

2.3: Imperfekte Informationen im Verkehrsumfeld 11

SES Unsicherheit Unscharfe UngenauigkeitOrt keine keine keineZeit kaum keine kaumFluss kaum keine kaum

Geschwindigkeit kaum keine kaumDichte kaum keine kaumGrunde Witterung, Messtoleranzen

Tabelle 1: Imperfektion in Induktionsschleifen

SES Unsicherheit Unscharfe UngenauigkeitOrt keine keine keineZeit kaum keine kaumFluss kaum keine schwach

Geschwindigkeit kaum keine schwachDichte kaum keine schwachGrunde Witterung, Messtoleranzen

Tabelle 2: Imperfektion in stationaren Erfassungssystemen

FCD Unsicherheit Unscharfe UngenauigkeitOrt schwach keine schwachZeit kaum keine kaum

Geschwindigkeit kaum keine schwachNiederschlag schwach ja keineTemperatur kaum keine schwachRutschgefahr schwach ja keine

Grunde GPS-Ungenauigkeit, Fahrverhalten, Messtoleranzen

Tabelle 3: Imperfektion in Floating Car-Daten

Verkehrsteilnehmer Unsicherheit Unscharfe UngenauigkeitOrt schwach keine großZeit keine keine kaum

Verkehrszustand kaum ja keineLange schwach keine groß

Storungstyp schwach keine kaumSpurenwegfall schwach keine keine

Grunde Glaubwurdigkeit, Unkenntnis, Schatzungen

Tabelle 4: Imperfektion in Meldungen von Verkehrsteilnehmern

Page 24: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

12 2: Imperfektion im Verkehrsumfeld

und eine Form. Zur Erstellung von Straßendatenbanken wird die Geometrie aus grobmaßigenamtlichen Karten und Luft- oder Satellitenaufnahmen erfaßt, dadurch entstehen kleine Unge-nauigkeiten. Diese Ungenauigkeiten konnen bei Anwendungen, die auf hochprazise Angabenangewiesen sind, wie z.B. bei der Fahrzeugnavigation durch GPS-Systeme, zu Problemenfuhren. Wenn die Ungenauigkeit zu groß ist, werden zusatzliche Messungen erforderlich.Zusatzlich zu den Verlaufsinformationen werden noch die ubrigen erforderlichen verkehrs-relevanten Informationen (z.B. erlaubte Durchfahrtsrichtung, Abbiegerestriktionen, Wasser-schutzgebiet, Gewichts- und Hohenbeschrankungen etc.) erfasst. Da es keine zentrale Stellegibt an der Anderungen in den erlaubten Fahrtrichtungen oder Anderungen in den Straßen-verlaufen propagiert werden, werden die Informationen im Laufe der Zeit immer unsichererund mussen regelmaßig aktualisiert werden.

Parkraum: Der Parkraum wird im Wesentlichen durch seine Lage und seine Kapazitatbeschrieben. Die Lage von Platzen zum Parken ist im Allgemeinen fix und damit auch dieInformation uber die Parkplatzlokation genau, allerdings werden im Laufe der Zeit Park-platze geschlossen oder durch Parkplatze an anderer Stelle ersetzt. Somit steigt die Unsi-cherheit uber die Lage von Parkplatzen, je weiter die Aktualisierung der Kartendatenbankzuruckliegt. Die Kapazitat von Parkplatzen kann temporaren Schwankungen unterliegen,wenn sporadisch Stellflachen fur parkfremde Aktionen (z.B. Umzuge oder Veranstaltungen)gesperrt werden oder die Kapazitat von Parkflachen fur andere Projekte gestrichen wird. Dietemporaren Schwankungen sind durch Aktualisierungen kaum aufzufangen, diese Unsicher-heit bleibt demnach bestehen, im Gegensatz zur permanenten Einschrankung der Kapazitat(oder auch Ausweitungen der Kapazitat). Zusatzlich zu den grundlegenden Informationenuber Parkplatze, konnen auch Informationen wie durschnittliche Belegung erfasst werden.Aus der durchschnittlichen Belegung kann man nur ungenaue Informationen bezuglich derzu erwartenden Belegung erhalten. Diese Ungenauigkeit kann durch eine differenzierte Be-trachtungsweise der Belegung (durch Berucksichtigung des Wochentags, der Uhrzeit etc.)vermindert, aber nie komplett vermieden werden.

OPNV: Der offentliche Personennahverkehr besteht aus mehreren Linien mit jeweils ei-genen Routen. So besteht das fundamentale Wissen uber den OPNV — aus Verkehrssicht— aus den Fahrplanen der einzelnen Linien. Diese Fahrplane konnen jeweils auf eine Mengevon Tupeln (Ort,Zeit) reduziert werden. Die Orte der Fahrplane unterliegen lediglich einerschwachen Unsicherheit. So kommt es in seltenen Fallen vor, dass einzelne Haltestellen nichtangefahren werden, z.B. aufgrund der Witterung, Baumaßnahmen oder Unfallen. Die großereImperfektion liegt bei der Ungenauigkeit der Zeitangabe, da es immer wieder zu Verzoge-rungen kommen kann. Zusatzlich zu diesen fundamentalen Informationen konnen auch hier— wie bei dem Parkraum — zusatzliche Informationen uber Kapazitat und Auslastungbetrachtet werden. Die Kapazitat einzelner Linien unterliegt einer Ungenauigkeit, da mannicht davon ausgehen kann, dass immer die vorgesehenen Fahrzeuge fur eine Linie eingesetztwerden konnen. Aus der durchschnittlichen Belegung kann beim OPNV ebenfalls nur eineungenaue Information uber die zu erwartende Belegung gezogen werden.

2.3.3 Informationen uber Ereignisse und Storungen

Unter diese Kategorie fallen alle Informationen uber Ereignisse, die Einfluss auf den Verkehrnehmen. An dieser Stelle werden Straßenbaustellen, Großveranstaltungen und das Wetterbetrachtet. Informationen uber Unfalle werden schon durch die Meldungen von Verkehrsteil-nehmern in Kapitel 2.3.1 abgedeckt, sie fallen aber genauso unter diese Kategorie.

Page 25: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

2.3: Imperfekte Informationen im Verkehrsumfeld 13

Baustelle: Die wohl offensichtlichste Storung im Straßenverkehr ist die Baustelle. Durcheine Baustelle wird direkt Einfluss auf den Verkehrsfluss genommen, indem Spuren wegfallenoder verengt werden, die erlaubte Hochstgeschwindigkeit reduziert wird und eventuell einezusatzliche Ampel eingerichtet wird. Da das Einrichten von Baustellen eine hoheitliche Auf-gabe ist und dem Baubeginn eine Planungsphase vorausgeht, ist der Einfluss der Baustellenin den Verkehr absehbar. Die Informationen uber die Lage der Baustellen, Wegfall von Spuren(WfvS), Verengung von Spuren, Verringerung der Hochstgeschwindigkeit und das Einrichtenvon Ampeln existieren vor dem Baubeginn, bei dem Erstellen einer Baustelle wird sich nachdiesen Informationen errichtet, dadurch konnen sie nicht unsicher oder ungenau sein. Un-genauigkeit hingegen besteht bezuglich der zeitlichen Lange von Baumaßnahmen, da durchBudgetprobleme der offentlichen Haushalte oder durch das Wetter Verzogerungen entstehenkonnen. Dadurch verschiebt sich der anvisierte Termin fur die Fertigstellung nach hinten. Ineinzelnen Fallen kann es auch zu einer Fertigstellung der Baumaßnahmen vor dem Ende dergeplanten Frist kommen. Wenn Baustellen nicht fristgerecht fertig werden, kann es bei An-schlussbaustellen auch zu Ungenauigkeiten bezuglich des Starttermines fuhren (Auflistungder Imperfektion in Tabelle 5).

Großveranstaltungen: Ein weiteres Ereignis, das ebenfalls vehement Einfluss auf denVerkehr nehmen kann, sind Großveranstaltungen. Bei Großveranstaltungen kann es zu Sper-rungen kompletter Straßen (z.B. Straßenradrennen), Uberfullung der Parkraume und generellerhohtem Verkehrsaufkommen kommen. Da Großveranstaltungen nur schwer in einer gene-rellen Form zu beschreiben sind, werden sie nur erganzend betrachtet. Großveranstaltungenfuhren dazu, dass Informationen die aus Durchschnittswerten entstehen (durchschnittlichesVerkehrsaufkommen, durchschnittliche Parkraumbelegung oder durchschnittliches Fahrga-staufkommen) nur sehr ungenau Schlusse auf das zu erwartende Aufkommen erlauben. Erstbei regelmaßigen Großveranstaltungen (wie Fussballspiele) kann die Ungenauigkeit durchmehr Informationen aus der Historie verringert werden. Eine ahnliche Verzerrung von Er-wartungswerten erfolgt durch Streiks der Beschaftigten im OPNV. Ein Streik fuhrt zu demAusfall eines Teils der Linien des OPNV, im Extremfall zu einem Komplettausfall. Somitexistiert dann eine Unsicherheit bezuglich der Linien. Durch den Ausfall des OPNV wird derIndividualverkehr gestarkt, was zu einem erhohten Verkehrsaufkommen und einer erhohtenParkplatzbelegung fuhren. Das zusatzliche Aufkommen lasst sich aber nur schwer antizipie-ren.

Wetter: Allgegenwartig und alles andere als zuverlassig und konstant ist das Wetter. Ausder Sicht von Autofahren kann man das komplexe Gebilde ”Wetter“ auf die Elemente: Tem-peratur, Niederschlag und Nebel reduzieren. Das aktuelle Wetter kann somit durch Thermo-meter, Regen- und Sichtsensoren an vereinzelten Stellen von Autobahen — zumindest lokal— zuverlassig bestimmt werden, insofern die Instrumente zuverlassig arbeiten. Da dies nichtimmer zu gewahrleisten ist, besteht immer eine leichte Unsicherheit bezuglich der Werte1.Viel unzuverlassiger wird es hingegen bei Prognosen uber zukunftiges Wetter, in Prognosenunterliegen — je nach Wetterzustand und zeitlicher Entfernung der Prognose zum Zeitpunktdes prognostizierten Wetters — die Werte der Prognose Imperfektion. So besteht bei derTemperatur eine Ungenauigkeit und Niederschlags- bzw. Nebelvorhersagen unterliegen einerUnsicherheit bezuglich ihres Eintretens und einer Ungenauigkeit bezuglich ihrer Starke. Ne-

1Im Mai 2004 meldeten automatischen Verkehrsschilder ein Tempolimit von 40 km/h auf der A5. KeinStau, kein Nebel, kein Wolkenbruch lieferten die Erklarung — emsige Spinnen losten das Kriechtempo aus.Ihre Spinnennetze an den Sichtsensoren losten eine Nebelwarnung aus (Quelle: Spiegel.de 1.6.2004 )

Page 26: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

14 2: Imperfektion im Verkehrsumfeld

ben der Beschreibung des Wetter existiert eine Unscharfe bezuglich des zeitlichen Eintretensdes beschriebenen Wetters.

Abschließend wird die Imperfektion in Bezug auf die Baustellen und das Wetter in denTabellen 5 und 6 zusammengefasst. Da Großveranstaltungen — wie oben schon erwahnt —in ihrer Struktur zu komplex sind, werden sie hier außen vor gelassen.

Baustelle Unsicherheit Unscharfe UngenauigkeitOrt keine keine keineStart kaum keine schwachEnde kaum keine großWfvS kein keine kein

Geschwindigkeit keine keine keinWetter, Budgetprobleme, VerzogerungGrundevon vorangehenden Baumaßnahmen

Tabelle 5: Imperfektion bei Baustellen

Wetter Unsicherheit Unscharfe UngenauigkeitOrt keine keine keineZeit keine keine kein

Temperatur groß keine schwachNiederschlag groß ja kein

Nebel groß ja keinGrunde Dynamik des Wetters, Messfehler

Tabelle 6: Imperfektion bei Wetterangaben

Page 27: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

3: Theorien uber Imperfektion 15

3 Theorien uber Imperfektion

Um die Informationen aus dem vorherigen Kapitel in Datenbanken aufzunehmen, ist eserstmal interessant zu betrachten welche Theorien zur Darstellung von Unsicherheit exi-stieren. Diese Theorien bieten einem die Moglichkeit Imperfektion formal darzustellen, wasfur Datenbanken unumganglich ist. Im Wesentlichen existieren zwei unterschiedliche forma-le Theorien uber die Darstellung von Unsicherheit. Die Wahrscheinlichkeitstheorie — auchProbabilitatstheorie genannt — und die Fuzzy-Theorie. Die Wahrscheinlichkeitstheorie, alsaltere der beiden Theorien, wurde erstmals im 17. Jahrhundert durch Antoine Arnauld [1]formal definiert. Die Fuzzy-Theorie wurde erstmals im 20. Jahrhundert durch Lofti Zadehformalisiert [44]. Aus beiden Theorien sind heutzutage mehrere Varianten hervorgegangen,an dieser Stelle wird sich aber auf die grundlegenden Theorien beschrankt, da eine umfas-sendere Betrachtung fur die folgenden Datenmodelle (Kapitel 4) nicht erforderlich ist. Einenguten Uberblick uber die unterschiedlichen Varianten findet sich in [27].

3.1 Fuzzy-Theorie

Traditionell hat sich die Wissenschaft immer mit scharfen Begriffen beschaftigt. Naturwis-senschaftliche Gesetze sind in der Regel vereinfachte Abbildungen der Wirklichkeit, die mitfesten (skalaren) Werten arbeiten. Die Modelle werden mit reellen Zahlen gefuttert und alsAusgabe erhalt man wiederum feste (skalare) Werte. Dieses Prinzip spiegelt sich schon inder altesten formalen Logik wieder.

Nach Aristoteles Aussagenlogik hat eine Aussage A immer entweder den Wert ”WAHR“oder den Wert ”FALSCH“. Dies fuhrt dazu, dass eine zusammengesetzte Aussage A ∧ ¬Aimmer eine Antilogie bildet, also stets falsch ist. Es handelt sich daher bei der Aussagenlogikum eine zweiwertige Logik, da eine Aussage immer nur zu 100% ”WAHR“ oder zu 100%

”FALSCH“ sein kann.

Die Problematik dieser Simplifizierung auf zwei Werte erkannten schon Aristoteles’ Zeitge-nossen. Eines der beruhmtesten Paradoxa zu diesem Thema stammt von Zenon dem Alteren,er erklart die Schwache der bivalenten Logik anhand eines Sandhaufens:

Beispiel 3-1: Wenn man einen Sandhaufen vor sich hat und ein Sandkorn wegnimmtbleibt der Sandhaufen nach menschlichem Verstandnis weiterhin ein Sandhaufen. Wenn mandamit fortfahrt Sandkorner zu entfernen andert sich an dem Sachverhalt, dass es sich umeinen Sandhaufen handelt, erstmal nichts. Nur irgendwann wird man ein Sandkorn weglegenund vor einem befindet sich nur noch ein einzelnes Sandkorn. Hierbei handelt es sich dann— wiederum nach dem menschlichen Verstandnis — offensichtlich nicht mehr um einenSandhaufen. Aber wann hat der Sandhaufen aufgehort ein Sandhaufen zu sein?

Nach der aristotelischen Logik muss man eine genaue Grenze definieren, beispielsweise 1000Sandkorner ergeben einen Sandhaufen, sobald dort nur noch 999 Sandkorner liegen ist esdemnach kein Sandhaufen mehr, mit einem Korn mehr hingegen schon. Ist das eine sinn-volle Abgrenzung einem einzelnen Sandkorn soviel ”Macht“ zuzusprechen? Insbesondere inAnbetracht der Tatsache, dass ein menschlicher Beobachter ein zusatzliches oder fehlendesSandkorn uberhaupt nicht bemerken wird? Auch wenn man mehrere Grenzen einfuhrt, wiezum Beispiel ”Sandhaufchen“ und ”eine Anhaufung von Sand“ wird es dem menschlichenVerstandnis des Sachverhaltes nicht gerecht. Besonders stort die Tatsache, dass manchmal dieWegnahme eines einzelnen Sandkornes den Sachverhalt andert, dann handelt es sich plotzlichnicht mehr um einen ”Sandhaufen“ und andererseits die Wegnahme von mehreren HundertKorner den Sachverhalt unverandert lasst, weil dabei keine feste Grenze uberschritten wurde.

Page 28: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

16 3: Theorien uber Imperfektion

In diesem Zusammenhang ist es wunschenswert eine multivalente Einteilung zur Verfugungzu haben, z.B. ”A ist zu 80% ein Sandhaufen und A ist zu 20% kein Sandhaufen“ also A∧¬Amit dem Wahrheitswert ”WAHR“.

Im asiatischen Kulturkreis entstand schon fruher das Bewusstsein dafur, dass man Sach-verhalte nicht eindeutig einer Seite zuordnen kann. Buddha vermittelte ca. 600 v. Chr. inseinen Lehren, dass in allen Dingen beide extremen Formen des Seins ”Ying“ und ”Yang“gleichzeitig vorherrschen. Allerdings wurden Ansatze dieser Art nie formalisiert und somitfur die Wissenschaft brauchbar gemacht.

Erst Anfang des 20. Jahrhunderts wurde die Wissenschaft, durch Bertrand Russel, fur multi-valente Logiken sensibilisiert. Als Resultat entwickelte der Mathematiker Lofti Zadeh (1965)die Fuzzy-Logik [44], um die herkommliche aristotelische Logik auf den Gebrauch von um-gangssprachlichen Begriffen zu erweitern. Fuzzy bedeutet im Englischen soviel wie ”ver-schwommen“, ”unscharf“. Damit ist aber nicht gemeint, dass die Logik unscharf ist, sonderneine ”prazise Theorie des Unprazisen“ [9]. Die Fuzzy-Logik erweitert die Aussagenlogik umZwischenstufen zu ”WAHR“ und ”FALSCH“.

Wahrend die Aussagenlogik Sachverhalte in herkommliche Mengen partitioniert, also entwe-der handelt es sich um eine ”große Person“, eine ”mittelgroße Person“ oder um eine ”kleinePerson“, operiert die Fuzzy-Logik auf unscharfen Fuzzy-Mengen. Die Fuzzy-Mengen fuhrenZwischenstufen zu der diskreten Zugehorigkeit zu Mengen ein, so kann ein Element mehrerenMengen angehoren mit unterschiedlichem Zugehorigkeitsgrad. Eine 185cm große Person wirdvon vielen Menschen als ”groß“ angesehen, aber ein nicht unerheblicher Teil wird sie nur als

”mittelgroß“ ansehen. Somit haben wir eine Zugehorigkeit zu zwei Mengen.

Die Grundidee der Fuzzy-Theorie ist, die fur die Definition einer Menge verwendete charak-teristische Funktion in ihrem Wertebereich zu andern. Wahrend bei klassischen Mengen dieBildmenge auf die Werte 0 (Element ist nicht in der Menge enthalten) und 1 (Element istin der Menge enthalten) beschrankt ist, wird sie bei Fuzzy-Mengen auf ein kontinuierlichesIntervall erweitert [42]:

Definition 3-1 (Fuzzy-Menge): Eine Fuzzy-Menge µ von Ω ist eine Funktion von derReferenzmenge Ω in das Einheitsintervall:

µ : Ω → [0, 1] . (1)

Die Menge aller Fuzzy-Mengen auf Ω sei mit F (Ω) bezeichnet.

Die Fuzzy-Menge gibt also den Zugehorigkeitswert eines Elementes zu einer Menge an. Furdie Fuzzy-Mengen gibt es — analog zur klassischen Mengenlehre — die Konstrukte Schnitt(∩), Vereinigung (∪) und Komplement (c), sie sind wie folgt definiert [42]:

∩ : A ∩B = µA∩B = minµA, µB (2)∪ : A ∪B = µA∪B = maxµA, µB (3)c : Ac = µAc = 1− µA (4)

Die Fuzzy-Theorie eignet sich gut im Einsatz mit unscharfen Begriffen besonders an Schnitt-stellen mit menschlichen Benutzern. Mit ihrer Hilfe kann die Ungenauigkeit in umgangs-sprachlichen Ausdrucken fur Informationssysteme formalisiert werden. In diesem Fall sprichtman dann von linguistischen Variablen.

Page 29: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

3.1: Fuzzy-Theorie 17

3.1.1 Linguistische Variable

Unter einer linguistischen Variablen versteht man die Moglichkeit, Variablen als Wert einenverbalen Begriff zuzuordnen, z.B. eine Variable Verkehrsfluss bekommt den Wert ”zahflie-ßend“ zugewiesen. Damit der Wert ”zahfließend“ auch maschinell verarbeitet werden kann,muss dieser formalisiert werden. Die linguistische Variable bietet im Einsatz also eine Schnitt-stelle zwischen unscharfen Informationen (z.B. menschliche Quelle) und scharfen Informatio-nen (z.B. technische Quelle). Dadurch wird es ermoglicht, die menschliche Kategorisierungvon Dingen (”großer Mensch“) auf prazise Daten (cm) zu ubertragen. Die Formalisierungder linguistischen Variable geschieht mit Hilfe einer Fuzzy-Menge. Zimmermann [47] definiertden Begriff linguistische Variable wie folgt:

Definition 3-2 (linguistische Variable): Eine linguistische Variable ist definiert als einQuintupel (x, T (x), U,G, M). x ist der Name der Variablen, T (x) ist die Termmenge oderder Wertebereich mit den Namen der linguistischen Werte (Terme) von x, U ist der De-finitionsbereich einer Basisvariablen als Bezugspunkt fur die Festlegung der Bedeutung derTerme, G die Syntax zur Konstruktion neuer Werte und M die Semantik, die jedem Termder Termmenge eine Bedeutung zuordnet. Die Bedeutung wird durch eine unscharfe Mengereprasentiert, welche durch eine Zugehorigkeitsfunktion auf U definiert ist.

Beispiel 3-2: Eine Variable x = Verkehrsfluss besitzt die Termmenge T(x) = frei, zahflie-ßend, gestaut, die Basisvariable U ist die Durchschnittsgeschwindigkeit in km/h, als Se-mantik M fur die Terme, sind folgende Zuordnungen denkbar: frei = Der einzelne Autofah-rer kann seine Geschwindigkeit weitestgehend selbst regulieren, zahfließend = durch die hoheFarhzeugdichte ist eine Selbstregulierung der Hochstgeschwindigkeit nicht mehr moglich, ge-staut = die Autos konnen sich bestenfalls noch im Stop-and-Go-Verkehr fortbewegen. DieTabelle 7 bildet diese Beispielsvariable in einer Relation ab. G ist eine Funktion, mit derman fur Durchschnittsgeschwindigkeiten, welche nicht in der Tabelle enthalten sind, die Zu-gehorigkeitswerte zu den Termen bestimmen kann.

In diesem Beispiel wird auch deutlich, wie sehr die subjektive Empfindung eine Rolle beiVerkehrsmeldungen spielt. Ein Fahrer der eine schnelle Fahrweise bevorzugt, wird auf einerStrecke schon einen Verkehr als zahfließend betrachten, wahrend ein Fahrer mit einer lang-samen Fahrweise bei gleicher Verkehrslage keine Storung im Verkehrsfluss erkennen kann.

3.1.2 Possibilitatstheorie

Im Zusammenhang der Fuzzy-Theorie ist eine Form von besonderer Bedeutung, die Possi-bilitatstheorie [42], welche ebenfalls von Lofti Zadeh entwickelt wurde [45]. Eine Funktionordnet Elementen Zugehorigkeitswerte im kontinuierlichen Einheitsintervall [0, 1] zu. Die Zu-gehorigkeitswerte geben an, fur wie moglich man das Eintreffen eines Ereignisses halt. DerZugehorigkeitswert 1 ist also ”mit Leichtigkeit“ zu interpretieren, wenn ein solches Ereigniseintritt ist man nicht uberrascht. Allerdings bedeutet das nicht, dass das Ereignis zwingendeintreten muss, es spricht nur nichts dagegen, es ist also vollkommen moglich. Bei sinken-der Possibilitat gibt es Anzeichen, die dagegen sprechen und umso uberraschender ware einEintreten eines solchen Ereignisses. Die Possibilitatstheorie darf nicht mit der Probabilitats-theorie (nachster Abschnitt) verwechselt werden. Anschaulich wird der Unterschied durchdas in der Literatur haufig zitierte ”Eier-Beispiel“ aus Zadehs grundlegendem Aufsatz zurPossibilitatstheorie [45].

Page 30: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

18 3: Theorien uber Imperfektion

verbaler Durchschnitts-Variable

Wert geschwindigkeit xµ(x)

Verkehrsfluss frei 120 km/h 1.00

Verkehrsfluss frei 110 km/h 0.75

Verkehrsfluss frei 100 km/h 0.50

Verkehrsfluss frei 90 km/h 0.25

Verkehrsfluss zahfließend 110 km/h 0.25

Verkehrsfluss zahfließend 100 km/h 0.50

Verkehrsfluss zahfließend 90 km/h 0.75

Verkehrsfluss zahfließend 80 km/h 1.00...

......

...

Verkehrsfluss zahfließend 40 km/h 1.00

Verkehrsfluss zahfließend 30 km/h 0.75

Verkehrsfluss zahfließend 20 km/h 0.50

Verkehrsfluss zahfließend 10 km/h 0.25

Verkehrsfluss gestaut 30 km/h 0.25

Verkehrsfluss gestaut 20 km/h 0.50

Verkehrsfluss gestaut 10 km/h 0.75

Verkehrsfluss gestaut 0 km/h 1.00

Tabelle 7: Die linguistische Variable ”Verkehrsfluss“

Beispiel 3-3: Es werden die Moglichkeiten und die Wahrscheinlichkeiten verglichen, daßHans zum Fruhstuck eine bestimmte Anzahl Eier isst. Die Possibilitatsverteilung wird inter-pretiert als Leichtigkeitmit der Hans x Eier ist. Bei der Ermittlung von Wahrscheinlichkeitenmuß Hans uber einen gewissen Zeitraum beobachtet werden, um die relativen Haufigkeitenfestzustellen, mit denen Hans morgens eine bestimmte Anzahl von Eiern ist. Das Ergebniskonnte dann so aussehen:

Anzahl Eier 1 2 3 4 5 6 7 8

Moglichkeit 1.0 1.0 1.0 1.0 0.8 0.6 0.4 0.2

Wahrscheinlichkeit 0.1 0.8 0.1 0.0 0.0 0.0 0.0 0.0

Tabelle 8: Possibilitaten beim Fruhstucksei

Die Moglichkeiten durfen nicht so interpretiert werden, als ob Hans haufig drei Eier zumFruhstuck isst und es demnach sehr wahrscheinlich ist (Wahrscheinlichkeit nur 0.1), dasser dies heute wieder tut. Es bedeutet lediglich, dass Bernd mit Leichtigkeit zwei Eier essenkonnte und es uns folglich nicht uberrascht, wenn er dies tut. Die Moglichkeiten sind wenigerspezifisch als die Wahrscheinlichkeiten (was moglich ist, ist noch lange nicht wahrscheinlichund was wahrscheinlich ist, ist auch moglich) die im nachsten Kapitel behandelt werden.

Die Possibilitatstheorie wird angewendet um die Behandlung von Unsicherheit und Unscharfezu vereinen, ohne die Einfuhrung komplexer Behandlungen in Kauf nehmen zu mussen.

Page 31: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

3.2: Probabilitatstheorie 19

Allerdings ist dies nicht zu erreichen, ohne Abstriche bei der Genauigkeit der Ergebnisse zumachen. In Anwendungen kann dies jedoch akzeptabel sein, wenn die Kosten einer genauerenLosung ihren Nutzen ubersteigen [5].

3.2 Probabilitatstheorie

Die Probabilitatstheorie — auch als Wahrscheinlichkeitstheorie bekannt — beruht wie auchdie Fuzzy-Theorie auf der Zuordnung zu mehreren Mengen wie bei der Fuzzy-Theorie [1].Der Unterschied zur Fuzzy-Theorie liegt allerdings darin, dass die Wahrscheinlichkeitstheorieauf der klassischen Aussagenlogik beruht. Eine Aussage ist also entweder wahr oder falsch.Aufgrund von beschranktem Wissen weiß man aber nicht, was wirklich gilt. Deshalb wirdein Satz mit einem Grad an Uberzeugung versehen, der angibt, fur wie wahrscheinlich mandie Aussage halt. Fur die formale Beschreibung der Wahrscheinlichkeit von Zugehorigkeit zubestimmten Mengen verwendet man die Begriffe Wahrscheinlichkeitsmaß und Wahrschein-lichkeitsverteilung [27].

Definition 3-3 (Wahrscheinlichkeitsmaß): Das Wahrscheinlichkeitsmaß gibt an, mitwelcher Wahrscheinlichkeit P (A) ein beliebiges Element x ∈ Ω zu einer wohl-definiertenTeilmenge A ⊆ Ω gehort. Es ist eine Zuordnung der Potenzmenge einer Grundmenge in dasEinheitsintervall [0,1]: P : 2Ω → [0, 1].

Definition 3-4 (Wahrscheinlichkeitsverteilung): Die Wahrscheinlichkeitsverteilung istdefiniert als die Zuordnung der Grundmenge Ω in das Einheitsintervall [0,1]: p : Ω → [0, 1],

∀x ∈ Ω : p(x) = P (x).

Das Wissen, aufgrund dessen man diese Zuordnung der Wahrscheinlichkeiten trifft, wirdEvidenz genannt. Wenn man neues Wissen uber einen Sachverhalt erhalt — also eine neueEvidenz — muss der Wahrscheinlichkeitswert neu berechnet werden. Eine sorgsame Verwal-tung der Wahrscheinlichkeitswerte benotigt einen Verweis auf die Evidenz, aufgrund der manzu dem Wert gelangt. Neues Wissen kann dann mit dem bisherigen Wissen abgeglichen unddeswegen ein neuer Wert entwickelt werden.

Die Wahrscheinlichkeitstheorie eignet sich fur unsichere Werte. Durch Wissen uber die Histo-rie eines Untersuchungsgegenstandes oder aufgrund von Expertenwissen wird die Zuteilungvon Wahrscheinlichkeitswerten vorgenommen. Zwischen unsicheren und ungenauen Wertengibt es eine reziproke Wechselbeziehung. Je ungenauer man einen Wert angibt — durch eingroßeres Intervall (großere Teilmenge A in Definition 3-2) zum Beispiel — umso hoher wirddie Wahrscheinlichkeit, dass der Wert eintritt.

Der Unterschied zwischen der Fuzzy- und der Wahrscheinlichkeitstheorie wird im folgendenBeispiel von Bezdek deutlich [4]:

Beispiel 3-4: Angenommen Sie laufen seit ein paar Wochen durch die Wuste und stossendann auf ein Paar Flaschen K und M wie in Abbildung 5. Mit der Menge T = Trinkbarseien alle trinkbaren Getranke bezeichnet.

Wenn Sie jetzt eine der Flaschen trinken mussten, fur welche wurden Sie sich entscheiden?Wahrend bei der Flasche K das Etikett besagt, dass der Inhalt eine Zugehorigkeit zu trinkba-ren Getranken von 0.91 hat, was bedeutet, dass die Trinkbarkeit nahezu an perfekt trinkbare

Page 32: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

20 3: Theorien uber Imperfektion

Κ

= 0.91 Τ

Μ

Π (Τ) = 0.91

Abbildung 5: Zwei Flaschen fur einen durstigen Wanderer

Getranke, wie z.B. pures Wasser, heranreicht. Der Inhalt konnte also schmutziges Wasseroder Wein sein. Andererseits besagt das Etikett der Flasche M, dass die Wahrscheinlich-keit, dass der Inhalt von M trinkbar ist, gleich 0.91 ist. Dies bedeutet, dass von 100 Flaschendieser Art 9 nicht trinkbar, also todlich sind. Die anderen 91 hingegen sind perfekt trinkbar.

Ein weiterer Unterschied ergibt sich, wenn man zusatzliche Informationen uber den Unter-suchungsgegenstand erhalt. Wenn man z.B. die Flaschen aus Beispiel 3-4offnet, den Inhaltder Flaschen untersucht und dabei feststellt, dass sich in der Falsche K Wein befindet und inder Flasche M eine Wasserstoffperoxid-Losung, dann bleibt die Zugehorigkeit von K gleich,wahrend der Wahrscheinlichkeitswert von M auf 0 sinkt.

Die Wahrscheinlichkeitstheorie eignet sich demnach um Unsicherheit zu modellieren, sieerfordert allerdings einen hinreichend großen Beobachtungszeitraum bzw. Expertenwissenum die Wahrscheinlichkeiten zuzuordnen.

Page 33: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

4: Datenmodelle fur imperfekte Daten 21

4 Datenmodelle fur imperfekte Daten

In diesem Kapitel wird eine Auswahl an Datenmodellen vorgestellt, die auf den Theorien ausdem vorherigen Kapitel aufbauen. In einer umfassenden Bibliographie zu diesem Gebiet [12]werden uber 200 Papiere zur Fuzzy-Theorie (bzw. zur verwandten Possibilitatsheorie) auf-gelistet und nur 21 Papiere zur Wahrscheinlichkeitstheorie. Die Fuzzy-Theorie ist eindeutigauf dem Vormarsch in der Forschung. Da die Fuzzy-Theorie fur die Modellierung unscharferInformation entwickelt wurde und das Kapitel 2.3 gezeigt hat, dass wir im Verkehrsumfeldhaufig mit unscharfen Information hantieren, liegt auch in diesem Kapitel der Schwerpunktauf Ansatzen die auf der Fuzzy-Theorie beruhen. Weiterhin kann die Fuzzy-Theorie auch zurModellierung von ungenauem und unsicherem Wissen verwendet werden [43].

Zaniolo et al. [46] verfassten ein umfassendes Werk uber aktuelle Konzepte und Untersu-chungsgebiete im Bereich von Datenbanken und untersuchten dafur auch aktuelle Datenmo-delle fur die Modellierung von imperfekter Information. Sie stellen zwei relationale Daten-modelle fur Imperfektion vor, ein Modell verkorpert einen generalisierten Fuzzy-Ansatz (einModell dieser Kategorie wird in Kapitel 4.6 vorgestellt) und ein spezifisches Modell fur pro-babilistische Datenbanken mit Wahrscheinlichkeitsintervallen (dieses Modell wird in Kapitel4.5 vorgestellt).

Neben diesen Ansatzen werden noch weitere Ansatze vorgestellt um das Spektrum aktuellerAnsatze abzudecken. So wird noch ein weiteres probabilistische Modell vorgestellt, welchessich von dem oben erwahnten dadurch unterscheidet, dass es nicht auf Wahrscheinlichkeitsin-tervalle zur Modellierung der Imperfektion zuruckgreift, sondern feste Wahrscheinlichkeits-werte verwendet (Kapitel 4.4). Neben dem oben erwahnten generellen Fuzzy-Ansatz wirdnoch ein Modell vorgestellt, welches auf der Possibilitatstheorie aufbaut (Kapitel 4.7) undein Fuzzy-Ansatz aus den objektorientierten Modellen (Kapitel 4.3). Zusatzlich wird noch einModell vorgestellt, welches im engeren Sinne kein Datenmodell ist, sondern ein Fuzzy-Ansatzum Schemata so zu erweitern, dass unscharfe Anfragen auf ihnen moglich sind (Kapitel 4.8).

Einfuhrend werden erstmal die Kriterien vorgestellt nach denen die Ansatze bewertet werden,anschließend folgt ein kurzer Uberblick uber die herkommlichen Datenmodelle (relationalesund objektorientiertes Modell), welche die anderen Ansatze als Grundlage verwenden. ImHauptteil des Kapitels werden dann die oben erwahnten Datenmodelle fur imperfekte Datenbeschrieben und anhand der vorgestellten Kriterien bewertet.

4.1 Kriterien fur die Beurteilung von Datenmodellen im Verkehrsumfeld

An dieser Stelle werden Kriterien eingefuhrt anhand derer die ausgesuchten Datenmodellebewertet werden. Bei der Auswahl eines geeigneten Modells muss erstmal das Umfeld be-trachtet werden in dem das Datenmodell zum Einsatz kommen soll. In dem Falle dieserArbeit ist das Einsatzgebiet das Verkehrsumfeld. Im Speziellen die imperfekten Informa-tionen im Verkehrsumfeld. Betrachtet man das Verkehrsumfeld (siehe Kapitel 2.3) aus derDatenbank-Perspektive, so sieht man ein Einsatzgebiet, welches viele Informationen gene-riert (viele Schreib-Anforderungen an die Datenbank), hoch dynamisch und dadurch schwerantizipierbar ist (die Informationen verlieren schnell ihre Gultigkeit) und zahlreiche Quellenunterschiedlicher Art verwendet (die Informationen der Quellen passen nicht in ein generellesFormat und sind unterschiedlich zuverlassig).

Im Verkehrsumfeld werden in kurzen Perioden Informationen durch Sensoren (Verkehr undWetter) generiert, zusatzlich entstehen in Stoßzeiten auch noch zahlreiche Informationen

Page 34: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

22 4: Datenmodelle fur imperfekte Daten

durch Verkehrsteilnehmer. Die Informationen mussen zum einen erstmal in die Datenbankaufgenommen werden, welches eine leichte Aufnahme der Informationen in die Datenbankerfordert, und zum anderen mussen dadurch Verkehrszustande die in der Datenbank model-liert sind laufend aktualisiert werden, was wiederum einfach gestaltet werden muss. Darausfolgt die erste Anforderung an das Datenmodell: Effizientes Einbringen und Andern vonInformationen (im Folgenden kurz mit Dynamik bezeichnet).

Der Straßenverkehr besteht in mikroskopischer Sicht aus einzelnen Individuen, jedes mit ei-gener Route und unterschiedlichen Fahrgewohnheiten. Folglich lasst sich schlecht antizipierenwie, wann und wo sich jemand fortbewegt. Diese Problematik stellt sich schon bei der Planungvon Straßen und wird sicherlich nicht mit der Dauer ihres Bestehens entscharft. Als weite-re Folge ergibt sich, dass einzelne Verkehrsteilnehmer schnell einen großen Einfluss auf denVerkehrsfluss nehmen konnen, z.B. durch einen Unfall oder der Blockierung von Straßenka-pazitaten durch zu langsames Fahren. Bei der Modellierung von Verkehrszustanden bedeutetdas, dass die Zustande — wenn uberhaupt — nur selten die Realitat scharf abbilden. Deswe-gen muss es fur die Modellierung von Verkehrszustanden geeignete Ausdrucksmoglichkeitengeben muss, um die Unsicherheit, Ungenauigkeit und Unscharfe einzubinden. Daraus folgtals zweite Anforderung: Hohe Ausdruckskraft bei der Beschreibung von Imperfektion (kurz:Ausdruckskraft).

Wie in Kapitel 2.3 beschrieben, existiert eine mannigfaltige Auswahl an Informationsquellen,welche sich in ihren Informationen widersprechen oder gegenseitig bekraftigen konnen. Folg-lich muss das Datenmodell in der Lage sein, aus den Informationen vieler und unterschied-licher Quellen einen Zustand modellieren zu konnen. Die dritte Forderung lautet deswegen:Unterstutzung der Quellenvielfalt (kurz: Quellenvielfalt).

Um einen Nutzen aus den gespeicherten Daten ziehen zu konnen, mussen die Informatio-nen auch leicht fur die Anfragen von Anwendungen und Nutzer aufbereitet werden konnen.Verschachtelte Strukturen und interpretationsbedurftige Attributwerte sind in diesem Zu-sammenhang storend und sollten vermieden werden. Die vierte und letzte Forderung lautetdeswegen: Gute Anfrageunterstutzung (kurz: Anfragenunterstutzung).

Somit ergeben sich zusammenfassend vier Kriterien nach denen die Modelle bewertet werden:

Dynamik: Inwiefern ist das Modell in der Lage neue Evidenzen effizient in der Datenbankeinzuarbeiten?

Ausdruckskraft: Welche Moglichkeiten bietet das Modell um Imperfektionen in den Infor-mationen zu modellieren?

Quellenvielfalt: Wie verhalt sich das Modell, wenn die Evidenzen von unterschiedlichenQuellen stammen?

Anfragunterstutzung: Legt das Modell nur Wert auf die Speicherung von Daten oderkonnen diese Daten auch leicht und verstandlich abgefragt werden?

4.2 Herkommliche Modelle

In diesem Unterabschnitt werden kurz die beiden gebrauchlichsten herkommlichen Daten-modelle vorgestellt, welche auch von den Ansatzen im nachsten Abschnitt erweitert werden,das relationale Modell und das objektorientierte Modell. Eine ausfuhrlichere Beschreibungfindet sich in [23].

Page 35: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

4.2: Herkommliche Modelle 23

4.2.1 Das relationale Modell

Das relationale Datenmodell wurde 1970 von E.F Codd erstmals vorgestellt und bildet Sach-verhalte in Tabellen ab. Die Kernelemente des relationalen Modells bilden Relationen, Tupel,Attribute und Schlussel.

Definition 4-1 (Attribut): Ein Attribut A besteht aus einem Bezeichner (Attributname)und einem Wertebereich D(A).

Definition 4-2 (Tupel): Ein Tupel t ist eine strukturierte Menge an Werten (a1, a2, . . . , an),wobei jeder Wert ai einem Attribut Ai zugeordnet ist.

Definition 4-3 (Relation): Eine Relation R ist eine Menge an Tupeln t1, . . . , tn, diealle derselben Konstellation an Attributen unterliegen.

Definition 4-4 (Schlussel): Eine Schlussel S ist eine Menge an Attributen Ai, . . . , Aj,uber die ein Tupel in einer Relation eindeutig identifiziert wird.

In Abbildung 6 ist eine beispielhafte Relation abgebildet. Die Relation und ein beispielhaftesTupel sind zur Hervorhebung umrahmt, die Attributbezeichner sind fett hervorgehoben unddas Schlusselattribut ist grau unterlegt. In der Abbildung kann uber die Matrikelnummerein Student eindeutig identifiziert werden.

Die Standard-Anfragesprache fur relationale Datenbanken ist SQL (Structured Query Lan-guage), sie definiert einheitlich wie mit Anfragen auf relationale Datenbanken zu verfahrenist.

Matrikelnr. Name Vorname Semester Fach

1319478 Riese Adam 16 Mathematik

1319513 Klein Eva 3 Architektur

1319664 Braun Bernd 7 Physik

Tupel

Relation

Abbildung 6: Beispielrelation uber eine Studentenkartei

4.2.2 Objektorientiertes Modell

Es gibt kein einheitliches objektorientiertes Datenmodell, jedoch gibt es Standards fur ob-jektorientierte Datenmodelle in Programmiersprachen, z.B. Java oder C++. So gibt es keinedurchgangig verbreiteten Standards, wie Anfragen realisiert werden, es gibt demnach keinAquivalent zu SQL im relationalen Modell.

Es gibt aber einheitliche Konzepte, denen alle Modelle folgen. Die Kernkonzepte der Objek-torientierung sind Klassen und Objekte, Attribute und die Vererbung.

Klassen und Objekte: Das Grundkonzept der Objektorientierung, alles als Objekte auf-zufassen, welche abstrakten Klassen zugeordnet sind, ist Platons Ideenlehre gleichzusetzen

Page 36: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

24 4: Datenmodelle fur imperfekte Daten

nach der realen Objekten in der Sinnenwelt die abstrakten Ideen zugeordnet sind, Muster-bilder (Bauplane) nach denen Objekte in der Welt aufgebaut sind. Eine Beschreibung vonPlaton Ideenlehre findet sich in [34].

Objekte in der Objektorientierung besitzen einen Zustand, der technisch uber eine Mengevon Attributen realisiert wird. Berechnungen werden in den Methoden eines Objektes durch-gefuhrt. Methoden sind Prozeduren oder Funktionen, die auf die Attribute des Objektes, zudem sie gehoren, zugreifen und sie verandern konnen.

Objekte sind Instanzen jeweils einer Klasse. Die Klasse definiert den Aufbau der Objekte,indem sie die Attribute und den Aufbau der Methoden festlegt. Ein Objekt ist dann einekonkrete Auspragung des Zustandsraumes, der durch die Klasse aufgespannt wird.

Attribute: Attribute sind, wie im relationalen Modell, durch einen Bezeichner und einenWertebereich festgelegt. Die Objekte nehmen fur jedes Attribut einen konkreten Wert indessen Wertebereich ein.

Vererbung: Zwischen Klassen besteht eine Hierarchie der Vererbung, das heißt, eine Klasseerbt von ihren Oberklassen Attribute und Methoden. In Java und C++ ist die Vererbungaber auf eine direkte Oberklasse beschrankt (Einfachvererbung).

4.3 Objektorientiertes Fuzzy-Modell

In diesem Abschnitt wird der erste Ansatz zur Erweiterung der herkommlichen Modelle aufdie Verarbeitung von Imperfektion vorgestellt.

Witte beschreibt in [42] den Aufbau eines objektorientierten Fuzzy-Modells. Ein wichtigerPunkt seines Modells liegt in der Art der Einbettung von imperfekten Informationen. Erlegt Wert auf eine universelle Einsetzbarkeit, deshalb kann die imperfekte Information or-thogonal zur konventionellen Information eingefugt werden, so dass Dienste, welche nicht mitimperfekter Information umgehen konnen, weiterhin unproblematisch ohne Modifikationenmit den scharfen Daten arbeiten konnen, ohne zu bemerken, dass auch imperfekte Datenangefugt sind. Weiterhin verwendet dieses Konzept nur vorhandene Elemente objektorien-tierter Sprachen und verzichtet auf die Erweiterung von Syntax der verwendeten Sprache,ein weiterer wichtiger Aspekt fur die Interoperabilitat des Konzeptes.

4.3.1 Einbettung imperfekter Information

Wie oben beschrieben, verwendet Witte nur vorhandene Mittel objektorientierter Sprachenzur Einbettung imperfekter Informationen. So konnen bestehende Komponenten eines ob-jektorientierten Datenmodels durch sogenannte Annotationen mit Imperfektion erweitertwerden. In seinem Konzept gibt es die Moglichkeit einzelne Attribute oder ganze Objektemit unscharfer Zusatzinformation zu versehen. Die Annotationen werden an die Objekte an-gehangt und konnen somit von Systemen, die nicht mit imperfekter Information umzugehenim Stande sind, ausgeblendet werden.

Page 37: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

4.3: Objektorientiertes Fuzzy-Modell 25

4.3.2 Fuzzy-Formeln

Witte legt in seinem Modell großen Wert auf die Trennung von Semantik und Syntax. Zudiesem Zweck verwendet er zur Modellierung der Imperfektion in seinem System die Kon-strukte Fuzzy-Atom, Fuzzy-Literal, Fuzzy-Klausel und Fuzzy-Formel.

Definition 4-5 (Fuzzy-Atom): Gegeben sei eine Menge Ω, Ein Fuzzy Reprasentations-sytem auf Ω ist ein Tripel (U(Ω),A., µ.). Dabei ist U(Ω) eine Menge von Symbolen uber Ωund µ., A. sind Abbildungen

µ. : U(Ω) → F (Ω),A 7→ µAA. : F (Ω) → U(Ω), µ 7→ AA

fur die µ. A. = idF (Ω) gilt. Die Elemente von U(Ω) heißen Fuzzy-Atome. Die Fuzzy-MengeµA heißt Interpretation von A und das Atom Aµ ist der (ausgezeichnete) Name von µ.

Semantisch gesehen ist ein Fuzzy-Atom also als Fuzzy-Menge zu interpretieren. Das Ver-fahren, eine Fuzzy-Menge als Fuzzy-Atom zu speichern, erfolgt einerseits um die Trennungzwischen Semantik und Syntax zu verfolgen, andererseits um die Information wie ein kom-plexer Ausdruck zustande gekommen ist zu erhalten. Deswegen schlagt Witte nicht den Wegein Fuzzy-Mengen uber Mengen-Operatoren zu verknupfen. Statt dessen verknupft er dieFuzzy-Atome (die fur die Fuzzy-Mengen stehen) uber die aus der Logik bekannten Opera-toren Negation, Konjunktion und Disjunktion. Dadurch entstehen die weiteren Konstrukteseines Systems:

Eine Fuzzy-Literal L ist ein Fuzzy-Atom A oder seine Negation ¬A.

Eine Fuzzy-Klausel K ist eine Oder-Verknupfung ∨ von Fuzzy-Literalen L (Disjunkti-on).

Eine Fuzzy-Formel F ist eine Und-Verknupfung ∧ von Fuzzy-Klauseln K (Konjunkti-on).

Die Fuzzy-Formel bildet demnach die hochste Ebene bei den Konstrukten, weil sie aus denunterliegenden Konstrukten zusammengesetzt ist. Da die Fuzzy-Formel ein Konjunktion ein-zelner Disjunktionen ist, erfullt sie die aus der Logik bekannten Bedingungen fur eine Konjun-tive Normalform (KNF) [38]. Analog zu dieser Definition bezeichnet Witte die Fuzzy-Formelauch als sogenannte Fuzzy Konjunktive Normalform (FKNF). Diese kann wiederum, durchAnwendung der klassischen Mengenoperatoren, als Fuzzy-Menge interpretiert werden. DieFuzzy-Formel wird dafur wie folgt aufgelost:

¬: Die Negation von Fuzzy-Atomen (¬A) wird zu 1−A aufgelost.

∨: Die Disjunktion von Fuzzy-Literalen (L1∨. . .∨Ln) wird uber die Vereinigung der Literaleaufgelost (Maximum-Bildung).

∧: Die Konjunktion von Fuzzy-Klauseln (K1 ∨ . . .∨Kn) wird uber den Schnitt der Klauselnaufgelost (Minimum-Bildung).

Den zusatzlichen Schritt uber die Aufstellung einer Fuzzy-Formel begrundet Rene Witte [42]wie folgt:

Page 38: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

26 4: Datenmodelle fur imperfekte Daten

Jede Anderung uber den Kenntnisstand — das Hinzufugen neuer Informatio-nen, das Einbringen neuer Bedingungen, die Aufnahme neuer Ergebnisse ei-ner Heuristik oder eines Messergebnisses — wird so nicht an der resultierendenFuzzy-Menge durchgefuhrt, sondern erfolgt durch Modifikation der beschreiben-den Fuzzy-Konjunktiven Normalform. Muss spater eine Information entfernt wer-den, weil beispielsweise eine Heuristik inkorrekt angewendet wurde, ein defekterMeßsensor falsche Daten geliefert hat, eine Bedingung inkonsistent war oder sichunscharfe Anforderungen geandert haben, kann die entsprechende Komponenteeinfach aus der syntaktischen Beschreibung entfernt und die Interpretation alsFuzzy-Menge neu berechnet werden.

4.3.3 Annotationen und Facetten

Witte will mit seinem Konzept eine moglichst große Auswahl an Moglichkeiten anbieten,wie zusatzliche Informationen an ein Attribut oder ein Objekt angehangt werden konnen. Indem UML-Diagramm aus Abbildung 7 ist sein Konzept dargestellt. Die Annotation, die aneine Strukturkomponente angehangt wird, setzt sich im Endeffekt aus mehreren sogenanntenFacetten zusammen. AnnotatableObject stellt die Schnittstelle fur ein annotierbares Objektdar. Alle Objekte, die annotierbar sein sollen, erben von dieser Klasse. Die Struktur der an-zuhangenden Annotationen AnnotatedStructure wird durch das Attribut bestimmt, welchesannotiert wird. Dieses Attribut kann ein einzelner Wert, mehrwertig oder objektwertig sein.Zusatzlich kann auch das gesamte Objekt annotiert werden. Aus den einzelnen Annotationenuber Attributen oder dem Objekt konnen auch komplexe Annotationen uber das Komposi-tum AnnotationComposite erzeugt werden. Die Annotationen beschreiben demnach nur eineStruktur, Semantik erhalten die Annotationen erst uber den Dekorierer FacetDecorator, derden einzelnen Annotationen eine oder mehrere Facetten zuordnet. Eine Facette kann belie-bige Informationen erhalten. Zum Beispiel ein ”String“ der ein Attribut beschreibt oder eineFuzzy-Konjunktive Normalform, welche die Zugehorigkeit des Objektes zu mehreren Mengenbeschreibt.

Abbildung 7: Struktur des Annotations-Entwurfsmusters

Page 39: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

4.3: Objektorientiertes Fuzzy-Modell 27

Beispiel 4-1: In Abbildung 8 ist eine beispielhafte Objektstruktur mit Annotationen und Fa-cetten abgebildet. Das Objekt Kante bildet eine Autobahnstuck mit dazugehorigen Attributenab. An das Objekt ist eine Annotation zu dem gesamten Objekt ”KanteAnnotation“ und ei-ne Annotation uber das Attribut Storung ”StorungAnnotation“ annotiert. Eine Stringfacetteordnet der ”KanteAnnotation“ eine Bedeutung zu, namlich, dass in diesem Autobahnstuckeine hohe Staugefahr herrscht und eine Fuzzyfacette teilt der ”StorungAnnotation“ eine Be-deutung zu: z.B. eine Fuzzy-Verteilung uber die moglichen Kategorien des Attributs Storung.

Strasse = A5 AS1 = 42 AS2 = 41 Länge = 5,34 Spuren = 3 Störung = keine

kante : Kanten

StörungAnnotation : SingleValued

KanteAnnotation : ObjectAnnotation

:StringFacette

stringDescription = „hohe Staugefahr“

:FuzzyFacette

fuzzyVerteilung = fuzzyComponent

Abbildung 8: Objektstruktur mit Annotationen und Facetten

Wenn man nun auf eine Annotation zugreifen will muss zuerst eine Dummy-Annotationals Platzhalter erzeugt werden und dann, uber den getAnnotation-Befehl aus der KlasseAnnotatableObject, nach der Annotation iteriert werden.

4.3.4 Bewertung

Das Modell von Witte [42] bietet eine machtige Ausdrucksmoglichkeit von Imperfektion.Durch den objekt-orientierten Ansatz bieten sich zahlreiche Moglichkeiten die Imperfektionin der Datenbank abzubilden. So konnen jedem Objekt beliebig viele Annotationen zuge-ordnet werden, diese Annotationen konnen jeweils Informationen uber das Objekt, einzelneAttribute oder uber mehrere Attribute gemeinsam enthalten. Dabei kann die angehangte In-formation sowohl Freitext als auch Fuzzy-Formeln enthalten, die aus mehreren Fuzzy-Mengenzusammengesetzt sind. Die einzelnen Annotationen konnen dann uber Iteratoren aufgerufenwerden.

Dadurch erhalt man eine große Variationsmoglichkeit imperfekte Information an Objekteanzuhangen und das Modell erfullt somit die Anforderung der Ausdruckskraft. Des weite-ren werden uber die Fuzzy-Formel unterschiedliche Quellen effizient vereint. Die Quellen-vielfalt wird also unterstutzt. Allerdings ergibt sich im zweiten Punkt ein Manko, da diehohe Ausdruckskraft uber das Annotationsmodell einen Nachteil mit sich bringt. Durch denZwischenschritt mit den Annotationen, muss bei einer Anderung erst nach der Annotati-on iteriert werden und bei Einfugen neuer Information erst eine Annotation erzeugt und

Page 40: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

28 4: Datenmodelle fur imperfekte Daten

angehangt werden. Somit zeigt sich dieses Modell schlecht geeignet bezuglich der Beruck-sichtigung der Dynamik. Dasselbe Manko offenbart dieses Modell auch bei Anfragen, mussenhier doch auch zuerst die Annotationen jedes selektierten Objektes iteriert werden um andie imperfekte Information zu kommen.

Bewertung fur das objekt-orientierte Fuzzy-Modell:

Dynamik –Ausdruckskraft +Quellenvielfalt +Anfrageunterstutzung –

4.4 Relationales probabilistisches Modell mit festen Wahrscheinlichkeiten

In dem Modell von Dey und Sarkar [10] werden Objekten oder Ereignissen feste Wahrschein-lichkeitswerte zugeordnet. Die Tupel einer (probabilistischen) Relation erhalten jeweils einenWahrscheinlichkeitswert zugewiesen, welcher angibt, wie wahrscheinlich die Existenz des Ob-jektes bzw. das Eintreten des Ereignisses ist.

Beispiel 4-2: Anhand je zwei Wetterprognosen aus den Quellen A und B uber die RegionenDarmstadt (DA) und Karlsruhe (KA) wird eine Wetterrelation modelliert (Tabelle 9).

DA Fur die Region Darmstadt prognostizieren die Quellen A und B:

A Am 3.4.2004 gibt es schwachen Regen mit einer Regenwahrscheinlichkeit von 40%bei einer Tagestemperatur von 17.

B Am 3.4.2004 gibt es mittleren Regen mit einer Regenwahrscheinlichkeit von 80% beieiner Tagestemperatur von 19.

KA Fur die Region Karlsruhe prognostizieren die Quellen A und B:

A Am 3.4.2004 gibt es schwachen Regen mit einer Regenwahrscheinlichkeit von 50%bei einer Tagestemperatur von 15.

B Am 3.4.2004 gibt es mittleren Regen mit einer Regenwahrscheinlichkeit von 60% beieiner Tagestemperatur von 17.

Aus jeder Prognose fur jede Region lassen sich zwei Tupel generieren. Ein Tupel, welches dasWetter mit Regen beschreibt, das andere Tupel beschreibt das Wetter ohne Niederschlag.Als Eintrittswahrscheinlichkeit der beiden sich gegenseitig ausschließenden Ereignisse wirddie Regenwahrscheinlichkeit aus der Vorhersage verwendet. Da sich die beiden Quellen inihren Vorhersagen aber unterscheiden, muss die Modellierung des Wetters in einer Regionauf vier Szenarien ausgeweitet werden (zwei Szenarien pro Quelle bei zwei Quellen). Weil dieZuverlassigkeit der beiden Quellen unbekannt ist, werden beide Quellen in ihren Aussagengleich gewichtet. Die Wahrscheinlichkeiten, ob die Prognose der Quelle A oder der QuelleB eintritt liegen bei 50%-50%. Somit ergeben sich fur die einzelnen Szenarien in der RegionDarmstadt die Wahrscheinlichkeiten aus Abbildung 9.

Die Wahrscheinlichkeitsangabe in diesem Modell bezieht sich immer auf die Verknupfung derWerte aller Attribute eines Tupels. Wenn man den Wahrscheinlichkeitswert eines einzelnen

Page 41: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

4.4: Relationales probabilistisches Modell mit festen Wahrscheinlichkeiten 29

Quelle A Quelle B

Wetter in DA

50% 50%

Regen 17˚C

Trocken 17˚C

Regen 19˚C

Trocken 19˚C

60% 40% 80% 20%

20% 30% 40% 10%

Abbildung 9: Verteilung der Wahrscheinlichkeiten

Attributes haben will, so geschieht dies nur uber die Akkumulation der Wahrscheinlichkeitenaller Tupel, die diesen Attributwert besitzen. Die Wahrscheinlichkeit, dass es in Darmstadtam 3.4.2004 trocken bleibt liegt in Beispiel 4-2demnach bei 0.1+0.3 = 0.4. Sichere Attribute— im herkommlichen relationalen Sinn — erkennt man nur daran, dass die akkumuliertenWahrscheinlichkeiten 1.0 ergeben. Dies setzt voraus, dass alle moglichen Alternativen in derRelation vertreten sind. Wenn dies nicht moglich ist, so bietet es sich an, die festen, sicherenAttribute in einer getrennten normalen Relation ohne Probabilitaten zu speichern.

4.4.1 Die algebraischen Operatoren

Die Erweiterung der algebraischen Operatoren gestaltet sich in diesem Fall recht einfach. Eineausfuhrliche Beschreibung findet man in [10], an dieser Stelle werden nur kurz die Anderungenzu den wichtigsten Operationen der herkommlichen relationalen Algebra aufgefuhrt:

Projektion: Bei der Projektion auf einzelne Spalten werden Duplikate nicht einfacheliminiert. Sie werden zwar in einem Tupel zusammengefasst, ihre Wahrscheinlich-keitswerte werden allerdings aufsummiert. Damit bei dieser Operation verwertbareErgebnise entstehen, ist es sinnvoll einen Schlusselkandidaten in die Projektion miteinzubeziehen.

Selektion: Bei der Selektion gibt es keinerlei Mehraufwand. Es bietet sich allerdingsdie Moglichkeit uber die Wahrscheinlichkeitswerte zu selektieren, so kann man sich nurWerte anzeigen lassen, die zu einem bestimmten Grad wahrscheinlich sind.

Join: Die Wahrscheinlichkeiten der entstehende n Tupel ergeben sich durch das Pro-dukt der Wahrscheinlichkeiten der jeweiligen beiden Ausganstupel. Diese Wahrschein-lichkeiten sind allerdings nur zu verwerten, wenn zwischen den Attributen der beidenRelationen keine Abhangigkeiten bestehen.

4.4.2 Bewertung

Der Ansatz von Dey und Sarkar [10] ist ein einfaches Modell, die einzige Anderung zu nor-malen Relationen liegt in einem zusatzlichen Attribut mit festem Prozentsatz, der den Wahr-heitsgehalt eines Tupels angibt. Insofern sind Tupel leicht zu erstellen. Die Einfachheit diesesAnsatzes macht sich dann aber bei der beschrankten Ausdruckskraft bemerkbar. Geht es um

Page 42: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

30 4: Datenmodelle fur imperfekte Daten

Region Datum Quelle Temperatur Niederschlag Prob

DA 03-04-04 A 17 wenig 0.2

DA 03-04-04 A 17 kein 0.3

DA 03-04-04 B 19 mittel 0.4

DA 03-04-04 B 19 kein 0.1

KA 03-04-04 A 15 wenig 0.25

KA 03-04-04 A 15 kein 0.25

KA 03-04-04 B 17 mittel 0.3

KA 03-04-04 B 17 kein 0.2

Tabelle 9: Eine probabilistische Wetterrelation

die Unsicherheit in einem einzelnen Attribut muss dafur ein Sachverhalt in mehrere Tupelaufgeteilt werden, je nach Anzahl der moglichen Auspragungen des Attributes. Existierenmehrere unsichere Attribute in einem Tupel, steigt die Anzahl der Tupel exponentiell an.Anderungen eines Sachverhaltes verlangen demnach Anderungen in mehreren Tupeln odererfordern unter Umstanden die Erzeugung mehrerer weiterer Tupel. Dadurch ergibt sich aucheine große Unsicherheit bei der Berucksichtigung der Dynamik, da eine einzelne Anderungmehrere Tupel betreffen kann. Dieselbe Problematik ergibt sich auch bei dem Einbindenmehrerer Quellen zu einem Sachverhalt, also erfullt das Modell auch die Anforderung indiesem Punkt (Quellenvielfalt) nicht. Dies ist aber nicht nur ein Fehler dieses Modells, son-dern ein grundlegendes Problem bei den probabilistischen Modellen, dass beim Einbeziehenneuer Evidenzen die Wahrscheinlichkeitsverteilungen fur alle betroffenen Sachverhalte neuberechnet werden mussen. Ein Vorteil dieses Modells liegt in der Ermoglichung von schnellenAnfragen und intuitiv verstandlichen Antworten.

Bewertung fur das relationale, probabilistische Modell mit festen Wahrscheinlichkeiten:

Dynamik –Ausdruckskraft –Quellenvielfalt –Anfrageunterstutzung +

4.5 Relationales Modell mit Wahrscheinlichkeitsintervallen

Das probabilistische Datenbanksystem ProbView [22] setzt auf dem System DBase auf underweitert es um die Verarbeitung von Wahrscheinlichkeitsintervallen. ProbView verarbeitetdie Wahrscheinlichkeitsintervalle auf Tupelebene, das bedeutet, dass in jedem Tupel zweizusatzliche Attribute existieren. Diese Attribute beschreiben die Ober- und die Untergrenzeder Wahrscheinlichkeit mit der das Ereignis eintritt, welches in dem Tupel beschrieben wird.Bei der Verarbeitung von Sensor-Daten ist die Verarbeitung von Wahrscheinlichkeiten aufElementebene allerdings naturlicher. Deswegen beschreiben Lakshmanan und seine Kollegen[22] einen Weg die Probabilitaten auf Element-Ebene in Probabilitaten auf Tupel-Ebene zukonvertieren, der im Folgenden kurz erklart wird.

Mit U wird das Einheitsintervall [0, 1] und mit C[0, 1] die Menge der abgeschlossenen Teilin-tervalle des Einheitsintervalls beschrieben. A sei die Menge der Attribute. Zu jedem Attribut

Page 43: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

4.5: Relationales Modell mit Wahrscheinlichkeitsintervallen 31

A ∈ A, existiert ein nicht-leerer Wertebereich dom(A). Mit R = A1, . . . , An ⊆ A sei einrelationales Schema bezeichnet.

Als Erweiterung zu den herkommlichen Datenrelationen verwenden sie probabilistische Re-lationen um Wahrscheinlichkeitsintervalle mit Tupeln zu assoziieren. Fur ein Ereignis e be-zeichnet Prob(e) das Wahrscheinlichkeitsintervall, das mit dem Ereignis assoziiert ist.

Definition 4-6 (probabilistisches Tupel und Relationen): Ein probabilistisches Tu-pel uber dem relationalen Schema R = A1, . . . , An ist jedes n-Tupel t = (v1, . . . , vn), wobeijedes vi die Form 〈Vi, hi〉 hat, Vi ⊆ dom(Ai) eine endliche Menge aus dem Wertebereich vonAi ist und hi : Vi → C [0, 1] eine Funktion ist, die jedem Wert aus Vi ein Wahrscheinlich-keitsintervall zuordnet. Eine probabilistische Relation uber dem Schema R ist eine endlicheMenge von probabilistischen Tupeln uber R. Eine probabilistische Datenbasis ist eine endlicheMenge von probabilistischen Relationen mit verknupften Schemata.

Gegeben sei ein probabilistisches Tupel tp = ((V1, h1), . . . , (Vn, hn)). Die Ereignisse, die mitdiesem Tupel verknupft sind, sind Gleichungen der Form tp.Ai = c, wobei Ai eines derAttribute ist und c ∈ Vi. Solch ein Ereignis besagt, dass der Wert eines Tupels bezuglich desAttributes Ai gleich c ist. Somit besagt das probabilistische Tupel tp, dass:

Prob(tp.Ai = c) =

hi(c) wenn c ∈ Vi

[0, 0] sonst(5)

Das klassische Datentupel (d1, . . . , dn) ist somit ein Sonderfall des probabilistischen Tupels,bei dem alle Vi einelementige Mengen sind, also di, und hi(di) = [1, 1], i = 1, . . . , n. DieDefinition der probabilistischen Tupel erlaubt auch jede denkbare Kombination aus deter-ministischen und probabilistischen Wertebereichen.

Sei r eine probabilistische Relation, dann bezeichnen wir mit r’ die dazugehorige klassischeDatenrelation. Also die Relation, die entsteht wenn wir alle Werte als sicher und vollstandigbetrachten.

Ort Niederschlag Temperatur

Karlsruhe [trocken] [5,6]

h1(Karlsruhe) = [1,1] h2(trocken) = [1,1] h3(5) = [0.2,0.3]

h3(6) = [0.6,0.7]

Frankfurt [mittel,viel] [4]

h4(Frankfurt) = [1,1] h5(mittel) = [0.6,0.9] h6(4) = [1.0,1.0]

h5(viel) = [0.1,0.3]

Koln [trocken,wenig] [4,5]

h7(Koln) = [1,1] h8(trocken) = [0.4,0.5] h9(4) = [0.5,0.6]

h5(wenig) = [0.5,0.6] h9(5) = [0.4,0.5]

Tabelle 10: Wetterrelation mit Wahrscheinlichkeiten auf Attributebene

Die Tabelle 10 zeigt ein kleines Beispiel einer probabilistischen Relation. Die Relation besitztdie drei Attribute Ort, Niederschlag und Temperatur. Neben den Attributwerten sind in derTabelle auch die Funktionen h fur alle Attribute angegeben. Bei allen Attributen fur diein der Gleichung tp.A = (V, h) die Menge V = v einelementig ist und h = [1, 1] kann

Page 44: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

32 4: Datenmodelle fur imperfekte Daten

vereinfachend tp.A = v gesetzt werden. So kann zum Beispiel im Falle der Ortsangaben dieZuordnungsfunktion h entfallen.

Fur eine gegebene Relation r mit einem probabilistischem Tupel tp = ((V1, h1), . . . , (Vn, hn)) ∈r, gilt: maximal ein Datentupel aus der Menge der Kombinationen V1 × · · · × Vn ist wahr.Jedes der moglichen Datentupel aus V1 × · · · × Vn kann als eine mogliche Welt betrachtetwerden.

Fur die Tabelle 10 ergeben sich somit aus den drei probabilistischen Tupeln folgende Weltenw1 – w8:

w1 = (Karlsruhe, trocken, 5) w2 = (Karlsruhe, trocken, 6)w3 = (Frankfurt, mittel, 4) w4 = (Frankfurt, viel, 4)w5 = (Koln, trocken, 4) w6 = (Koln, trocken, 5)w7 = (Koln, wenig, 4) w8 = (Koln, wenig, 5)

Auf diesen Welten kann man jetzt Interpretationen P mit Wahrscheinlichkeiten vornehmen.Interpretationen sind Zuordnungen von Wahrscheinlichkeiten zu den unterschiedlichen Wel-ten wi eines Tupels tp, also Ptp : W (tp) → [0, 1], wobei W (tp) die Menge aller Welten zueinem Tupel tp kennzeichnet. Eine Interpretation erfullt ein Tupel, wenn die Summe derWahrscheinlichkeiten aller Welten, welche im Attribut Vi mit dem Wert v identisch sind, indem Wahrscheinlichkeitsbereich hi(v) liegt. Formal ausgedruckt:

w∈W (tp)∧w.Ai=v

Ptp(w)

∈ hi(v). (6)

Eine gultige Beispielsinstanzierung fur das Tupel tp1 mit den Welten w1 und w2 ist, P(w1) =0.7 und P(w2) = 0.3.

Die Welten verwenden Lakshmanan et al. [22] um sogenannte pfad-annotierte Tupel zu er-stellen. Die Tupel bestehen aus den Attributen (A1, . . . , An) der Ausgangsrelation r, dazukommen zwei Grenzen u, l ∈ U , welche die obere (u fur das englischen upper) und untere(l fur das englische lower) Grenze der Probabilitaten fur diese Welt angeben. Als letzteszusatzliches Attribut erhalt ein pfad-annotiertes Tupel einen identifizierenden Schlussel wid(Welt-ID). Im Falle des obigen Beispiels ist die Relation aus pfad-annotierten Tupeln inTabelle 11 dargestellt.

Die Werte fur die Grenzen der Wahrscheinlichkeit werden nach einem Algorithmus ermittelt,der in [22] beschrieben wird. Der Algorithmus arbeitet in polynomialer Zeit und hat als Ziel,Grenzen zu bestimmen, welche keine konsistente Instanziierung der Wahrscheinlichkeiten furdie Welten ausschließen. Die Transformation in diese pfadannotierte Struktur ist notwendig,um die relationale Algebra auf die probabilistischen Relationen zu erweitern [22].

4.5.1 Bewertung

Das ProbView-Modell von Lakshmanan et al. [22] hat dieselben Schwachen, wie der Ansatzvon Dey und Sarkar [10]. Da es auch nur Wahrscheinlichkeiten auf Tupelebene unterstutzt,mussen Unsicherheiten auf Attributebene auch erst in mehrere Tupel umgeformt werden,aufgrund der Wahrscheinlichkeitsintervalle entsteht dabei aber noch zusatzlicher Rechenauf-wand, der mit Anzahl der unsicheren Attribute und ihren moglichen Merkmalsauspragungen

Page 45: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

4.6: Relationales Fuzzy-Model 33

Ort Niederschlag Temperatur Untergrenze Obergrenze Pfad

Karlsruhe trocken 5 0.2 0.3 w1

Karlsruhe trocken 6 0.6 0.7 w2

Frankfurt mittel 4 0.6 0.9 w3

Frankfurt viel 4 0.1 0.3 w4

Koln trocken 4 0.0 0.5 w5

Koln trocken 5 0.0 0.5 w6

Koln wenig 4 0.0 0.6 w7

Koln wenig 5 0.0 0.5 w8

Tabelle 11: Pfadannotierte Reprasentation der Wetterrelation

ansteigt. Dadurch ist die Ausdruckskraft in diesem Modell zwar ausreichend, aber es reagiertdadurch sehr schlecht auf die Dynamik, welche sich hier fataler gestaltet als in dem Ansatzmit festen Wahrscheinlichkeiten, da Anderungen in Attributen wiederum die neue, aufwen-dige Berechnung der Wahrscheinlichkeiten der von ihn abhangigen Tupeln erfordern. DerVorteil gegenuber den festen Wahrscheinlichkeiten ergibt sich allerdings dadurch, dass durchdie Intervalle die Relationen nicht so oft angepasst werden mussen, da die Aussagen ohnehinschon unpraziser sind. Allerdings unterstutzt das Modell bei der Umformung von unsicherenAttributen auf unsichere Tupel, Informationen aus unterschiedlichen Quellen, die so direkt indie Bewertung eines Sachverhaltes einfliessen. Deshalb wird das Kriterium fur Quellenvielfaltunterstutzt. Eine weitere Starke des Modells liegt in der Ermoglichung einfacher Anfragenund intuitiv verstandlicher Tupel.

Bewertung fur das relationale, probabilistische Modell mit Wahrscheinlichkeitsintervallen:

Dynamik –Ausdruckskraft +Quellenvielfalt +Anfrageunterstutzung +

4.6 Relationales Fuzzy-Model

Nair [28] beschaftigt sich mit dem Problem, unsichere Informationen aus unterschiedlichenQuellen in Datenbanken zu verwalten. Er betrachtet Faktoren, die fur oder gegen eine Tat-sache sprechen getrennt voneinander. Jedes unsichere Datum wird mit einem Tupel 〈α, β〉belegt, in dem zum einen der Grad der Zustimmung β (im Einheitsintervall [0, 1]) und zumanderen der Grad der Ablehnung α angegeben wird. Dieses Tupel nennt er Zuverlassigkeitsin-dex ci (engl. confidence index) und seinen Ansatz ciset (engl. confidence index set). DieselbeMethodik hatten allerdings schon De Caluwe et al. [7] acht Jahre vor ihm vorgestellt. Bisauf kleine Abweichungen in der Syntax sind beide Ansatze identisch.

Beispiel 4-3: Bei einem Radiosender trifft die Meldung eines Verkehrsteilnehmers ubereinen umgekippten Lastwagen auf der A5 Heidelberg - Karlsruhe ein. Der Teilnehmer istbei dem Radiosender registriert und als zuverlassig bekannt, so erhalt die Meldung den Zu-verlassigkeitsgrad β = 0.8. Die Nachricht geht sofort ”On Air“. Kurz darauf trifft die Mel-dung eines unbekannten Verkehrsteilnehmers ein, der die Meldung dementiert. Da man nichts

Page 46: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

34 4: Datenmodelle fur imperfekte Daten

uber die Verlasslichkeit des Unbekannten weiß, will man die Unfallmeldung nicht sofort strei-chen, da es sein kann, dass der Unbekannte die Meldung falsch verstanden hat oder ausanderen Motiven den Unfall dementiert. Deshalb ordnet die Verkehrsredaktion der Meldungdes Unbekannten eine Zuverlassigkeit von 0.3 zu. So ist es mit dem ciset-Ansatz moglich diebeiden widerspruchlichen Aussagen in der Unfallmeldung aufzunehmen, indem die Unfall-meldung den Unzuverlassigkeitsgrad α = 0.3 (also die Zuverlassigkeit der widerspruchlichenMeldung) zugeordnet bekommt. Der Zuverlassigkeitsindex erhalt demnach folgendes Aussehen〈0.3, 0.8〉, bis eventuell weitere Informationen zu dem Unfall eintreffen, solch ein ahnlichesVerfahren wird auch tatsachlich ind Praxis angewendet 1.

Mit C wird die Menge aller Zuverlassigkeitsindizes bezeichnet. Dabei ist jedes KartesischeProdukt aus zwei Einheitsintervallen moglich. Wie in Beispiel 4.3, muss die Summe aus αund β nicht 1.0 sein. Die Summe aus α und β kann zwischen 0.0 und 2.0 liegen. Dabeigibt es die zwei Extremfalle 〈0, 1〉 und 〈1, 0〉. 〈0, 1〉 bezeichnet eine Tatsache, die als absolutsicher gilt (im Folgenden mit WAHR bezeichnet), und 〈1, 0〉 bezeichnet eine Tatsache, dieals vollkommen ausgeschlossen gilt (im Folgenden mit FALSCH bezeichnet).

Etwas merkwurdig wirkt die Initialisierung von cis, die Nair [28] fur sein Modell vorstellt.Er behauptet es zwar nicht, aber er geht anscheinend von einer geschlossenen Welt in sei-nem Modell aus (closed-world assumption), danach ist jeder Sachverhalt, uber den keineInformation vorliegt (bzw. kein Tupel in der Datenbank ihn beschreibt) FALSCH. Naheran der Realitat ist es, einen Sachverhalt uber denen keine Informationen vorliegen zumin-dest fur moglich (wenn auch nicht wahrscheinlich) zu halten solange nichts dagegen spricht.Unverstandlicher ist aber sein Vorgehen bei dem Einbeziehen von Informationen fur einenbisher ausgeschlossenen Sachverhalt. Im folgenden Beispiel aus [28] beschreibt er seine Vor-gehensweise.

Beispiel 4-4: Wir betrachten eine Fabrik X und die Aussage ”Fabrik X produziert biologi-sche Waffen“. Zu Beginn haben wir keine Informationen uber die Fabrik X, folglich hat dieAussage ”Fabrik X produziert biologische Waffen“ den Zuverlassigkeitsindex 〈1, 0〉. Nach demEingang von Evidenzen aus einer ersten Quelle, welche die Aussage unterstutzen, werden die-se analysiert und der β-Wert der Aussage erhalt den Wert 0.6. Oder anders ausgedruckt,der Zuverlassigkeitsindex wird in 〈1, 0.6〉 umgewandelt. Eine zweite Quelle liefert nun Infor-mationen, die der Aussage widersprechen. Nach Auswertung der zweiten Informationen wirdder α-Wert auf 0.3 gesetzt, somit wird der Zuverlassigkeitsindex zu 〈0.3, 0.6〉 abgeandert.

Diese Beispiel zeigt einige Ungereimtheiten. Nachdem nichts daruber bekannt ist was dieFabrik X produziert und man anschließend Informationen daruber erhalt, dass die FabrikX biologische Waffen herstellt, erhalt der ci der Aussage ”Fabrik X produziert biologischeWaffen“ den Wert 〈1, 0.6〉, was bedeutet, dass mehr dagegen spricht, dass Fabrik X biologi-sche Waffen produziert als dafur. Obwohl keinerlei Informationen existieren, die gegen dieProduktion von biologischen Waffen sprechen. Eine Belegung des α-Wertes mit 0 ware in-tuitiver. Das Kurioseste passiert aber nach dem Erhalt von tatsachlichen Informationen diegegen die Produktion von biologischen Waffen sprechen. Dann erhalt der Zuverlassigkeits-index den Wert 〈0.3, 0.6〉. Also sinkt der α-Wert nach dem Eingang von Informationen dieihn eigentlich starken sollten. Diese Widerspruchlichkeit wird auch durch die Definition einerpartiellen Ordnung verstarkt.

Nair [28] definiert uber die Menge der Zuverlassigkeitsindizes eine partielle Ordnung ¹:

1Herr Droll vom SWR erklarte mir, dass Meldungen von unbekannten Teilnehmern nie gleich”On Air“

gehen, sondern eine Bestatigung eines weiteren Verkehrsteilnehmers (innerhalb 30 min) benotigen, wahrenddie Meldungen von registrierten und als zuverlassig bekannten Teilnehmern gleich auf Sendung gehen.

Page 47: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

4.6: Relationales Fuzzy-Model 35

〈α1, β1〉 ¹ 〈α2, β2〉 ⇔ (α1 > α2 ∧ β1 ≤ β2) ∨ (α1 ≥ α2 ∧ β1 < β2)

Man kann diese Ordnung ¹ in diesem Zusammenhang immer als ”sicherer als“ (bzw. ”unsi-cherer als“) verstehen, da dies gut den Sachverhalt wiederspiegelt, weil der erste Index einengroßeren Wert bei der Unzuverlassigkeit und gleichzeitig einen niedrigeren Wert bei der Zu-verlassigkeit besitzt. In der Abbildung 10 ist die Ordnung beispielhaft verdeutlicht. Die linkeobere Ecke in der Abbildung enthalt alle Werte die sicherer als a (〈0.4, 0.8〉 sind und in derrechten unteren Ecke sind alle Werte enthalten die unsicherer als a sind. Die Werte in denunmarkierten Bereichen werden von der Ordnung nicht erfasst.

Abbildung 10: Die partielle Ordnung ¹

Wenn man mehrere Zuverlassigkeitsindizes (cis) zu mehreren Ereignissen hat, kann manauch den Begriff der Menge von cis ”ciset“ definieren.

Definition 4-7 (ciset): Sei S eine Menge. Ein ciset ist eine Abbildung F : S → C.Ein ciset bildet also jedes Element x einer Menge S auf einen Zuverlassigkeitsindex ab.

Um im Folgenden die Operationen auf Relationen zu erklaren die cis enthalten, ist es not-wendig kurz die elementaren Mengenoperationen auf cis zu definieren [28]:

Page 48: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

36 4: Datenmodelle fur imperfekte Daten

Definition 4-8 (Vereinigung, Schnitt, Differenz und Negation): Seien a1 = 〈α1, β1〉,a2 = 〈α2, β2〉 zwei beliebige cis. Dann gilt:

Vereinigung (∪) a1 ∪ a2 = 〈min(α1, α2),max(β1, β2)〉,

Schnitt (∩) a1 ∩ a2 = 〈max(α1, α2),min(β1, β2)〉,

Negation (−) −a1 = 〈β1, α1〉,

Differenz (−) a1 − a2 = a1 ∩ (−a2).

4.6.1 Das relationale ciset-Modell

Das ciset-Modell kann auf zwei Arten im relationalen Modell eingesetzt werden. Als erstesauf Element-Ebene, wie zum Beispiel in einer Wetterrelation (siehe Tabelle 12). Dort hat derZuverlassigkeitsindex die Aufgabe die Wahrscheinlichkeit von Regen oder Nebel zu bewerten.

Region Datum Viertel Temp NiederPr NebelPr Nieder Nebel

Karlsruhe 12-03-04 1 0 〈0.8, 0.2〉 〈0, 0.6〉 leicht leicht

Karlsruhe 12-03-04 2 11 〈0.5, 0.4〉 〈1.0, 0〉 leicht kein

Karlsruhe 12-03-04 3 5 〈0.5, 0.4〉 〈1.0, 0〉 leicht kein

Tabelle 12: Wetterrelation mit Zuverlassigkeitsindizes

Die zweite Moglichkeit fur den Einsatz von Zuverlassigkeitsindizes ist auf Tupelebene, wiein Beispiel 4-3. Eine Beispielrelation uber Verkehrsmeldungen mit cis auf Tupelebene zeigtTabelle 13.

ID Start Ende Zeit Typ Spuren Fluss Lange CI

12-03-04 umgekippter zah-123.1 HD DA

11:10 LKW1

fließend1 〈0.3, 0.8〉

12-03-04 Markierungs- zah-195.3 KA S

11:15 arbeiten1

fließend4 〈0.0, 0.6〉

Tabelle 13: Verkehrsmeldung mit ci

Der Unterschied zwischen beiden Methoden liegt darin, dass die Attribute NiederPr undNebelPr — aus der Tabelle 12 — wie gewohnliche Attribute in der Relation zu sehen sind, diezur Beschreibung des Wetters dienen. Im Gegensatz dazu gibt das Attribut ci in der Tabelle13 Aufschluss uber die Gultigkeit des gesamten Tupels. Im zweiten Falle ist es also keinAttribut, welches den Sachverhalt zu beschreibt, sondern zur Bewertung der Glaubwurdigkeitder Informationen aus diesem Tupel dient. In diesem Falle kann man sich die Relation alsciset vorstellen. Der Verbund aus den ersten acht Attributen der Tabelle 13 wird in dieMenge der Zuverlassigkeitsindizes abgebildet, welche die Vertrauenswurdigkeit der Meldungbeschreiben.

Page 49: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

4.6: Relationales Fuzzy-Model 37

4.6.2 Relationale Algebra mit cisets

Wenn man mit Relationen als ciset arbeitet, ergeben sich fur die Operationen uber diesenRelationen gewisse Besonderheiten. Die Attribute einer ciset-Relation R werden in zweiGruppen aufgeteilt, nach Ursprungsmenge (S) und Bildmenge (C). Diese Aufteilung folgtsomit der Definition fur cisets (Definition 4-8), die diese als Abbildung definiert. In derUrsprungsmenge S liegen die Attribute mit atomaren Wertebereichen (also alle Attribute,bis auf den Zuverlassigkeitsindex), S bildet somit eine Rumpfrelation der AusgangsrelationR. In der Bildmenge C liegt der Zuverlassigkeitsindex, der, zusammen mit der RumpfrelationS, die Ausgangsrelation R ergibt.

Vereinigung, Schnitt, Differenz: Die zwei Operationen Vereinigung und Schnitt zwi-schen zwei ciset-Relationen U und V folgen einem Schema. Im ersten Schritt werden dieRumpfrelationen U ′ und V ′ nach den gultigen Regeln der relationalen Algebra verknupftund ergeben eine neue Rumpfrelation W ′. Im zweiten Schritt werden die cis zu der neu-en Rumpfrelation berechnet. Dazu werden zu jedem Tupel aus W ′, die korrespondierendenTupel aus den Ausgangsrelationen aufgesucht und (falls in beiden Ausgangsrelationen vor-handen) mit den passenden Operatoren aus Definition 4.6.2 verknupft. Die sich, fur alleTupel, ergebenden cis werden dann an die Rumpfrelation angefugt. Die somit entstehendeRelation W ist dann das Ergebnis der Vereinigung bzw. des Schnittes.

Bei der Differenz wird ebenfalls im ersten Schritt aus U ′ und V ′, nach der relationalenAlgebra, W ′ berechnet. Zu W ′ kommen allerdings noch Tupel hinzu, die nach der relationalenAlgebra wegfallen. So werden Tupel aus U ′ in W ′ ubernommen, obwohl sie mit denselbenWerten in V ′ vorhanden sind, wenn die Differenz aus ihren cis nicht 〈1, 0〉 ergibt. Sie alsoFALSCH sind. Ansonsten werden sie mit dem neu berechneten ci in W ubernommen. AlleTupel die nur in V ′ enthalten sind ubernehmen den ci aus V .

Formal ausgedruckt ergeben sich aus zwei Relationen U = (Ai, ci,1, . . . , ci,m)|i ∈ I undV = (Aj , cj,1, . . . , cj,m)|j ∈ J, wobei Ai und Aj die relationalen Attribute sind undc1,1, . . . , c1,m, c2,1, . . . , c2,m Elemente aus C sind, folgende Ergebnisse:

U ∪ V = Ai, ci,1 ∪ cj,1, . . . , ci,m ∪ cj,m|i ∈ I, j ∈ J,Ai = Aj ∪ Ai, ci,1 ∪cj,1, . . . , ci,m ∪ cj,m|i ∈ I,¬∃j ∈ J : Ai = Aj ∪ Aj , ci,1 ∪ cj,1, . . . , ci,m ∪ cj,m|j ∈J,¬∃i ∈ I : Ai = Aj

U ∩ V = Ai, ci,1 ∩ cj,1, . . . , ci,m ∩ cj,m|i ∈ I, j ∈ J,Ai = Aj

U − V = Ai, ci,1, . . . , ci,m|i ∈ I,¬∃j ∈ J,Ai = Aj ∪ Ai, ci,1 − cj,1, . . . , ci,m −cj,m|i ∈ I, j ∈ J : Ai = Aj

Selektion und Projektion: Bei der Selektion und Projektion gibt es keinerlei Kom-plikation bei der Ausweitung auf ciset-Relationen. Bei Selektionen entsteht allerdings diezusatzliche Moglichkeit auch uber cis zu selektieren, bei Projektionen gelten die Regeln furDuplikate (auf der gesamten ciset-Relation) unverandert.

Page 50: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

38 4: Datenmodelle fur imperfekte Daten

Produkt und Joins: Bei dem Produkt zweier Relationen U und V werden die beidenRumpfrelationen U ′ und V ′ gemaß der relationalen Algebra in allen Kombinationen mitein-ander verknupft. Anschließend wird zu jedem Tupel aus der Ergebnisrelation die zugehorigencis berechnet. Dies geschieht durch den Schnitt aus den beiden zugehorigen cis der Ausgangs-relationen.

Formal ausgedruckt ergibt sich aus zwei Relationen U = (Ai, ci,1, . . . , ci,m)|i ∈ I undV = (Aj , cj,1, . . . , cj,m)|j ∈ J, wobei Ai und Aj die relationalen Attribute sind undc1,1, . . . , c1,m, c2,1, . . . , c2,m Elemente aus C sind, folgendes Ergebnis:

U × V = Ai, Aj , ci,1 ∩ cj,1, . . . , ci,m ∩ cj,m|∀i, j mit i ∈ I ∧ j ∈ J

Bei Joins wird, nachdem das Produkt berechnet wurde, zusatzlich uber die Verknupfungsbe-dingung selektiert und anschließend werden identische Attribute durch Projektion eliminiert.

Division: Wie bei der relationalen Algebra, ist die Division auch bei ciset-Relationen kom-pliziert. Seien zwei Relationen U und V gegeben, mit U = (ai,1, . . . , ai, n, b1, . . . , bk,ci,1, . . . , ci,m)|i ∈ I und V = (aj,1, . . . , aj, n, cj,1, . . . , cj,m)|j ∈ J. Das Ergebnis der Divisi-on U ÷ V wird in einem dreistufigen Prozess berechnet.

Im ersten Schritt werden alle Tupel ti aus U gesucht, fur die ein Tupel tj aus V existiert, sodass ∀x ∈ 1, . . . , n : ai,x = aj,x. Zusatzlich muss gelten, dass cj,1 ¹ ci,l ∀l ∈ 1, . . . ,m. Imzweiten Schritt findet — auf allen Relationen die im ersten Schritt erhalten wurden — eineProjektion auf alle Attribute statt, welche nicht in der Relation V enthalten sind. Dies sinddie Attribute b1, . . . , bk. Im dritten Schritt werden alle Tupel, die in den Attributen b1, . . . , bk

ubereinstimmen, vereinigt.

4.6.3 Bewertung

Der ciset-Ansatz ist ein einfaches relationales Modell, die 〈kontra, pro〉-Tupel konnen leichtuber zwei zusatzliche Attribute oder einen neuen Datentyp im relationalen Modell imple-mentiert werden. Durch die Option in den Attributen ebenfalls Zuverlassigkeitsindizes zuverwenden, erhalt man die Moglichkeit Imperfektionen auf Attributebene abzuwickeln undspart sich den Umweg uber die komplizierte Verrechnung uber tupelbezogene Werte wie beiden probabilistischen Ansatzen. Dadurch, dass in der Fuzzy-Theorie die Zugehorigkeit zumehreren Mengen erlaubt ist und die Summe aller Zugehorigkeiten nicht Eins ergeben muss,ist somit auch kein komplizierter Anpassungsaufwand beim Einfugen neuer Tupel erforder-lich. Somit kann man festhalten, dass die Ausdruckskraft dieses Modells ausreichend ist undauf die Dynamik im Verkehr schnell reagiert werden kann, da Anderungen nicht so aufwandigsind wie bei den anderen Modellen. Auch unterschiedliche Quellen (Quellenvielfalt) werdendurch die Zuverlassigkeitsindizes direkt unterstutzt und verlangen keine Veranderungen inanderen Tupeln. Auch bei Anfragen (Anfrageunterstutzung) zeigt sich dieses Modell unkom-pliziert, die flache Struktur ermoglicht die schnelle Ausfuhrung von Selektionen, und dieZuverlassigkeitswerte sind leicht zu interpretieren. Die Verwendung der Zuverlassigkeitsindi-zes, insbesonders ihre Initialisierung, benotigt allerdings noch Anpassungen.

Bewertung fur das relationale Fuzzy-Modell:

Page 51: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

4.7: Relationales possibilistisches Datenmodell 39

Dynamik +Ausdruckskraft +Quellenvielfalt +Anfragunterstutzung +

4.7 Relationales possibilistisches Datenmodell

Die anderen hier behandelten relationalen Ansatze konzentrierten sich zumeist auf die Be-handlung der Imperfektion auf Tupelebene. In diesen Modellen kann eine Relation als Abbil-dung eines Attributen-Tupels (A1, . . . , An) in das Einheitsintervall [0, 1] betrachtet werden,wie in Tabelle 14 generalisiert dargestellt.

A1 A2 . . . An µr

u11 u12 . . . u1n µr(u11, u12, . . . , u1n)

. . . . . . . . . . . . . . .

uj1 uj2 . . . ujn µr(uj1, uj2, . . . , ujn)

. . . . . . . . . . . . . . .

Tabelle 14: Allgemeine Relation fur Imperfektion auf Tupelebene

Rundensteiner [33] hat ein possibilistisches Modell auf Attributebene entworfen. Sie legtgroßen Wert auf die Ausdrucksmachtigkeit ihres Modells, nimmt dafur aber ein verschach-teltes Relationenmodell in Kauf.

Im Modell von Rundensteiner [33] liegt — im Unterschied zu den meisten anderen Modellen— der Fokus auf der Imperfektion auf Attributebene. Es bietet die Moglichkeit, als Wert furein Attribut entweder einen

einzelnen festen Wert oder Zahl

eine Menge von festen Werten oder Zahlen

eine possibilistische Verteilung auf festen Wertebereichen oder Zahlen-Wertebereichen

eine reelle Zahl

einen Null-Wert

zuzuordnen.

Somit wird eine possibilistische Relation wie folgt definiert:

Definition 4-9 (Possibilistische Relation): Durch A1, . . . , An seien Attribute auf denWertebereichen U1, . . . , Un definiert. Eine possibilistische Relation r ist auf dem relationalenSchema R(A1, . . . , An) definiert, als Teilmenge des Kartesischen Produktes aller moglichenPossibilitatsverteilungen uber den Wertebereichen U1, . . . , Un:

r ⊆ P (U1)× . . .× P (Un)

Page 52: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

40 4: Datenmodelle fur imperfekte Daten

A1 A2 . . . An∏

1(A1)∏

1(A2) . . .∏

1(An)

. . . . . . . . . . . .∏i(A1)

∏i(A2) . . .

∏i(An)

. . . . . . . . . . . .

Tabelle 15: Allgemeine Relation fur Possibilitaten auf Attribut-Ebene

wobei mit P (Ui) die Menge aller Possibilitatsverteilungen uber dem Wertebereich Ui bezeich-net wird.

Ein Tupel besteht somit aus dem Kartesischen Produkt von Possibilitatsverteilungen, wie sieoben aufgezahlt wurden. Eine generelle possibilistische Relation wird in Tabelle 15 gezeigt.Mit

∏(Ai) wird eine Possibilitatsverteilung auf dem Attribut Ai bezeichnet.

Eine beispielhafte Baustellenrelation in diesem Modell ist in Tabelle 16 dargestellt. Die Aus-drucksmachtigkeit ist also deutlich erkennbar, wobei die linguistischen Terme, wie ”um“ und

”Anfang“ extern modelliert sein mussen.

ID StartP. EndP. B-Beginn B-Ende

123.04 A5 (km 167.1) A5 (km 168.3) Juni 2004 Anfang 2005

614.01 Durlacher Kreuz Durlacher Kreuz Anfang 2005 2006

24-04-04/0.6, 01-06-04, . . .,981.12 A8 (um km 34) A8 (um km 35)

01-05-04/1.0 08-06-04

Tabelle 16: Beispielrelation mit Possibilitaten auf Attribut-Ebene

4.7.1 Bewertung

Das possibilistische Modell von Rundensteiner [33] erreicht eine hohe Ausdruckskraft, da einegroße Anzahl an unterschiedlichen Formen und Werten fur ein Attribut moglich sind. DenPreis bezahlt man allerdings mit einem verschachtelten Modell, da ein Attribut mehrereWerte entgegen nehmen kann. Zusatzlich ergeben sich Probleme bei der maschinellen Wei-terverarbeitung der Relationen, da das Modell keinem strikten Schema folgt, demnach isthier die Anfrageunterstutzung sehr schlecht. Bei der Dynamik ergeben sich keine Problememit dem Modell, da Anderungen schnell vorgenommen werden konnen. Da ein Attribut be-liebige Possibilitatsverteilungen aufnehmen kann wird die Quellenvielfalt gut unterstutzt.

Bewertung fur das possibilistische Modell:

Dynamik +Ausdruckskraft +Quellenvielfalt +Anfrageunterstutzung –

Page 53: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

4.8: Klassifikation 41

4.8 Klassifikation

Die Klassifikation [35],[25] beruht eigentlich auch auf der Fuzzy-Logik. Das Ziel der Klassifi-kation ist es die scharfen Datenbestande in herkommlichen Datenbanken an das menschlicheVerstandnis anzupassen. Haufig fehlt dem Menschen das Verstandnis nackte Zahlen intui-tiv korrekt zu interpretieren, da er in seinem Sprachgebrauch eher vage Begriffe verwendet.Besonders deutlich wird dies, wenn der Mensch aufgefordert wird, eine Anfrage an einenComputer zu richten, da die scharfe Abgrenzung bei der Selektion von Daten durch denComputer seinem Verstandnis widerspricht. Mit der Klassifikation werden Daten eines Attri-butes in Aquivalenzklassen partitioniert, die durch den Menschen intuitiver zu interpretierensind. Dadurch wird das herkommliche Schema erweitert.

Ein weiterer, interessanter Einsatz fur die Klassifikationen ergibt sich unter einer anderenSichtweise. Aufgrund der großen Dynamik im Verkehr ist es gar nicht moglich immer aktuelle,genaue und absolut sichere Daten zu erhalten. Durch die Klassifikation kann man diesesProblem auf Anfrage-Ebene anpacken: Man geht gar nicht davon aus, dass die Daten aktuell,genau und absolut sicher sind, deswegen formuliert man die Anfrage ungenau (namlich inAquivalenzklassen) und verarbeitet so die Ungenauigkeit, die den Informationen anhaftet.Fur die Klassifikation werden Attributen ”Kontexte“ zugeordnet. Diese Kontexte bestehenin diesem Modell aus den Aquivalenzklassen uber denen die Anfragen formuliert werden.Der Begriff Kontext ist von Schindler etwas unglucklich gewahlt, da man normalerweise denbegriff Kontext anders versteht, deswegen wird im Laufe dieser Ausarbeitung versucht aufdiesen Begriff zu verzichten.

Beispiel 4-5: Als Beispiel betrachten wir eine Datenbank die die Verkehrsdichte und Be-hinderung durch Baustellen auf Autobahnen speichert. Das zugehorige DatenbankschemaSTAU(A,K) besteht aus zwei Mengen, den Attributen A = (Autobahn, Abschnitt, Verkehrs-dichte, Behinderung) und den Kontexten K = (K(Autobahn), K(Abschnitt), K(Verkehrsdich-te), K(Behinderung)). Die Autobahnen und Abschnitte haben als Definitionsbereich ihreNummern, die Verkehrsdichte wird in Fahrzeugen pro Kilometer (Kfz/km) angegeben und dieBehinderung wird definiert durch den Wertebereich D(Behinderung) = groß, mittel, kaum,keine. Die Attribute werden wie folgt in die Kontexte eingeteilt:

K(Autobahn) = AutobahnnumerK(Abschnitt) = AbschnittK(Behinderung) = groß, mittel,kaum, keineK(Verkehrsdichte) = 0,1,. . . ,3031,32,. . .,60

Durch die Einteilung in Kontexte entsteht eine neue Form der Redundanz [25]: zwei Tupelt und t’ sind kontextredundant, wenn alle Tupelkomponenten ti und t′i derselben Aquiva-lenzklasse angehoren. Im Gegensatz zum klassischen Fall sind die Tupel nicht identisch aberaquivalent. Kontextredundante Tupel werden uber die Vereinigung von Mengen kombiniert.So sind in der folgenden Beispielrelation STAU die beiden Abschnitte der Autobahn A8 kon-textredundant, da die Werte aller Attribute denselben Kontexten angehoren.

Als Folge der Vereinigung erhalten wir vier Aquivalenzklassen.

In der Tabelle 19 wird gezeigt, wie durch die Kontexte 4 Aquivalenzklassen C1, C2, C3und C4 aufgespannt werden. Die Beschreibungen in den Klassen spiegeln die Semantik derKlassen wider.

Page 54: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

42 4: Datenmodelle fur imperfekte Daten

Autobahn Abschnitt Behinderung VerkehrsdichteA5 A5-1 mittel 25A5 A5-2 kaum 14A5 A5-3 keine 28A8 A8-1 groß 43A8 A8-2 mittel 48A81 A81-1 keine 23A81 A81-2 kaum 31

Tabelle 17: Die Autobahnabschnitte mit ihren Attributwerten

Autobahn Abschnitt Behinderung VerkehrsdichteA5 A5-1 mittel 25 C1

A5,A81 A5-2,A5-3,A81-1 kaum, keine 14,23,28 C2A8 A8-1,A8-2 mittel, groß 43,48 C3A81 A81-2 kaum 31 C4

Tabelle 18: Die Autobahnabschnitte aufgteilt auf die Kontextklassen

4.8.1 Scharfe und unscharfe Fuzzy-Klassifikation

Bei der scharfen Klassifikation, wie sie oben beschrieben wurde, wird jedes Ursprungstupelimmer genau einer Aquivalenzklasse zugeordnet. Wenn man die einzelnen Autobahnen alsGanzes betrachtet, dann funktioniert diese Einteilung nicht mehr, da die einzelnen Abschnittein unterschiedlichen Aquivalenzklassen liegen konnen. Dadurch erhalt man eine unscharfeZuordnung, da eine Autobahn als Ganzes, dann in mehreren Aquivalenzklassen vertretensein kann, weil die Teilbereiche unterschiedlichen Klassen zugeordnet sind.

Da die Zuordnung zu mehreren Klassen sich so recht unubersichtlich gestaltet, ist es wun-schenswert eine differenziertere Darstellung uber die Zugehorigkeit zu den unterschiedlichenKlassen zu erhalten. Mit der Folge, dadurch mehr Aussagekraft uber die unscharfe Zuordnungzu erhalten. Dieses wird durch die Verwendung von linguistischen Variablen ermoglicht. Indiesem Fall wird dann nicht mehr von Aquivalenzklassen, sondern von Termen gesprochen,der Definition von linguistischen Variablen (Kapitel 3.1.1) folgend.

Im obigen Beispiel ist die Verkehrsdichte durch die Anzahl der Kraftfahrzeuge pro Kilometerdefiniert. Wir haben den Wertebereich des Attributes Verkehrsdichte D(V erkehrsdichte) =[0, 60] in zwei Kontextklassen eingeteilt. Eine Verkehrsdichte von weniger als 31Kfz/km giltals ”akzeptabel“ und eine hohere Dichte als ”inakzeptabel“. Somit ergibt sich der Kontext:K(V erkehrsdichte) = [0, 30], (30, 60]. Werden der Term (anstelle von Aquivalenzklasse)[0, 30] mit dem Begriff ”akzeptabel“ und der Term (30, 60] mit dem Begriff ”inakzeptabel“verbal beschrieben wird der vage Charakter der Einteilung deutlich. In Abbildung 11 sinddie Zugehorigkeitsfunktionen zu den trapezformigen Fuzzy-Mengen ”akzeptabel“ und ”in-akzeptabel“ dargestellt. In den grau unterlegten Grenzbereichen findet eine Zuordnung zubeiden Klassen statt. In den nicht unterlegten Bereichen liegen die Kernobjekte. Sie erhaltendie Zugehorigkeit Eins zu ihren Klassen.

Durch die unscharfe Zuordnung ergeben sich fur jedes Objekt mehrere unterschiedliche Zu-ordnungen zu den beiden Klassen. In der Tabelle 21 sind alle Zugehorigkeiten aus demBeispiel 4-5aufgelistet.

Page 55: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

4.8: Klassifikation 43

50 C2 C4

45 unvorhersehbare weitraumig

40 Verzogerungen umfahren

35

30

25

20 C1 C3

15 unbedenklich kleine

10 befahrbar Verzogerungen

5

kein kaum mittel groß

Tabelle 19: Kontexte uber einem Autobahnteilstuck

Autobahn Behinderung VerkehrsdichteA5 mittel 25 C1

A5,A81 kaum, keine 14,23,28 C2A8 mittel, groß 43,48 C3A81 kaum 31 C4

Tabelle 20: Unscharfe Klassifikation mit scharfen Aquivalenzklassen

Wenn man ein Objekt jetzt als Ganzes sehen will, stellt sich das Problem, wie das Objektklassifiziert werden soll. Mit Ausnahme des Objektes ”A8“, gibt es mehrere Moglichkeiteneinen Wert fur das gesamte Objekt aus der Fuzzy-Zuordnung der Teilbereiche abzuleiten(Defuzzifizierung).

Die erste Moglichkeit ergibt sich durch die Herausnahme des Maximums (bzw. Minimums)der Zugehorigkeit der Teilobjekte zu einem Term. Bei diesem Vorgehen nach Pedrycz [31]ergeben sich fur unser Beispiel die Werte aus Tabelle 22. In Tabelle 22 sind zum einen die ma-ximalen Zugehorigkeiten zum Term ”akzeptabel“ dargestellt und zum anderen die minimalenZugehorigkeiten zu dieser Klasse. Welche der beiden Darstellung geeigneter ist, hangt vondem Fokus des Nutzers ab. Die Zeile mit minimaler Zugehorigkeit legt den ”Flaschenhals“einer Strecke offen. Die Zeile mit maximaler Zugehorigkeit zeigt das beste zu erwartendeVerkehrsaufkommen auf der gesamten Strecke.

Die zweite Moglichkeit ist durch die Summe aller Zugehorigkeitswerte (nach Zimmermann[47]) definiert. Nach einer Normierung uber die Anzahl der Teilobjekte ergeben sich dieZugehorigkeitswerte aus Tabelle 23. Dieser Darstellung zeigt also das durchschnittliche Ver-kehrsaufkommen auf der gesamten Strecke.

Analog zu der Fuzzifizierung des Attributes der Verkehrsdichte kann auch das zweite Attributdurch eine linguistische Variable ”Behinderung“ ersetzt werden. Der Behinderungsgrad durchBaustellen wird durch folgende Zugehorigkeitsfunktionen definiert:

µgut = (keine, 1.00), (kaum, 0.67), (mittel, 0.33)µschlecht = (kaum, 0.33), (mittel, 0.67), (gross1.00)

In Abbildung 12 ist die Kombination aus den beiden linguistischen Variablen ”Verkehrsdich-te“ und ”Behinderung“ dargestellt.

Page 56: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

44 4: Datenmodelle fur imperfekte Daten

Abbildung 11: Zugehorigkeitsfunktionen fur quantitative Merkmale zur Modellierung vonunscharfen Klassen

A5 A5 A5 A8 A8 A81 A81

Abschnitt 1 2 3 1 2 1 2

C1 0.75 1.0 0.6 0.0 0.0 0.85 0.45

C2 0.25 0.0 0.4 1.0 1.0 0.15 0.55

Tabelle 21: Dichtezugehorigkeiten durch eine linguistische Variable

Um die Zugehorigkeit eines Objektes in mehrdimensionalen Kontexten zu bestimmten empf-iehlt Schindler [35], als Alternative zur Bestimmung des Minimums oder des Maximums, das

”kompensatorische Und“ von Zimmermann [47] als Verknupfungsoperator fur die Variablen.Empirische Studien von Zimmermann und Zysno [48] haben gezeigt, dass dieser Operator das

”kompensatorische“ menschliche Verhalten gut widerspiegelt. So kann ein Defizit in einemAttribut durch die anderen Attribute kompensiert werden. Bei Anwendung des Minimum-Operators zur Feststellung der Klassenzugehorigkeit hingegen ist allein das Merkmal, mitdem geringsten Zugehorigkeitswert, maßgebend.

Definition 4-10 (kompensatorisches Und): Seien µ1(x), . . . , µn(x) Attributsauspra-gungen eines Objektes x. Das kompensatorische Und µcomp(x) ist definiert als:

µcomp(x) = (n∏

i=1

µi(x))(1−γ)(1−n∏

i=1

(1− µi(x)))γ , 0 ≤ γ ≤ 1 (7)

wobei der Parameter γ angibt, wo zwischen dem ”logischen Und“ und ”logischen Oder“ der

Page 57: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

4.8: Klassifikation 45

C1 A5 A8 A81

min 0.6 0.0 0.45

max 1.0 0.0 0.85

Tabelle 22: Defuzzifizzierung durch Minimum- bzw. Maximum-Operator

A5 A8 A81

C1 0.78 0.0 0.65

C2 0.12 1.0 0.35

Tabelle 23: Defuzzifizzierung durch normierte Kardinalitaten

aktuelle Parameter ”eingestellt“ ist [35].

in der Tabelle 24 ist die Klasse C1 mit den zu ihnen gehorigen Autobahnen exemplarischdargestellt. Die Tabellen fur die anderen Klassen finden sich im Anhang. Fur die Berechnungvon µcomp wurde das ”kompensatorische Und“ mit γ = 0.5 verwendet.

Autobahn Behinderung Verkehrsdichte µgut µakzeptabel µcomp Fcard

A5 kaum 14 0.67 1.00 0.82

A5 keine 28 1.00 0.60 0.770.80

A81 keine 23 1.00 0.85 0.92 0.92

Tabelle 24: Zugehorigkeiten der zu Klasse C1 selektierten Autobahnen

Aus den ermittelten Zugehorigkeitswerten kann man nun die unscharfe Ergebnisrelation (Ta-belle 25) bilden. Diese Relation bietet in der Tat mehr Ubersicht als die Relation mit scharfenAquivalenzklassen in Tabelle 20.

4.8.2 Fuzzy-Klassifikationssprache

An der Universitat Fribourg wurde die Anfragesprache fuzzy Classification Query Language(fCQL) [25] entwickelt. Diese ermoglicht Anfragen auf Klassifikationen. Die Idee hinter fC-QL ist es, relationale Datenbanken mit der Fuzzy-Logik zu verknupfen. Dabei werden aberweder die relationale Datenbank modifiziert, noch findet eine Umwandlung der existierendenDaten in Fuzzy-Daten statt. Die Aufgabe von fCQL ist es das Schema der unterliegendenDatenbanken, unter Verwendung linguistischer Variablen, zu erweitern. Dafur werden dieunscharfen Anfragen in Structured Query Language (SQL) umgewandelt, welche somit aufscharfen Datenbanken ausgefuhrt werden konnen. SQL ist die Standardanfragesprache furrelationale Datenbanken.

Anfragen uber fCQL Die Entwickler von fCQL [25] haben sich, von der Syntax her,stark an SQL angelehnt. Anfragen bei fCQL haben folgende Form:

classify Objektfrom Relation

Page 58: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

46 4: Datenmodelle fur imperfekte Daten

Abbildung 12: Interpretation der Kontexte mit linguistischen Variablen

Autobahn Behinderung Verkehrsdichte

(A5, 0.7), (A81, 0.62) gut akzeptabel C1

(A81, 0.38) gut inakzeptabel C2

(A5, 0.3) schlecht akzeptabel C3

(A8, 1.0) schlecht inakzeptabel C4

Tabelle 25: Unscharfe Klassifikation mit unscharfen Termen

with Klassifikationsbedingung

Anstelle der Projektion auf ein Attribut bei SQL (durch select), wird bei fCQL der Spal-tenname des zu klassifizierenden Objektes angegeben (classifiy). Die from-Klausel bleibtunverandert, wie bei SQL wird auch hier die Relation angegeben uber die die Anfrage erfolgt.Die where-Klausel bei SQL, zur Angabe von Selektionsbedingungen, welche ein Attributerfullen muss, wird durch die with-Klausel ersetzt, welche die Klassifikationsbedingungenangibt.

4.8.3 Bewertung

Das Konzept der Klassifikationen ist an sich kein Datenmodell, da es auf dem gewohnlichenrelationalen Modell aufbaut und auf jede relationale Datenbank aufgesetzt werden kann. Die

Page 59: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

4.9: Fazit aus den Bewertungen 47

Einbindung der Klassifikationen kann leicht entweder uber zusatzliche Attribute, Relationenoder Funktionen in dem Datenbankschema realisiert werden [26]. Die Anfrage lauft uberherkommliches SQL, der besseren Bedienbarkeit halber ist auch der Einsatz einer speziellenAnfragesprache moglich (fCQL), die die Anfrage auf Klassifikationen in gewohnliche SQL-Befehle umwandelt. Das Konzept mit den Klassifikationen kann vollkommen unbemerkt vonanderen Anwendungen auf vorhandene Relationen aufgesetzt werden. Somit kann es zusatz-lich zu anderen Modellen eingesetzt werden. Die Ausdruckskraft kann bei diesem Ansatznicht vergleichbar zu den vorherigen Modellen bewertet werden, da die Werte in den Rela-tionen unabhangig von dem Klassifikationsmodell gespeichert werden. Man hat allerdings dieMoglichkeit, die Daten — anhand von Erfahrungswerten — in grobkornigere Terme einzu-teilen und dadurch die Daten als imperfekt zu interpretieren. Der Gedanke dahinter ist zumeinen, dass fur gewisse Anfragen die punktgenauen Werte von Attributen nicht interessantsind und zum anderen, dass es ohnehin nicht moglich ist alle Werte punktgenau und aktu-ell zu halten, und der Wert, der in der Relation steht, nur als grober Anhaltspunkt fur denZustand gesehen wird. Durch diese Sichtweise kann das menschliche Verstandnis fur Informa-tionen besser auf die Datenbanken ubertragen werden, und kleine Anderungen in der realenWelt erfordern keine sofortige bzw. genaue Umsetzung in der Datenbank, die Dynamik desVerkehrs wird dadurch gut unterstutzt. Es eignet sich demnach gut als Anfrageunterstutzung.

Bewertung fur das Modell der Klassifikationen:

Dynamik +Ausdruckskraft ohne WertungQuellenvielfat ohne WertungAnfrageunterstutzung +

4.9 Fazit aus den Bewertungen

Als einziges Datenmodell erfullt somit das ciset-Modell die von mir gestellten Anforderungenan die Ansatze fur imperfekte Daten. Zusatzlich eignet sich aber auch das Modell der Klas-sifikationen — welches aber kein Datenmodell ist — fur die Verarbeitung von imperfektenInformationen im Verkehrsumfeld.

Mit dem ciset-Ansatz wird zum einen — durch die zugrunde liegende Fuzzy-Theorie —Unscharfe gut modelliert und zum anderen wird die Unsicherheit durch die Zuverlassigkeit-sindizes beschrieben. Die Vorteile des ciset-Ansatz gegenuber den anderen Ansatzen liegt inder Verwaltung von bekraftigenden und widerlegenden Argumenten in einer Notationsform〈kontra, pro〉. Im Gegensatz zu den probabilistischen Ansatzen — wo bei neuen Eviden-zen jedes mal die Wahrscheinlichkeitsverteilungen fur alle davon betroffenen Sachverhalteneu berechnet werden mussen — ist eine komplizierte Neuberechnung jedes Zuverlassigkeits-wertes bei neuen Evidenzen nicht notig. Jede Quelle besitzt eine Zuverlassigkeit fur Infor-mationen und die besitzt sie unabhangig von anderen Quellen. Der Widerspruch zwischenunterschiedlichen Informationen wird durch die beiden Elemente des Zuverlassigkeitsindexaufgenommen. Zusatzlich kann noch eine Reduktion der Zuverlassigkeit von Informationenstattfinden, die alteren Datums sind. Wie das genau passiert wird in den nachsten Kapitelnerortert. Zusatzlich muss noch auf das Problem der Initialisierung der cisets behandelt wer-den. Welche Technik dafur in dieser Arbeit verwendet wird, wird auch im folgenden Kapitelerklart.

Eine Art der Imperfektion — die Ungenauigkeit von Werten — kann durch keines der Daten-modelle zufriedenstellend gelost werden. Durch das Modell der unscharfen Klassifikationen

Page 60: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

48 4: Datenmodelle fur imperfekte Daten

kann die Ungenauigkeit aber bei der Anfrage modelliert werden, wenn man weiß bei welchenWerten Ungenauigkeiten auftreten kann ich fur diese Werte unscharfe Terme modellieren, sowerden die Werte, wenn sie uber die Klassifikationen angefragt werden als ungenau interpre-tiert.

Page 61: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

5: Konzept der Modellierung 49

5 Konzept der Modellierung

Mit den beiden augesuchten Modellen aus Kapitel 4 kann die sinnvolle Verarbeitung vonimperfekten Daten von der Speicherung bis zur Anfrage ermoglicht werden. In diesem Kapitelwird eingangs die Grobarchitektur des Datenbanksystems beschrieben. Anschließend wirddas Beispielszenario fur eine Routenauswahl (Kapitel 5.2) vorgestellt, anhand dessen dieVerfeinerung der Grobarchitektur vorgenommen wird (Kapitel 5.3 und Kapitel 5.4).

5.1 Grobarchitektur

Dieser Abschitt stellt die grobe Architektur vor, mit der die Datenbank die Verwendung vonimperfekten Informationen im Verkehrsumfeld unterstutzen soll. Dafur wird die Einbindungder Datenbank als Vermittler zwischen Informationsquellen (Detektoren, Verkehrsmeldungenetc.) und Informationssuchenden (Anwendungen und Nutzer) beschrieben.

Um nochmals in Erinnerung zu rufen fur welche Arten von Informationen die Datenbankeingesetzt wird, folgt zuerst die Einteilung der Verkehrsdaten in die drei Kategorien ausKapitel 2:

Verkehrsinformationen: Verkehrsbeschreibende Informationen, die durch technischeSensoren oder Menschen erhoben werden und Aufschluss uber die gegenwartige Ver-kehrslage liefern.

Informationen uber Verkehrsinfrastruktur: Die Grundlegenden Informationenuber die Verkehrsnetze, wie Straßenfuhrung, Parkraum und die Fahrplane des offentli-chen Personennahverkehrs.

Informationen uber Ereignisse und Storungen: Informationen uber Ereignisse,die mittelbar oder unmittelbar Einfluss auf den den Zustand des Verkehrsflusses oderdie Verkehrsinfrastruktur nehmen.

Diese Kategorien stellen somit die Oberbegriffe fur die Informationen in einer Verkehrsdaten-bank dar. Auf der einen Seite existieren Informationsquellen, welche die Informationen uberdas Verkehrsumfeld generieren, und auf der anderen Seite sind die Anwendungen und Nutzerdie uber Anfragen Informationen uber das Verkehrsumfeld erhalten wollen (Eine Ubersichtuber die Einbindung liefert Abbildung 13).

Daraus kann man drei große Bereiche ausmachen, deren Zustande durch die Datenbank mo-delliert werden mussen: Der Verkehr, die Infrastruktur und Ereignisse und Storungen — dieEinfluss auf den Verkehr nehmen. Die Infrastruktur stellt dabei das Zentrum der Datenbankdar, da die Modellierung der Straßenzuge die Grundvoraussetzung dafur stellt um Verkehrund Ereignisse zu modellieren. Zum einen kann Straßenverkehr nur dort existieren wo auchStraßen sind und zum anderen sind nur Ereignisse interessant, die den Verkehr beeinflus-sen konnen, wo demnach Straßen existieren. Aus der Anwendung/Nutzer-Perspektive ergibtsich dieselbe zentrale Bedeutung der Infrastruktur, da die meisten Anfragen uber die Straßenselektieren und dann zu den Straßen an Informationen uber den Verkehr oder verkehsbeein-flussenden Ereignissen interessiert sind.

Um eine Trennung zwischen den Informationen der Quellen und den aus den Informationenmodellierten Zustanden zu erreichen, werden die eingehenden Informationen (Schnittstelle

Page 62: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

50 5: Konzept der Modellierung

zwischen Quellen und Datenbank) fur jeden Quellentyp separiert gespeichert. Die Trennungzwischen den einzelnen Quellentypen ist sinnvoll aufgrund der Tatsache, dass jeder Quel-lentyp unterschiedliche Informationen generiert. Die eingehenden Informationen erhalten —dem ciset-Ansatz folgend — einen Zuverlassigkeitswert anhand ihrer Quellen um die Unsi-cherheit zu beschreiben. In den drei ubergeordneten Bereichen (Verkehr, Infrastruktur undStorungen) konnen dann aus den unterschiedlichen Informationen Zustande modelliert wer-den, unter Berucksichtigung der Zuverlassigkeit der einzelnen Quellen.

An der Schnittstelle zwischen Anwendung/Nutzer und der Datenbank wird die Anfragemog-lichkeit erweitert. Neben SQL wird das Konzept der Klassifikationen eingebunden. Dadurchwerden Anfragemoglichkeiten an das menschliche, unscharfe Verstandnis durch linguistischeVariablen angepasst (z.B. Wo ist viel Verkehr?) und zum anderen die Ungenauigkeit —die in manchen Informationen vorliegt — durch die Einfuhrung von unscharfen Klassen

”entscharft“. Bei scharfen Klassen kann Ungenauigkeit uber die Zugehorigkeit zu einer Klasseentscheidend sein (da nur die Zugehorigkeiten 0 und 1 existieren). Bei unscharfen Klassenkann die Ungenauigkeit hingegen nur den Zugehorigkeitswert leicht beeinflussen (da derZugehorigkeitswert zu einer Klasse jeder Wert aus dem Einheitsintervall [0,1] sein kann).

Detektoren FCD

Verkehr Infrastruktur Störungen

Baustellen Wetter Meldungen

Klassifikationen Anwendung / Nutzer

Datenbank

Datenbank

Quellen

Abbildung 13: Einbindung der Datenbank

5.2 Szenario

Als Szenario wird eine Routenplanung auf der Strecke Karlsruhe - Darmstadt betrachtet.Fur dieses Szenario beschranke ich mich aus Grunden der Ubersichtlichkeit nur auf diemoglichen Routen, welche komplett uber Autobahnen fuhren. In der Abbildung 14 sinddie Autobahnteile, die fur die Routen in Frage kommen, hervorgehoben.

Dadurch stehen mir in diesem Szenario acht unterschiedliche Routen zu Verfugung. DieseRouten fuhren uber Teilstucke der Autobahnen A5, A6, A67, A656 und A659. Autobahnensind uber Anschlussstellen (AS ) erreichbar, an den Anschlusstellen kann man die Autobahnverlassen oder auf die Autobahn auffahren. Die kleinsten logischen Abschnitte fur die Rou-tenplanung auf Autobahnen sind die gerichteten Autobahnstucke (Kanten) zwischen zweibenachbarten Anschlussstellen, da zwischen diesen Anschlussstellen keine Moglichkeit be-steht die Richtung zu andern oder eine andere Straße zu befahren. Im weiteren Verlauf wirdder Begriff Autobahnabschnitt verwendet, ein Autobahnabschnitt enthalt jeweils alle Kanten

Page 63: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

5.2: Szenario 51

1 2

3

4 / 5

6 7

8 / 9

1 0

1 1

Karlsruhe

Kreuz Walldorf

Kreuz Heidelberg

Kreuz Weinheim

Darmstadt

Kreuz Mannheim

Viernheimer Kreuz

Abbildung 14: Skizze der Strecke Karlsruhe – Darmstadt

zwischen zwei Anschlussstellen an denen sich zwei der fur die Routenplanung ausgewahltenAutobahnen treffen, der Autobahnabschnitt ist ebenfalls gerichtet. Ein Autobahnabschnittstellt also in diesem Szenario die kleinste logische Einheit fur die Routenplanung dar, weildieses Szenario sich auf Autobahnen beschrankt. Ein Autobahnabschnitt enthalt demnachimmer mindestens eine Kante einer Autobahn. Ein Autobahnabschnitt kann aber auch ausKanten mehrerer Autobahnen bestehen, dies ist der Fall bei einer Namensanderung derAutobahn oder der Kreuzung zweier Autobahnen an einer Anschlussstelle an der nur eineKante zielgerichtet (also zu dem Ziel der Route) weiterfuhrt. Die zu Verfugung stehendenAutobahnabschnitte sind in Tabelle 26 aufgelistet und die Gliederung der acht Routen, alsKombinationen aus den Autobahnabschnitten, ist in Tabelle 27 beschrieben. Selbstverstand-licherweise sind nur zyklenfreie Routen aufgelistet.

Autobahnabschnitt von AS bis AS Lange [km]

1 Karlsruhe-Durlach Kreuz Walldorf 34,17

2 Kreuz Walldorf Kreuz Mannheim 21,95

3 Kreuz Walldorf Kreuz Heidelberg 15,46

4 Kreuz Heidelberg Kreuz Mannheim 8,39

5 Kreuz Mannheim Kreuz Heidelberg 8,39

6 Kreuz Heidelberg Kreuz Weinheim 14,94

7 Kreuz Mannheim Viernheimer Kreuz 6,89

8 Viernheimer Kreuz Kreuz Weinheim 5,87

9 Kreuz Weinheim Viernheimer Kreuz 5,87

10 Kreuz Weinheim Darmstadter Kreuz 36,92

11 Viernheimer Kreuz Darmstadter Kreuz 38,65

Tabelle 26: Autobahnabschnitte auf der Strecke von Karlsruhe nach Darmstadt

Neben der Lange einer Route — die einen festen, konstanten Wert hat — sind fur einenAutofahrer zusatzlich noch dynamische, aktuelle Informationen von Interesse:

Page 64: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

52 5: Konzept der Modellierung

Autobahnabschnitte Lange [km]

Route 1 1-3-6-9 101,49

Route 2 1-3-6-7-8 109,09

Route 3 1-3-4-5-7-9 111,94

Route 4 1-3-4-5-8 107,8

Route 5 1-2-4-6-9 116,37

Route 6 1-2-4-6-7-8 123,97

Route 7 1-2-5-7-9 110,04

Route 8 1-2-5-8 105,9

Tabelle 27: Routen von Karlsruhe nach Darmstadt

Wie stark ist die Strecke normalerweise befahren? Mit wieviel Verkehr muss man rech-nen?

Sind viele Baustellen oder ahnliche Storungen vorhanden bzw. stellen sie eine großeBehinderung des Verkehrsflusses dar oder staut es sich schon?

Wird durch das Wetter die Sicht oder die Fahrbahnhaftung beeinflusst?

Die Imperfektion, die sich hinter diesen drei Punkten verbirgt, bildet den Ausganspunkt furden Einsatz der vorgeschlagenen Modelle. Bei dem ersten Punkt, die der durchschnittlichenBelastung der Strecke, liegt die Imperfektion in der Ungenauigkeit, es handelt sich um einenSchatzwert aus historischen Messungen. Die Imperfektion des zweiten Punktes liegt in derUnsicherheit und Unscharfe von Meldungen. Der dritte Punkt — das Wetter — ist in Bezugauf die Wetterprognosen ungenau, unsicher und unscharf.

Die durchschnittliche Belastung der Strecke beruht auf den historischen Daten von Detek-toren an der Straße, diese sind — wie eingangs der Arbeit erwahnt — ungenau, da dieDetektoren leichte Messfehler aufweisen und die Daten jeweils uber eine Zeitspanne gemit-telt vorliegen. Diese Ungenauigkeit ist schwer in einem Datenmodell beschreibbar und giltaußerdem fur alle Detektordaten gleichermaßen. Eine Beschreibung im Datenmodell ist somitnicht notwendig, statt dessen wird die Ungenauigkeit uber unscharfe Terme im Klassifika-tionenmodell abgefangen. Hier wird die Ungenauigkeit der Daten akzeptiert, da sie — durchdie heutigen Erhebungsmethoden — nicht genauer zu erfassen sind. Durch das Modell derKlassifikationen wird aber verhindert, dass eine statistische Ungenauigkeit zu weitreichendenFolgen in der Auswertung fuhrt, dies ware ein moglicher Fall bei einer scharfen Einteilungvon Klassengrenzen.

Die aktuellen Behinderungen auf den Routen werden aufgrund der Baustellendaten des Bun-desministerium fur Verkehr [3], Behinderungsmeldungen von privaten Verkehrsteilnehmernund der Polizei und — falls verfugbar — aktuellen Detektordaten bewertet. In diesem Punkthaben wir den Fall, dass es zu widerspruchlichen (unsicheren) und unscharfen Meldungenkommen kann, dadurch werden bei den Behinderungen cisets eingesetzt. In diesem Punktfindet bei der Interpretation der Behinderungen ebenfalls wieder eine Einteilung in unscharfeTerme statt.

Die Wetterprognosen werden analog zu den Behinderungen bearbeitet. Widerspruchliche,unsichere und unscharfe Angaben werden uber das ciset-Modell verwaltet. Und zur Aus-wertung findet wiederum eine Einteilung in unscharfe Terme ab.

Page 65: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

5.3: Konzept fur die Abfrage 53

5.3 Konzept fur die Abfrage

Somit ergibt sich abschließend fur das Szenario folgendes Konzept bei der Verarbeitung vonimperfekten Daten. Die Anfrage lauft uber die Einteilung in ein Kontextmodell mit dreiunterschiedlichen Kontexten, die Daten auf die die Anfrage zugreift enthalten Unsicherheitund Unscharfe in Form von cisets.

5.3.1 Die Terme

Wie im vorherigen Unterabschnitt erwahnt, ergeben sich fur meine Betrachtung vier At-tribute die im Kontextmodell eingezogen werden, die Kontexte, die daraus entstehen sind:Route, Verkehrsaufkommen,Storungen, Wetter. Das Attribut Route besteht nur auseiner Aquivalenzklasse, die anderen Kontexte hingegen werden jeweils in zwei Terme einge-teilt:

Routen: KRoute = RoutennumerVerkehrsaufkommen: KDichte = niedrig,hochStorungen: KStoerung = schwach,starkWetter: KWetter = gut,schlecht

Der Wertebereich fur die Attribute Verkehrsaufkommen, Storungen und Wetter ist einheit-lich das Einheitsintervall [0, 1]. Der Wert µ ∈ [0, 1] gibt jeweils den Zugehorigkeitswert zuden Termen niedrig, schwach bzw. gut an. Die Zughorigkeiten sind auf ”1“ normiert,d.h. die Zugehorigkeit zu den Komplementarklassen hoch, stark bzw. schlecht ergibtsich jeweils durch 1− µ.

Daraus ergibt sich folgende Zuordnung der Zugehorigkeitswerte zu den Termen:

Verkehrsaufkommen: KDichte = 1.0 ≥ µV erkehr ≥ 0.5, 0.5 > µV erkehr ≥ 0.0Storungen: KStoerung = 1.0 ≥ µStoerung ≥ 0.5, 0.5 > µStoerung ≥ 0.0Wetter: KWetter = 1.0 ≥ µWetter ≥ 0.5, 0.5 > µWetter ≥ 0.0

Routen: Bei dem Attribut Routen besteht der Wertebereich aus den Identifikationsnum-mern der Routen.

Verkehrsaufkommen: Den Wert fur das Attribut Verkehrsaufkommen ergibt sich ausder Fahrzeugdichte pro Fahrstreifen d = FZ/km pro spur, da diese, im Gegensatz zumVerkehrsfluss (f = FZ/h), das Verkehrsaufkommen mit der Kapazitat der Straße kombiniertangibt, und dadurch unabhangig von einem Straßentyp angegeben werden kann. Ihr kommtunter den Kenngroßen des Verkehrsstroms eine grundlegende Bedeutung zu (“Primat derVekehrsdichte“ [36]). Der Wert µV erkehr wird durch folgende Funktion errechnet:

µV erkehr(d) =

1 : d ≤ 51− (d− 5) · 0.1 : d > 5 ∧ d < 15

0 : d ≥ 15(8)

Die Funktion wurde anhand der Untersuchungen von Mangold et al. [24] bezuglich der Ver-kehrszustande in Abhangigkeit von Verkehrsdichteklassen erstellt. In der Tabelle 28 sind dieZustandsklassen aufgefuhrt, dabei haben sie nach Untersuchungen von Pks-Aquivalenzwer-ten 1 Lkw mit 2 Pkw gleichgesetzt.

Page 66: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

54 5: Konzept der Modellierung

Verkehrs- Verkehrsdichte-zustand [-] klasse [Pkw/km]

frei bis teilgebunden 0 < k < 5teilgebunden bis

gebunden5 < k < 15

voll gebunden 15 < k

Tabelle 28: Verkehrszustande abhangig von Verkehrsdichteklassen nach [24]

Storungen: Der Wert fur das Attribut Storungen ergibt sich aus einem Tripel (Ver-kehrsfluss × Wegfall von Spuren × Geschwindigkeitsbeschrankung). In diesem Zusammen-hang bezeichnet die Geschwindigkeitsbeschrankung nur außergewohnliche Geschwindigkeits-beschrankungen, welche durch Baumaßnahmen oder Unfalle zeitlich befristet aufgestelltwerden und nicht unbefristete Geschwindigkeitsbeschrankungen (die sind in dem Kontext

”Storung“ nicht adaquat aufgehoben). Jedes Attribut dieses Tripels bekommt einen Wert imEinheitsintervall [0, 1] zugewiesen (0 = schlecht, 1 = gut). Eine Kante von der einheitlichein großer Stau gemeldet wird, erhalt demnach den Wert 0. Eine Kante zu der unterschiedli-che Meldungen existieren, wobei die einen Meldungen von einem Stau sprechen die anderenMeldungen es aber nur als zahfließenden Verkehr interpretieren, erhalt einen Wert zwischen0 und 1, und der Wert 1 wird an Kanten vergeben, uber die keine Storungsmeldung vorliegtbzw. keine Meldung uber einen gestorten Verkehrsfluss berichtet. Der Storungswert wird nachder Hohenwertmethode [13] aus der Fuzzy-Verteilung uber die Elemente frei,zahfließend undstau vorgenommen:

Definition 5-1 (Hohenwertmethode): Sei µ eine Fuzzy-Menge, die den Elementenω1, . . . , ωn einen Zugehorigkeitswert zuweist. Mit γi seien die Gewichtungen der Elementebezichent, dann wird die Fuzzy-Menge durch die Hohenwertmethode wie folgt defuzzifiziert:

Hµ =∑

i=1..n γi · µ(ωi)∑i=1..n µ(ωi)

(9)

Bei dem Wegfall von Spuren (WfvS) gibt der Wert an, wieviel von der eigentlich Kapazitat(an Spuren) noch zu Verfugung steht. Bei einer Verengung von zwei auf drei Spuren erhaltdie Kante, fur das Attribut WfvS, den Wert 0,67. Bei einer Verengung von vier auf dreiSpuren ergibt sich der Wert 0,75 und wenn keine Spur wegfallt betragt der Wert 1,0. Bei Ge-schwindigkeitsbeschrankungen in Storungsbereichen werden ausschließlich die Standardwerte60km/h und 80km/h betrachtet. Keinerlei Beschrankung erhalt so den Wert 1, Beschrankungauf 80km/h erhalt den Wert 0,62 und Beschrankung auf 60km/h den Wert 0,47. Diese Wer-te spiegeln den rein rechnerischen Kapazitatsverlust im Vergleich zur Richtgeschwindigkeit130km/h wieder, und sind beispielhaft und von mir personlich so getroffen, aufgrund ge-nauerer Kenntnisse der storenden Auswirkungen von Geschwindigkeitsbeschrankungen inBaustellenbereichen o.a., kann diese Zuordnung naturlich auch anders getroffen werden.

Demnach erhalt man ein Tripel ([0, 1]× [0, 1]× [0, 1]). Fur die Verwendung dieses Tripels mitden anderen Kontexten ist eine Transformation des Wertes in einen eindimensionalen Wertnotig. Dieser Wert wird uber folgende Funktion ermittelt:

Stoerung = min

(Fluss,

WfvS ∗ α + Geschwindigkeit

α + 1

); α = 3 (10)

Diese Funktion wurde nach folgenden Gesichtspunkten erstellt:

Page 67: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

5.3: Konzept fur die Abfrage 55

Die Storung kann nie besser sein als der Verkehrsfluss es zulasst

Der Wegfall von Spuren als dreimal so schwer wiegend betrachtet (der Wert von α)wie Geschwindigkeitsbeschrankungen

Die Gewichtung des Wegfalls von Spuren im Vergleich zur Geschwindigkeitsbeschrankungist darauf zuruckzufuhren, dass er die großere Storung darstellt. So geht ein WfvS nie ohneGeschwindigkeitsbeschrankung einher, ausserdem werden Geschwindigkeitsbeschrankungennicht von der großen Masse der Autofahrer eingehalten. Die Gewichtung mit dem Faktorα = 3 ist allerdings Ermessenssache und auch hier gilt, wie oben schon erwahnt, durch eineandere Fokussierung oder tiefere Kenntnisse im Bereich der Storungsauswirkungen kanndieser Wert auch anders gesetzt werden.

Als Ergebnis erhalt man bei dem Attribut Storungen einen Zugehorigkeitswert µStoerung ∈[0, 1] zu dem Term schwach aus dem man gleichzeitig den Zugehorigkeitswert zum inversenTerm stark µ−1

Stoerung = 1− µStoerung ableiten kann.

Wetter: Der Wert fur das Attribut Wetter ergibt sich ebenfalls aus einem Tripel (Glatteis× Niederschlag × Nebel), bei dem die einzelnen Attribute wiederum in das Einheitsintervall[0, 1] abgebildet werden, allerdings sind die Attribute Niederschlag und Nebel ebenfalls Tripel(stark, schwach, kein) die zuerst auf einen Wert abgebildet werden. Der Glatteiswert (g) gibtdabei an wie hoch — aufgrund der Temperatur — die Moglichkeit fur Glatteis ist (possibi-litat) und die Werte fur Niederschlag (rstark,rschwach,rkein) und Nebel (nstark,nschwach,nkein)beschreiben eine Fuzzy-Verteilung des zu erwartenden Niederschlags (bzw. Nebel). Zuerstwerden die Niederschlags- und Nebelwerte jeweils auf einen einheitlichen Wert gemittelt:

r =rschwach · 0.5 + rstark

rschwach + rstark + rkein(11)

n =nschwach · 0.5 + nstark

nschwach + nstark + nkein(12)

Anschließend wird auch wieder das Tripel (g× r× n) in einen eindimensionalen Wert trans-formiert. Dafur ist die folgende Funktion zustandig:

Wetter =

1− 0.1 · r : g = 0 ∧ r ≥ n1− 0.62 · n : g = 0 ∧ r < n

1− 0.67g · r : g > 0 ∧ r ≥ n1− 0.67g · n : g > 0 ∧ r < n

(13)

Diese Formel wurde nach folgenden Gesichtspunkten erstellt:

Bei starkem Nebel (der die Sichtweite auf unter 50m herabsinken lasst) liegt die vorge-schriebene Geschwindigkeit bei 50km/h [40]. Das ergibt einen Malus vom Faktor 0.62im Vergleich zur Richtgeschwindigkeit.

Bei Regen sinkt die Kapazitat im Schnitt um 10% ab [6]. Es ergibt sich also ein Malusvon 0.1.

Page 68: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

56 5: Konzept der Modellierung

Temperaturen um oder unter dem Gefrierpunkt stellen nur ein Problem mit einher-gehender Feuchtigkeit dar, bei Glatte geht die Kapazitat eines Fahrstreifens auf einDrittel der ursprunglichen Kapazitat zuruck [11]. Dies bedeutet einen Malus von 0.67.

Ich gehe in diesem Szenario davon aus, das Nebel und Niederschlag zwei Wetter-zustande sind, die sich gegenseitig ausschließen.

Als Ergebnis erhalt man bei dem Attribut Wetter einen Zugehorigkeitswert µWetter ∈ [0, 1]zu dem Term gut aus dem man gleichzeitig den Zugehorigkeitswert zum inversen Termschlecht µ−1

Wetter = 1− µWetter ableiten kann.

5.3.2 Kontextklassen

Die Terme der Kontexte fur die Attribute Verkehrsaufkommen, Storungen und Wetter span-nen einen dreidimensionalen Klassifikationsraum auf und erzeugen insgesamt acht Klassen C1bis C8, wie die Abbildung 15 zeigt. Die Werte aus dem Attribut Route werden anhand ihrerZugehorigkeitswerte µDichte, µStoerung und µWetter in den Raum eingeordnet (“klassifiziert“).Im optimalen Fall findet sich eine Route in der oberen linken Ecke des Teil-Wurfels C1 wie-der, im schlechtesten Fall liegt eine Route in der rechten unteren Ecke des Teil-Wurfels C2.Demnach kann man auch eine partielle Hierarchie uber den Klassen definieren, ein Elementx, welches in der Hierarchie hoher steht als ein Element y ist bei der Routenwahl immer zubevorzugen. Liegen die Elemente x und y in zwei Klassen, von denen keine in der Hierarchieuber der anderen steht, ist es von der Praferenz des Nutzers abhangig, welches Element zubevorzugen ist.

Die Klassen C1 bis C8 erhalten folgende Interpretation, wie die Tabelle 29 zeigt:

5.4 Konzept fur die Speicherung

Wie im vorherigen Kapitel 5.3 erwahnt, baut die Abfrage auf vier Attribute auf Route,Verkehr, Storung und Wetter. Die Informationen uber die Streckenfuhrung der alternativenRouten (Routen), konnen problemlos im relationalen Schema gespeichert werden, da hierkeinerlei Imperfektion vorliegt. Auch die Informationen uber das Verkehrsaufkommen sindproblemlos unterzubringen. Die Detektoren sammeln in festen Zeitabstanden (z.B. 1h) Datenuber die Streckenbabschnitte. Nun braucht man lediglich die Daten, die uber einen Taghinweg anfallen in einer Relation speichern. Bei einer Abfrage uber das Verkehrsaufkommenist lediglich uber den Wochentag und die Stunde des Tages zu selektieren, bei den gefundenenTupeln bildet man den Durchschnitt bezuglich des Aufkommens.

Bei den anderen Attributen (Storung und Wetter)gestaltet es sich mit der Speicherungschon schwieriger. Wie im Kapitel 5.3.1 beschrieben, werden Storungen durch den momen-tanen Verkehrsfluss, Wegfall von Spuren und dem Herabsetzen der Hochstgeschwindigkeitbeschrieben. Die Quellen, welche fur Storungen in Betracht gezogen werden konnen, sindaber sehr heterogen. Dafur kommen Baustellenmeldungen des Bundesverkehrsministeriums[3], Storungsmeldungen von Verkehrsteilnehmern, Messungen von Floating Cars und aktuelleSensordaten in Frage. Diese Meldungen sind nur umstandlich in einer Relation unterzubrin-gen, konnen aber alle Aufschluss uber die momentane Verkehrslage geben. Also bietet es sichan, pro Quellenart (z.B. Meldungen von Verkehrsteilnehmern) jeweils eine einzelne Relationzu verwenden und die Daten in einer ”Meta-Relation“, in einem Tupel pro Streckenabschnitt,

Page 69: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

5.4: Konzept fur die Speicherung 57

Abbildung 15: Der Raum der Klassifikationen durch die drei Terme

1

2 3 5

4 6 7

8

Abbildung 16: Die partielle Hierarchie der Terme

Klasse Verkehr Storung Wetter Interpretation

C1 niedrig schwach gut gute Fahrbedingung

C2 niedrig schwach schlecht vorsichtig Fahren

C3 niedrig stark gut kleine Verzogerungen

C4 niedrig stark schlecht erhohte Staugefahr

C5 hoch schwach gut gebundener Verkehr

C6 hoch schwach schlecht hohe Stau- und Unfallgefahr

C7 hoch stark gut Strecke meiden

C8 hoch stark schlecht Strecke weitraumig umfahren

Tabelle 29: Interpretationen der acht Klassifikationen

Page 70: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

58 5: Konzept der Modellierung

zu akkumulieren. In Abbildung 17 ist die Umformung beispielhaft dargestellt, anhand zwei-er Storungsmeldungen, die in der Meta-Relation eingefugt werden. Die Meta-Relation un-terteilt die Attribute in alle moglichen Merkmalsauspragungen (z.B. das Attribut Fluss in

”frei“,“zahfließend“ und “gestaut“). Die Ursprungstupel sind jeweils mit einem Zuverlassig-keitswert versehen, der die Verlasslichkeit einer Meldung angibt. Bei der Ubertragung einesAttributwertes in die Meta-Relation wird anhand des Attributwertes in dem Ursprungstupeldas passende Attribut der Meta-Relation ausgewahlt. In dieses wird dann der Zuverlassig-keitswert ubertragen und eigentlich musste dann zusatzlich der Zuverlassigkeitswert zu einerAttributsauspragung als widersprechender Wert in die anderen Attributsauspragungen auf-genommen werden. In diesem Modell ist es jedoch nicht notig, vollstandige cis als Tupel ausunterstutzenden Informationen und widersprechenden Informationen zu verwenden, da alleMerkmalsauspragungen eines Attributes ausformuliert sind. In der Praxis ist es dann uber-flussig die widersprechenden Informationen in jeder Attributsauspragung mitzufuhren, da diewidersprechenden Informationen gleichzeitig als unterstutzende Informationen in einer an-deren Attributsauspragungen mitgefuhrt werden. So umgeht man auch das Problem mit derInitialisierung bei den cisets, welches in Kapitel 4.6 beschrieben wurde. In der Abbildung 17wird diese Redundanz verdeutlicht, vollstandigkeitshalber sind die α-Werte der Zuverlassig-keitsindizes in dem Tupel der Meta-Relation mit aufgefuhrt (linken Werte). Die α-Werteder Attributsauspragungen liefern keine Zusatzinformation gegenuber der Konzentration aufSpeicherung des β-Wertes. Die genaue Verarbeitung bei der Speicherung der Daten wird indem nachsten Kapitel erklart.

Abbildung 17: Bestimmung der Werte in der Meta-Relation aus mehreren Storungsmeldun-gen

Page 71: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

6: Implementierung 59

6 Implementierung

In diesem Kapitel wird die konkrete Implementierung zu dem Konzept aus dem vorherigenKapitel 5 beschrieben. Es geht um die Realisierung einer Routenauswahl unter Berucksich-tigung des zu erwartenden Verkehrsaufkommen, des Wetters und der Storungen auf derStrecke. Um dem Benutzer eine verstandliche Losung anzubieten, werden die durch imper-fekte Daten modellierten Ergebnisse uber eine Klassifikation durch unscharfe Terme beschrie-ben.

6.1 Datenbankschema

An dieser Stelle wird das Datenbankschema beschrieben. Es gliedert sich in zwei Teile: Re-lationen und Prozeduren. In dem Teil ”Relationen“ werden die Tabellen, samt Schlussel,Fremdschlussel und inhaltlichen Bindungen beschrieben. Der Teil ”Prozeduren“ beschaftigtsich mit den Triggern und Prozeduren fur die Datenbankabfrage. Die Erstellung der Daten-bank folgt dem Konzept aus Kapitel 5.1.

6.1.1 Relationen

Die Relationen des Datenbankschemas (Abbildung 18) folgen dem Konzept aus Kapitel 5.1.In der Abbildung 18 sind die Relationen abgebildet und zusatzlich Fremdschlusselbeziehun-gen zwischen einzelnen Relationen (Pfeile). Um eine inhaltliche Beziehung zwischen zwei Re-lationen deutlich zu machen, die nicht durch eine Fremdschlusselbeziehung modelliert werdenkann, wurde eine gestrichelte Linie verwendet. Eine genauere Beschreibung der Beziehungenfolgt in den Beschreibungen der einzelnen Relationen. Die Tabellen Routen, Kanten, An-schlussstellen und RegioMap stellen den Bereich ”Infrastruktur“ dar (siehe Abbildung 13auf Seite 50). Die Relationen Wetter und Storungen fallen unter den Bereich ”Storungen“,die Relation Detektor modelliert den Bereich ”Verkehr“ und die Relationen Meldungen, Pro-gnosen und Baustellen sind die Relationen an den Schnittstellen zu den Informationsquellen,sie nehmen die eingehenden Informationen auf und losen, bei Eingang neuer Informationen,Trigger aus, um die Modelle in den ubergeordneten Relationen zu bearbeiten.

Im Folgenden werden die Relationen genauer beschrieben; da die Relationen ein vereinfachtesAbbild der realen Welt darstellen, kommt es dazu, dass die Attribute der Relationen unddie Objekte der realen Welt gleich oder ahnlich klingen. Um deutlich zu machen, wannvon einem Attribut und nicht von einem realen Objekt die Rede ist, sind die Attributekursiv hervorgehoben. Wenn bei der Beschreibung einer Relation auf Attribute einer anderenRelation verwiesen wird, so werden diese Attribute unter Angabe der referenzierten Relationkenntlich gemacht (z.B. andereRelation.Attr1 )

Kanten: Die Relation Kanten ist eine Abbildung der realen Straßenkanten, also der ge-richtete Abschnitt zwischen zwei Anschlussstellen. Eine Kante wird uber den Straßennnamen(Strasse) und die Nummern der beiden Anschlussstellen (AS1 und AS2 ) eindeutig identifi-ziert. Diese drei Attribute bilden in der Relation Kanten auch den Primarschlussel. Wenn aneiner Anschlussstelle sich zwei (oder mehr) Autobahnen kreuzen, erhalt die Anschlussstellein der Realitat zwei (oder mehr) Nummern. Jede dieser Nummern bezieht sich auf eine derAutobahnen. In der Relation Kanten wird ausschließlich die Nummer der Anschlussstellegespeichert, die zu der Autobahn gehort, welche mit Straße identifiziert wird. Durch die Be-legung von AS1 und AS2 wird auch gleichzeitig die Richtung der Kante definiert. Die Kante

Page 72: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

60 6: Implementierung

Abbildung 18: Die Relationen des Datenbankschemas

Page 73: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

6.1: Datenbankschema 61

verlauft also auf der Straße Strasse von der Anschlussstelle AS1 zur Anschlussstelle AS2.Bei der Kante auf der Gegenrichtung sind die beiden Anschlussstellen demnach vertauscht.

Als zusatzliche Information uber die Kante erhalt man die Anzahl der Fahrspuren Spuren,die Lange der Kante Lange und die Positionen der beiden Anschlussstellen (km1 fur AS1,und km2 fur AS2 ) auf der Straße in km.

In der Relation sind zwei Fremdschlussel defniert. Uber Strasse und AS1 identifiziert manein Tupel aus der Relation Anschlussstellen eindeutig. Analog verhalt es sich so mit Strasseund AS2.

Anschlussstellen: Die Relation Anschlussstellen bildet die realen Anschlussstellen ab.Eine Anschlussstelle bildet den Verbindungspunkt zweier oder mehrerer Kanten. Uber denNamen wird eine Anschlussstelle eindeutig identifiziert, da man aber kein Maximum anangeschlossenen Kanten definieren kann eignet sich Name nicht als Primarschlussel. Stattdessen wird in der Relation Anschlussstellen ein Tupel uber den Primarschlussel Strasse (Na-me der Straße) und Nummer (Nummer der Anschlussstelle) identifiziert. Uber den Namender Anschlussstelle (Name) kann man dann alle Kanten selektieren, die an diesem Knotenangeschlossen sind.

Name bildet einen Fremdschlussel fur die Relation Regio Map mit deren Hilfe man An-schlussstellen Regionen zuordnen kann.

Regio Map: Die Relation Regio Map ordnet Anschlussstellen Regionen zu. Uber das At-tribut AS Name wird die Anschlussstelle definiert und Region gibt einen Schlussel fur dieRegion an. In diesem Modell werden Landkreise als Regionen verwendet. Region erhalt dannals Schlussel fur die Region das KFZ-Zeichen des Landkreises.

Routen: Die Relation Routen enthalt eine Zuordnung von Kanten zu Routen. Jede Routeerhalt einen eindeutigen Identifikator (Route). Uber Route konnen alle Autobahnteilstuckeselektiert werden, die von dieser Route verwendet werden. Die Teilstucke sind durch denStraßennamen (Strasse) und die Anschlussstellen (AS1 und AS2 ) angegeben. Uber dieseWerte (Strasse, AS1 und AS2 ) kann man alle Kanten aus der Relation Kanten identifizieren,die in diesem Abschnitt der Route liegen. Neben der Identitat der beiden Straßennamen(Strasse = Kanten.Strasse) ist dafur eine Uberprufung erforderlich, ob die Anschlussstellender Kante (Kante.AS1 und Kante.AS2 ) zwischen den beiden Anschlussstellen des Teilstucks(AS1 und AS2 ) liegen.

Der Primarschlussel setzt sich somit aus Route, Strasse, AS1 und AS2 zusammen. Ein Fremd-schlussel existiert nicht, da uber Strasse, AS1 und AS2 mehr als nur ein Tupel in der RelationKanten referenziert wird. Zusatzlich zu dem Schlussel sind noch der Start (Startpunkt) unddas Ziel (Zielpunkt) der Route angegegeben. Wenn man uber Startpunkt und Zielpunkt se-lektiert erhalt man alle Routen, die einem zu Verfugung stehen, vorausgesetzt sie sind in derRelation eingetragen. Eine Routine die einem mogliche Routen unter Angabe von Start undZiel ausgibt, muss extern ausgefuhrt werden. Dies ist allein durch einen SQL-Befehl nichtrealisierbar.

Prognosen: Unter der Relation Prognosen werden die Wetterprognosen gesammelt. JedePrognose erhalt eine eineindeutige Identifikationsnummer (Prog ID), die auch gleichzeitig alsPrimarschlussel fungiert. Die eigentliche Prognose gliedert sich in drei Teile. Der erste Teil

Page 74: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

62 6: Implementierung

gibt Raum und Zeit an auf den sich die Prognose sich bezieht, der zweite Teil versucht dasWetter zu beschreiben und der dritte Teil besteht aus einem Zuverlassigkeitsindex und demZeitpunkt der Meldung.

Der Raum auf den sich eine Prognose bezieht wird in diesem Modell in Landkreisen angege-ben, das Attribut Region bekommt, wie auch in der Relation Regio Map, das KFZ-Zeichendes Landkreises als Wert zugewiesen. Der Zeitraum, auf den sich die Prognose bezieht wirdauf zwei Attribute aufgeteilt. Mit Tag wird das Datum angegeben, an dem die Prognoseeintreffen soll und mit Tagesviertel wird noch genauer das Viertel des Tages angegeben, furdas die Prognose gelten soll (1. Viertel = 0h-6h, 2. Viertel = 7h-12h, 3. Viertel 12h-18h, 4.Viertel 18h-24h).

Das Wetter wird durch drei wesentliche Merkmale beschrieben, die Temperatur, der Nieder-schlag und der Nebel. Die Temperatur (Temp) wird in Grad Celsius angegeben. Der Nie-derschlag (Niederschlag) und der Nebel (Nebel) werden in die Kategorien ”kein“,“schwach“und ”stark“ eingeteilt.

Der dritte Teil enthalt einen Zuverlassigkeitswert in Form des Attributes ZW um die Zu-verlassigkeit des Eintretens des beschriebenen Wetterzustandes zu beurteilen. Dieser Indexwird anhand der Zuverlassigkeit der Quelle instanziiert. Zusatzlich wird noch der Meldungs-zeitpunkt in Meldungs Zeit berucksichtigt, um neben der Zuverlassigkeit der Quelle auchdas Alter der Prognosen zu berucksichtigen. Da zwischen Prognose und Zeitpunkt, fur dendie Meldung gilt, in Bezug auf das Wetter sich viel verandern kann, konnen somit aktuellerePrognosen schwerer gewichtet werden im Vergleich zu alteren Prognosen.

Die Relation enthalt mit den Raum- und Zeitangaben (Region, Tag, Tagesviertel) einenFremdschlussel, der ein Tupel in der zur Relation Prognosen korrespondierenden ”Meta-Relation“ Wetter identifiziert.

Wetter: Wetter bildet die Meta-Relation zu den Prognosen aus der gleichnamigen Relati-on. Uber das Tripel (Region,Tag,Tagesviertel) als Primarschlussel wird ein Tupel eindeutigidentifiziert. Jedes Tupel steht somit fur eine Region an einem bestimmten Tag zu einem be-stimmten Tagesviertel. Die Aufgabe der Relation Wetter ist es, aus den Prognosen die sich inOrt und Zeit gleichen einen einheitlichen Wetterzustand zu beschreiben, der die Unscharfe,die Unsicherheit und Ungenauigkeit aus den Prognosen aufnimmt.

Neben dem Primarschlussel enthalt die Relation noch die Beschreibung des Wetters. Fur diewird in dieser Relation aber eine andere Syntax gewahlt, als bei den Prognosen. Wahrend beiden Prognosen den Attributen Prognosen.Niederschlag und Prognosen.Nebel eine der Kate-gorien ”kein“,“schwach“ oder “stark“ zugeordnet wird, wird in der Relation Wetter jede dermoglichen Kategorien durch einen Zuverlassigkeitswert aufgenommen. Dies bedeutet, dasswir fur die Reprasentation des Niederschlags die Attribute Nieder Stark, Nieder Schwachund Nieder Kein verwenden, um die Fuzzy-Verteilung des zu erwartenden Regens auf dieKategorien ”stark“,“schwach“ und ”kein“ zu reprasentieren. Wie im Kapitel 5.4 beschrie-ben, brauchen wir die widersprechenden Informationen nicht zusatzlich aufzunehmen. DasKonzept, wie aus den Prognosen die Tupel in der Relation Wetter ihre Werte zugewiesenbekommen, wurde in Kapitel 5.4 erlautert. Eine genauere Beschreibung des Konzeptes folgtim Kapitel 6.1.2. Fur den Nebel erfolgt die Reprasentation analog zu der Darstellung desNiederschlages in den Attributen Nebel Stark, Nebel Schwach, Nebel Kein. Aus Sicht desAuofahrers kann die Temperatur zur Beantwortung der Frage ”Kann es frieren oder nicht?“reduziert werden. Deswegen existieren zur Beschreibung der Temperatur lediglich die Attri-bute Glatt und Unglatt, welche die dafur und dagegensprechenden Argumente bezuglich eine

Page 75: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

6.1: Datenbankschema 63

gefrorenen Bodens vereinen. Auch in diesem Zusammenhang wird auf eine genauere Beschrei-bung, zu der Transformation der Attribute Prognosen.Temp zu Gefrierpunkt, in Kapitel 6.1.2verwiesen.

Uber die Relation Regio Map konnen die Wetterzustande von den Region auf die Anschluss-stellen ubertragen werden.

Detektor: Bei der Betrachtung von Detektoren wird sich auf einen Detektor pro Kantebeschrankt. Dies ist auch keine Beschrankung der Allgemeinheit, da bei mehreren Detekto-ren pro Kante die Ergebnisse zu einem logischen Detektor aggregiert werden konnen. DieDetektordaten werden in diesem Schema unter einem Takt von einer Stunde aggregiert.

Unter diesen Pramissen dient die Bezeichnung der Kante (Strasse, AS1 und AS2 ) unddie Zeitangabe Datum Stunde (enthalt das Datum und die Zeit zur vollen Stunde) alsPrimarschlussel. Mit Datum Stunde ist immer das Stunden-Intervall nach der angegebenenZeit gemeint.

Die eigentlichen Detektor-Informationen sind in den Attributen Strom, Tempo, Dichte undWfvS enthalten. Strom enthalt die Anzahl der Fahrzeuge, die in dem Stundenintervall denDetektor uberquert haben. Unter Tempo wird die durchschnittliche Geschwindigkeit derFahrzeuge notiert und Dichte enthalt die durchschnittliche Fahrzeugdichte, also den Wertvon Strom im Verhaltnis zu dem Wert von Tempo.

Fur die bessere Interpretation der Werte sind in der Relation noch die ZusatzinformationenEreignis und Wochentag enthalten. Uber das Attribut Ereignis werden bestimmte Ereignissenotiert, die Einfluss auf das Verkehrsaufkommen zu dem Zeitpunkt aus Datum Stunde gehabthaben (z.B. Ferienanfang, Fußballspiel). Uber das Attribut Wochentag wird der Einfluss desWochentages auf das Verkehrsaufkommen festgehalten. Der Wochentag ist zwar auch ausdem Attribut Datum Stunde ableitbar, allerdings fuhrt das zu zusatzlichem Rechenaufwandbei der Selektion des Verkehrsaufkommen nach Wochentagen.

Um die Verwertbarkeit der Detektordaten festzulegen, enthalt die Relation Detektor aucheinen Zuverlassigkeitswert ZW. Obwohl die Detektordaten im Allgemeinen zuverlassige Wer-te liefern, so kann man Werten, bei denen Beeintrachtigungen des Detektors vorlagen eineniedrigere Zuverlassigkeit ZW zuordnen, oder Werten die, zeitlich gesehen, weit zuruck liegeneinen niedrigeren Zuverlassigkeitswert zuordnen, um diese Werte im Vergleich zu akutellerenWerten bei einer Prognose schwacher zu gewichten.

Wie oben schon angesprochen, fungiert das Tripel (Strasse, AS1, AS2 ) als Fremdschlusselfur die Relation Kanten.

Baustellen: Die Relation Baustellen orientiert sich in seinem Aufbau an dem Baustellenin-formationssystem des Bundesministeriums fur Verkehr [3]. Mit den Attributen Strasse, AS1und AS2 wird — wie gewohnt — das Autobahnteilstuck identifiziert, auf dem die Baustelleliegt. Mit km1 und km2 wird die Lage der Baustelle genauer beschrieben, daraus ergibt sichauch der Wert Lange, der die Lange der Baustelle angibt. Die Dauer der Baustelle wird uberdie Attribute von (Startzeitpunkt) und bis (Endzeitpunkt) angeben.

Der eigentlich Eingriff der Baustelle in den Verkehr wird uber die Attribute WfvS und Geschwbeschrieben. WfvS steht dabei fur den Wegfall von Spuren und Geschw fur die Herabsetzungder Hochstgeschwindigkeit auf einen der Werte 60km/h oder 80km/h. Mit Art wie der Grundfur die Baumaßnahme beschrieben

Page 76: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

64 6: Implementierung

Uber die Attribute Strasse, AS1 und AS2 wird — wie oben geschrieben — die Autobahn-teilstucke identifiziert, die von der Baustelle betroffen sind. Analog zu den Relationen Pro-gnosen und Wetter existiert zur Relation Baustellen ebenfalls eine Meta-Relation Storungen.Durch das Autobahnteilstuck werden alle Tupel in der Meta-Relation selektiert, die von derBaustelle betroffen sind.

Meldungen: Unter Meldungen werden Storungsmeldungen jeglicher Art gespeichert, egalob von Verkehrsteilnehmern oder von polizeilicher Stelle. Die Meldungen werden eindeutiguber eine Identifikationsnummer Meldungs ID identifiziert. Analog zur Relation Baustellenwird uber Strasse, AS1 und AS2 das Teilstuck der Straße identifiziert, auf dem die Storungvorliegt.

Die eigentliche Storung wird durch die Attribute Fluss, WfvS, Geschw und Storungstypbeschrieben. Mit Fluss wird der Verkehrsfluss an der Stelle der Storung beschrieben, alsmogliche Auspragungen existieren die Kategorien ”frei“, ”zahfließend“ und ”gestaut“. DurchWfvS wird — wie in der Relation Baustellen — die Anzahl der wegfallenden Spuren inder Storungsstelle notiert. Wenn eine Herabsetzung der Hochstgeschwindigkeit auf einender Werte 60km/h oder 80km/h erfolgt, wird diese Geschwindigkeit in Geschw vermerkt.Storungstyp dient der Beschreibung der Storung (z.B. Markierungsarbeiten, Unfall etc.).

Zur Beurteilung einer Storungsmeldung wird in der Relation Storungen ebenfalls ein Zu-verlassigkeitswert ZW gefuhrt, in dem die Zuverlassigkeit der Quelle notiert wird. Um ak-tuellere Meldungen schwerer gewichten zu konnen, wird auch der Zeitpunkt der Meldungnotiert.

Analog zu der Relation Baustellen dient das Autobahnteilstuck, welches durch die AttributeStrasse, AS1 und AS2 beschrieben wird, zur Selektion von Tupeln in der Meta-Relation.Die dadurch selektierten Tupel sind von der Storung betroffen.

Storungen: Die Relation Storungen bildet die Meta-Relation zu den Relationen Baustel-len, Meldungen und Detektor. Sie vereinigt die unterschiedlichen Indizien fur Storungen injeweils einem Tupel pro gestorter Kante. Daher kann ein Tupel in der Relation durch dieAttribute Strasse, AS1 und AS2 eindeutig identifiziert werden.

Analog zur Relation Wetter, werden in dieser Relation ebenfalls den jeweiligen Attributs-auspragungen der zugeordneten ”Unterrelationen“ Baustellen, Storungen und Detektor Zu-verlassigkeitswerte zugeordnet. Folglich erhalten die Attributsauspragungen ”frei“, ”zahflie-ßend“ und ”gestaut“ des Attributes Meldungen.Fluss die Verteilungswerte Fl frei, Fl zahund Fl stau zugewiesen. Die Fluss-Werte aus Meldungen.Fluss bilden hier somit eine Fuzzy-Verteilung uber die drei Auspragungen. Wenn aktuelle Dichte-Werte aus der Relation Detek-tor vorliegen, werden die ebenfalls in die Fluss-Verteilungswerte aufgenommen. Der genaueAblauf der Transformation der Werte wird im nachsten Kapitel 6.1.2. beschrieben. Die Aus-pragungen der Attribute Meldungen.WfvS, Baustellen.WfvS, Meldungen.Geschw und Bau-stellen.Geschw werden ebenfalls in Zuverlassigkeitswerten ubernommen. Bei diesen Wertenist allerdings zu beachten, dass es sich hier nicht um eine Fuzzy-Verteilung handelt, da z.B.der Wegfall von zwei Spuren und ein gleichzeitiger Wegfall von nur einer Spur antilogischist. Bei den Auspragungen des Wegfalls von Spuren und dem Herabsetzen der Geschwin-digkeit kann in der Realitat immer nur eine scharfe Zuordnung zu einem der Auspragungenstatt finden. In diesem Fall dienen die Attributwerte nicht als Fuzzy-Verteilung sondern zurBeurteilung welche der Auspragungen am sichersten gilt.

Page 77: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

6.1: Datenbankschema 65

Der Primarschlussel Strasse, AS1 und AS2 dient auch gleichzeitig als Fremdschlussel fur dieRelation Kanten, dadurch ist fur jede Kante die Storung genau bestimmbar.

6.1.2 Prozeduren

In diesem Abschnitt werden Trigger, Prozeduren und Funktionen beschrieben. Zuerst werdendie Trigger vorgestellt, die ihrerseits auf Prozeduren zugreifen. So werden die Trigger vorerstnur grob beschrieben: Welche Prozeduren/Funktionen rufen sie auf? Warum rufen sie dieseauf? Anschließend werden die Prozeduren beschrieben, auf welche die Trigger zugreifen —um die Trigger genauer zu beschreiben. Abschließend wird eine Prozedur vorgestellt mit dereine Routenklassifizierung vorgenommen wird.

Meld Neu: Wenn in der Relation Meldungen ein neues Tupel eingefugt wird (also eineneue Meldung aufgenommen wird), wird der Trigger Meld Neu aktiviert. Er bewirkt, dassdie Informationen der Meldung in die Relation Storung aufgenommen wird.

Jeder Meldung ist — wie im vorherigen Abschnitt beschrieben — ein Zuverlassigkeitsindexangehangt. Um aktuellere Meldungen gegenuber alteren Meldungen ein großeres Gewichtzu verschaffen, wird eingangs bei allen Meldungen, die den Streckenabschnitt der neuenMeldung betreffen, der Zuverlassigkeitsindex modifiziert. Ist eine Meldung 15 Minuten alterals die neue Meldung, verringert sich die Zuverlassigkeit der alteren Meldung um 0.1 Punkte,das heißt, das Attribut ZW der Meldung wird um 0.1-Punkte herabgesetzt. Dies fuhrt dazu,dass alte Meldungen bis hin zur Nichtberucksichtigung (ZW = 0.0) durch Neuere ersetztwerden. Sinkt ZW auf 0.0, so wird die Meldung entfernt. Andere Meldungen dokumentierendie Storung in dem Bereich aktueller.

Anschließend findet die eigentliche Aktualisierung der Relation Storung statt, dafur werdendie Daten der neuen Meldung an die Prozedur Meld2Stoer ubergeben, welche die RelationStorungen in den Bereichen der Meldung aktualisiert.

Prog Neu: Beim Eingang einer neuen Prognose (neues Tupel in Relation Prognosen) wirdder Trigger Prog Neu aktiviert. Dieser bewirkt die Aufnahme der Prognose in die RelationWetter.

Im Gegensatz zu dem Trigger Meld Neu mussen bei diesem Trigger nicht altere Meldungen inihrer Zuverlassigkeit herabgesetzt werden. Bei den Meldungen hat man das Szenario, dass dieMeldungen, bei ihrem Eingang die Storung aktuell beschreiben, sie zum Eingangszeitpunkt(in Abhangigkeit von der Quelle naturlich) große Zuverlassigkeit bieten. Da aber im Laufeder Zeit die Zuverlassigkeit sinkt, weil sie einen historischen Zustand beschreiben, aus demsich der aktuelle Zustand entwickelt hat, ist es notwendig altere Meldungen abzuwerten. Beidem Wetter ergibt sich diese Situation nicht, da Prognosen a priori auf einen festen Zeitpunktin der Zukunft (in diesem Modell auf ein Viertel eines bestimmten Tages) ausgerichtet sindund bei der Erstellung die Unzuverlassigkeit, in Anbetracht der Zeitdifferenz und eventuellenWetterinstabilitaten, bekannt ist, kann dies schon bei der Erstellung verarbeitet werden undmuss nicht nachtraglich verandert werden, bzw. es kann eine Abwertung solcher Prognosenuber die Zeit nicht generell durchgefuhrt werden.

Eine Anderung der alten Eintrage uber diesen Trigger findet nicht statt, jedoch sollte beimEinfugen darauf geachtet werden, dass Prognosen von derselben Quelle fur den gleichen Zeit-raum nicht nebeneinander eingefugt werden sollten. Statt dessen muss die alte Prognose zurneuen Prognose abgeandert werden, der Fall wird von dem Trigger Prog Change abgefangen.

Page 78: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

66 6: Implementierung

Die eigentlich Aufnahme des Tupels in der Relation Wetter wird durch die Aktivierung derProzedur Prog2Wetter — mit den Daten des neuen Tupels als Parameter — veranlasst.

Prog Change: Der Trigger Prog Change wird bei der Anderung oder Loschung eines Tu-pels aus der Relation Prognosen aktiviert. In diesem Fall wird die Prozedur ProgFullWetterangestossen, die im Vergleich zu der Prozedur Prog2Wetter nicht nur das geanderte Tupeleinbringt, sondern die Werte fur den im Tupel angegebenen Zeitraum (Datum, Tagesvier-tel) aus allen Prognosen zu diesem Zeitraum neu bestimmt. Der Grund dafur liegt in derTatsache, dass Prognosen die schon in der Relation Wetter verarbeitet wurden, nach einerAnderung oder Loschung ihren alten Einfluss verlieren und dem Wetterszenario entzogenwerden mussen, dies geht nur uber eine Neuberechnung der Zuverlassigkeitswerte auf Basisaller Prognosen.

Meld2Stoer: Die Prozedur Meld2Stoer beschaftigt sich mit der Einbeziehung der Tupelder Relation Meldungen in die Tupel der Relation Storungen. Sie wird durch den TriggerMeld2Stoer aktiviert und erhalt die folgenden Eingangsparameter des neu einzufugendenTupels:

str Bezeichner fur die Straße auf der die Storung vorliegta1 Bezeichner fur die letzte Anschlussstelle vor der Storunga2 Bezeichner fur die erste Anschlussstelle nach der Storungflow Kategorie des Flussesweg Anzahl der Spuren die wegfallenspeed Angabe der verringerten Hochstgeschwindigkeitzw Zuverlassigkeitswert

Zu Beginn der Prozedur werden alle Tupel aus der Relation Storungen, die im Bereichstr,a1,a2 liegen mit einem Cursor referenziert. Anschließend werden Zwischenvariablen, dieden Zuverlassigkeitswerten der Relation Storungen entsprechen, nach folgendem Schema in-stanziiert:

1. Je nach der Kategorie des Flusses flow wird die Zwischenvariable des korrespondierendenZuverlassigkeitswertes mit dem Wert zw belegt. Formal ausgedruckt:

flow = ”frei“ ⇒ Fl frei := zw

flow = ”zahlfießend“ ⇒ Fl zah := zw

flow = ”gestaut“ ⇒ Fl stau := zw

Die jeweils anderen beiden Variablen erhalten den Zuverlassigkeitswert 0. Sollte dieVariable flow nicht belegt sein, werden alle Verteilungswerte mit 0 instanziiert.

2. Abhangig von der Anzahl der wegfallenden Spuren (Wert von weg) werden die Zwischen-variablen der korrespondierenden Indizes, nach dem folgenden Schema instanziiert:

weg = 0 ⇒ WfvS 0 := zw

weg = 1 ⇒ WfvS 1 := zw

weg = 2 ⇒ WfvS 2 := zw

weg = 3 ⇒ WfvS 3 := zw

Page 79: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

6.1: Datenbankschema 67

weg = 4 ⇒ WfvS 4 := zw

Die jeweils anderen vier Zuverlassigkeitswerte erhalten den Wert 0. Sollte die Variableweg nicht belegt sein, werden alle Indizes mit 0 instanziiert.

3. Im letzten Schritt werden die Zwischenvariablen zu den Geschwindigkeitswerten belegt.Die Belegung erfolgt durch die Variable speed analog zu den anderen beiden Punkten:

speed = 60 ⇒ Ge 60 := zw

speed = 80 ⇒ Ge 60 := zw

speed = NULL ⇒ Ge frei := zw

Die jeweils anderen beiden Zuverlassigkeitswerte werden mit 0 instanziiert, aus demgleichen Grund, wie unter Punkt 2.

Im Anschluss an die Instanziierung der Zwischenvariablen wird das erste Tupel, das der Cur-sor referenziert, betrachtet. Fur dieses Tupel werden die potentiellen Belegungen der Zwi-schenvariablen (new.FL frei,new.FL zah,. . .) analog zu dem oben beschriebenen Verfahrenbestimmt, allerdings werden die Zwischenvariablen nicht direkt mit den Werten des jetzigenTupels instanziiert (dann ware die Initialisierung nutzlos gewesen), sondern uber den Ver-einigungsoperator fur cis (siehe Kapitel 4.6.2 auf Seite 37) mit den bisherigen Belegungenverknupft, da nur die β-Seite der Zuverlassigkeitsindizes mitgefuhrt wird, braucht auch nurdiese vereint zu werden, was einer Verknupfung mit dem Maximum-Operator gleich kommt:

Fl frei := max(Fl frei, new.F l frei)...

WfvS 0 := max(WfvS 0, new.WfvS 0)...

Ge 60 := max(Ge 60, new.Ge 60)...

Diese Verknupfung wird fur alle Tupel, die uber den Cursor referenziert werden, wiederholt.Sind alle Tupel in den Zwischenvariablen verarbeitet, werden diese Zwischenvariablen alsneue Attributwerte in die entsprechenden Tupel der Relation Storungen (alle Tupel derenLokation innerhalb des gestorten Bereichs liegt) eingefugt.

Prog2Wetter: Die Prozedur Prog2Wetter wird von dem Trigger Prog Neu ausgelost undarbeitet neue Wetterprognosen aus der Relation Prognosen in die Relation Wetter ein. AlsParameter bekommt sie die Werte der neuen Prognose ubergeben:

reg Bezeichner fur die addressierte Region der Prognosedatum Tag fur den die Prognose giltviertel Tagesviertel fur das die Prognose giltte Temperatur in nieder Starke des Niederschlagesneb Starke des Nebelszw Zuverlassigkeitswert

Page 80: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

68 6: Implementierung

Im Gegensatz zur Prozedur Meld2Stoer muss hier nur das ubergebene Tupel in die RelationWetter eingearbeitet werden. Fur die Relation Wetter muss der Zuverlassigkeitswert fur dieGefrierpunkt-Gefahr, die Werte fur die Attributsauspragungen des Niederschlags und dieWerte fur die Attributsauspragungen des Nebels bestimmt werden.

1. Wie in Kapitel 6.1.1 beschrieben, konzentriert sich dieses Modell bei der Temperatur nurauf die Frage, ob die Temperatur die Voraussetzung fur Glatte schafft oder nicht, daTemperaturen weit uber 0keine Auswirkungen auf den Autofahrer haben. Die Bele-gung der Zwischenvariablen (Eis,Heiss) der Zuverlassigkeitswerte Glatt, Unglatt wirduber eine Funktion aus dem Parameter te bestimmt. Dabei wird davon ausgegangen,dass ab +4die Gefahr fur Glatteis beginnt und mit niedrigerer Temperatur ansteigt.

(Eis, Heiss) =

〈(0, zw)〉 : te ≥ 4〈(zw(1− te/4), zw(te/4))〉 : 0 < te < 4

〈(zw, 0)〉 : te ≤ 0(14)

Wenn der Parameter te keinen Wert enthalt werden die Werte Eis und Heiss mit 0belegt.

2. Die Bestimmung der Werte zu den Attributsauspragungen des Niederschlages erfolgtanhand der Belegung des Parameters nieder. Formal ausgedruckt:

nieder = ”kein“ ⇒ Nieder kein := zw

nieder = ”schwach“ ⇒ Nieder schwach := zw

nieder = ”stark“ ⇒ Nieder stark := zw

Die jeweils anderen beiden Auspragungen erhalten den Wert 0 zugewiesen. Sollte derParameter nieder nicht belegt sein, erhalten alle Werte den Wert 0 zugewiesen.

3. Die Bestimmung der Werte zu den Attributsauspragungen des Nebels erfolgt anhandder Belegung des Parameters nebel, ananlog zu der Belegung unter Punkt 2. Formalausgedruckt:

nebel = ”kein“ ⇒ Nieder kein := zw

nebel = ”schwach“ ⇒ Nieder schwach := zw

nebel = ”stark“ ⇒ Nieder stark := zw

Die jeweils anderen beiden Auspragungen erhalten den Wert 0 zugewiesen. Sollte derParameter nebel nicht belegt sein, erhalten alle Werte den Wert 0 zugewiesen.

Die Belegung dieser Werte wird anschließend in die Relation Wetter eingebracht, indem diebisherigen Belegungen der Werte mit den neuen Belegungen vereint werden (Bestimmungdes Maximums).

ProgFullWetter: Die Prozedur ProgFullWetter agiert in ihrem Kern genauso wie dieProzedur Prog2Wetter und erhalt die gleichen Parameter. Der Unterschied zur ProzedurProg2Wetter liegt in der Tatsache, dass in dieser Prozedur der entsprechende Tupelwertder Relation Wetter (Wetter.Region = reg, Wetter.Tag = datum und Wetter.Tagesviertel= viertel) komplett neu bestimmt wird. Diese komplette Neubestimmung wird durch eineAnderung oder Loschung einer Prognose erforderlich, welche die Daten in dem Wettertupelbeeinflusst hatte.

Page 81: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

6.2: Klassifikation 69

Fur diese Neubestimmung wird am Anfang der Prozedur ein Cursor erstellt der auf alle Pro-gnosen, die sich auf die Region reg am Tag datum im Tagesviertel viertel beziehen, verweist.Anschließend werden Zwischenvariablen, welche die Verteilungswerte uber den Attributs-auspragungen der Relation Wetter reprasentieren, durch die ubergebenen Parameter genauso instanziiert wie in der Prozedur Prog2Wetter beschrieben. Im Anschluss wird sukzessiveaus den Tupeln, auf die der Cursor verweist, Verteilungswerte nach dem gleichen Verfahrengebildet und anschließend mit den Verteilungswerten der Zwischenvariablen vereint.

Die zum Schluss resultierenden Verteilungswerte der Zwischenvariablen werden dann anstelleder bisherigen Werte in das entsprechende Tupel der Relation Wetter eingefugt.

6.2 Klassifikation

In diesem Abschnitt wird die Umsetzung des Konzeptes zur Datenabfrage aus Kapitel 5.3beschrieben. In diesem Modell werden die einzelnen Routen nach ihrem Verkehrsaufkommen,den Storungen auf der Strecke und dem Wetter klassifiziert (siehe Kapitel 5.3.1. Fur dieseKlassifikationen werden zunachst jeweils die einzelnen Kanten aus denen eine Route bestehtklassifiziert. Der Mittelwert aus den Werten der einzelnen Kanten bildet dann die Klassifika-tion der Gesamtroute. Zu jedem der Kontexte Verkehrsaufkommen, Storungen und Wettergibt es eine Funktion, welche eine Wertigkeit der Kante in dem Kontext vornimmt (von 0 furschlecht bis 1 fur gut). Im Folgenden werden die Prozeduren/Funktionen beschrieben uberdie die Klassifizierung vorgenommen wird.

Klassifizierung: Die Prozedur Klassifizierung ist die Hauptprozedur fur die Klassenein-teilung der Routen. Die Prozedur erhalt als Eingangsparameter die Werte:

SP Startpunkt der RouteZP Zielpunkt der RouteZeit Fur welchen Zeitpunkt erfolgt die RoutenplanungWT Wochentag der Reiseevent Besondere Ereignisse, die zu dem Tag stattfinden

Uber den Startpunkt SP und den Endpunkt ZP der Route werden aus der Relation Routendie Kanten selektiert, die fur die Routenplanung interessant sind. Im Anschluss nimmt dieProzedur Klassifizierung ein dreistufige Klasseneinteilung vor.

Im ersten Schritt werden fur jeden Streckenabschnitt die einzelnen Kanten uber dieFunktion Classifier klassifiziert. Der Funktion Classifier werden die Koordinaten derKante (Strasse,AS1,AS2 ) und die Parameter Zeit,WT und event ubergeben. Der Ruck-gabewert ZW Verteilung ist ein Oktupel, das die Zuteilung der Kante zu den einzelnenKlassen enthalt (Die i-te Komponente gibt die Zugehorigkeit zu Klasse i an).

Im zweiten Schritt werden die Klassenzuteilungen der einzelnen Kanten eines Strecken-abschnittes zu einer Klassenzuteilung fur den gesamten Streckenabschnitt aggregiert,indem die einzelnen Oktupel komponentenweise summiert und anschließend durch dieAnzahl der Kanten dividiert werden. Sei n die Anzahl der Kanten eines Streckenab-

Page 82: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

70 6: Implementierung

schnittes, dann ist die Aggregation formal ausgedruckt:

zw11

zw12

zw13

zw14

zw15

zw16

zw17

zw18

T

+ · · ·+

zwn1

zwn2

zwn3

zwn4

zwn5

zwn6

zwn7

zwn8

T

· 1n

(15)

Im dritten Schritt wird die Klassenzuteilung der gesamten Route bestimmt. Das Ver-fahren verlauft analog zu dem Verfahren aus dem zweiten Punkt. Die Oktupel derStreckenabschnitte einer Route werden addiert, indem die einzelnen Komponenten je-weils addiert werden

Zum Abschluss gibt die Prozedur Klassifikation die Klasseneinteilungen der Routen in Ta-bellenform aus.

Classifier: Die Funktion Classifier wird von der Prozedur Klassifikation aufgerufen underhalt die Ubergabeparameter

str Name der Straßea1 Nummer der ersten Anschlussstellea2 Nummer der zweiten Anschlussstelledatum Zeitpunkt der Reisewt Wochentag der Reiseevent Großereignisse wahrend der Reisezeit

Als Ruckgabe liefert die Funktion Classifier ein Oktupel mit der Klasseneinteilung derKante. Die Funktion Classifier hat eine Schnittstellenfunktion zwischen der ubergeordne-ten Prozedur Klassifizierung und den Bewertungsfunktion Class Stoer, Class Wetter undClass Verkehr, welche die µ-Werte (siehe Kapitel 5.3.1) der einzelnen Kontexte Storung,Wetter und Verkehr bestimmen. Die Funktion Classifier ruft die Bewertungsfunktionen wiefolgt auf:

Die Funktion Class Stoer erhalt als Ubergabeparameter die Koordinaten der Straße(str,a1,a2 ) und das Reisedatum datum. Als Funktionswert wird der Wert µStorung

zuruckgeliefert.

Die Funktion Class Wetter erhalt als Ubergabeparameter ebenfalls die Koordinatender Straße und das Reisedatum. Das Ergebnis der Funktion ist der Wert µWetter.

Die Funktion Class Verkehr wird mit den Koordinaten der Straße, dem Zeitpunkt derReise datum, dem Wochentag der Reise wt und den Ereignissschlussel als Parameterubergeben. Als Ruckgabewert liefert die Funktion den Wert µV erkehr.

Aus diesen Werten wird anschließend die Klasseneinteilung der Kante (str, a1, a2 ) vorgenom-men. Dafur wird der Operator ”kompensatorisches Und“ (siehe Kapitel 4.8.1) verwendet umdie Zugehorigkeit zu jeder Klasse zu bestimmen. Die Klassenzugehorigkeiten werden dann in

Page 83: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

6.2: Klassifikation 71

einem Oktupel (C1, C2, . . . , C8) gespeichert. Im Detail sieht das wie folgt aus, mit komp Undwird eine Hilfsfunktion bezeichnet, welche die Verknupfungsoperation (”kompensatorischesUnd“) uber die drei Werte durchfuhrt:

C1 := komp Und(µV erkehr, µStorung, µWetter)C2 := komp Und(µV erkehr, µStorung, 1− µWetter)C3 := komp Und(µV erkehr, 1− µStorung, µWetter)C4 := komp Und(µV erkehr, 1− µStorung, 1− µWetter)C5 := komp Und(1− µV erkehr, µStorung, µWetter)C6 := komp Und(1− µV erkehr, µStorung, 1− µWetter)C7 := komp Und(1− µV erkehr, 1− µStorung, µWetter)C8 := komp Und(1− µV erkehr, 1− µStorung, 1− µWetter)

Zum Schluss wird das Oktupel (C1, C2, . . . , C8) an die aufrufende Prozedur Klassifizierungzuruckgeliefert.

Class Stoer: Die Funktion Class Stoer ist die Umsetzung der Funktion 10 auf Seite 54.Sie erhalt die folgenden Ubergabeparameter:

str Name der Straßea1 Nummer der ersten Anschlussstellea2 Nummer der zweiten Anschlussstelledatum Reisedatum

Die wesentlichen Daten, auf die die Funktion zugreifen muss, sind in der Relation Storungenenthalten. Die kann aber zur Storungsberechnung nur am aktuellen Tag verwendet werden,weil die Informationen, aus denen die Relation aufgebaut ist, in der Regel nur sehr befristeteGultigkeit besitzen. Da ein Stau sich spatestens am Ende eines Tages auflost, ein Unfallautoirgendwann geborgen wird und die Markierungsarbeiten beendet sind. Die einzige Storungdie langerfristig vorherrscht ist die Baustelle. Deswegen erfolgt am Anfang der Funktion einDatumsprufung. Ist das Reisedatum datum mit dem aktuellen Systemdatum identisch, sokann die Relation Storung verwendet werden, ansonsten wird nur auf die Relation Baustellenzugegriffen.

Fur den Fall, dass das Reisedatum mit dem Systemdatum identisch ist, wird uber die Straßen-koordinaten (str,a1,a2 ) das Tupel aus der Relation Sorungen bestimmt, welches die Storun-gen in diesem Bereich beschreibt. Daraus werden die Attribute fur die Funktion 10 wie folgtbestimmt:

Fluss Der Fluss-Wert wird aus der Fuzzy-Verteilung uber den Attributen Storungen.Fl frei,Storungen.Fl zah und Storungen.Fl stau bestimmt. Dies erfolgt durch Defuzzifizierungnach der Hohenmethode. Formal ausgedruckt:

Fluss = Fl zah·0.5+Fl stauF l frei+Fl zah+Fl stau

Eine Ausnahme ergibt sich, wenn alle Attribute mit 0 belegt sind (keinerlei Informatio-nen) vorliegen, da dies zu einer Division durch 0 fuhren wurde. In diesem Fall wird derFluss-Wert mit 1 belegt, da davon auszugehen ist, dass der Fluss ungestort ist solangesich niemand meldet.

Page 84: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

72 6: Implementierung

WfvS Der WfvS-Wert wird aus der Verteilung der Zuverlassigkeitswerte uber den Attribu-ten WfvS 0, WfvS 1, WfvS 2, WfvS 3 und WfvS 4 bestimmt.

Im ersten Schritt wird die Anzahl der wegfallenden Spuren Wf Spuren durch das Attri-but mit dem hochsten Zuverlassigkeitswert ausgewahlt. Haben mehrere Attribute dengleichen Zuverlassigkeitswert, wird die hohere Anzahl wegfallender Spuren ausgewahlt(Vorsichtsprinzip). Haben allerdings alle Attribute den Wert 0, erhalt Wf Spuren auchden Wert 0, da davon auszugehen ist, wenn nicht auf wegfallenden SPuren hinweist,dass dann auch kein Spur wegfallt.

Im zweiten Schritt wird der Kapazitatsverlust durch die Division der wegfallenden Spu-ren Wf Spuren durch die Kapazitat der Kante (Strasse.Spuren ermittelt. Dann ergibtsich folgender WfvS-Wert:

WfvS = 1− Wf SpurenStrasse.Spuren

Geschwindigkeit Der Geschwindigkeitswert wird aus der Verteilung der Zuverlassigkeits-werte uber den Attributen Ge frei, Ge 60 und Ge 80 ermittelt.

Im ersten Schritt wird — wie bei dem Wegfall von Spuren — das Attribut mit derhochsten Zuverlassigkeit als Wert fur Geschw ausgewahlt, sollten mehrere in Fragekommen, werden die Merkmalswerte in der Reihenfolge ”60km/h“, ”80km/h“ und ”frei“praferiert. Sollten alle Attribute den Wert 0 besitzen, erhalt Geschw den Wert ”frei“,aus den selben Grunden wie oben.

Im zweiten Schritt wird der Geschwindigkeitswert nach der folgenden Funktion ermit-telt, der Hintergrund zu dieser Funktion findet sich in Kapitel 5.3.1.

Geschwindigkeit =

1 : Geschw =′ frei′

0.62 : Geschw =′ 80km/h′

0.47 : Geschw =′ 60km/h′

Aus diesen ermittelten Werten kann anschließend der Storungswert µStorung anhand derFunktion 10 ermittelt werden.

Class Wetter: Die Funktion Class Wetter ist die Umsetzung der Funktion 13 auf Seite55. Als Ubergabeparameter erhalt sie die Werte:

str Name der Straßea1 Nummer der ersten Anschlussstellea2 Nummer der zweiten Anschlussstelledatum Reisedatum

Die Funktion ermittelt aus den Straßenkoordinaten die Wetterregion(en) durch die die Kanteverlauft. Anhand der Relation Regio Map werden die Anschlussstellen den Regionen zugewie-sen. Uber die Region und das Reisedatum kann aus der Relation Wetter das Wetterszenariofur diese Region ermittelt werden. Um den Wert µWetter zu bestimmen mussen zuerst dieWerte fur die Attribute des Wetterszenarios (Nieder, Nebel, Glatteis) defuzzifiziert werden:

Page 85: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

6.2: Klassifikation 73

Nieder Der Niederschlagswert wird uber eine Defuzzifizierung durch die Hohenmethodeaus den Verteilungswerten uber den Attributen Nieder kein, Nieder schwach und Nie-der stark bestimmt. Formal ausgedruckt:

Nieder = Nieder schwach·0.5+Nieder starkNieder kein+Nieder schwach+Nieder stark

Sollten alle drei Attribute mit 0 belegt sein, wird Nieder mit 0 belegt.

Nebel Der Nebelwert wird uber eine Defuzzifizierung durch die Hohenmethode aus denVerteilungswerten uber den Attributen Nebel kein, Nebel schwach und Nebel stark be-stimmt. Formal ausgedruckt:

Nebel = Nebel schwach·0.5+Nebel starkNebel kein+Nebel schwach+Nebel stark

Sollten alle drei Attribute mit 0 belegt sein, wird Nebel mit 0 belegt.

Glatteis Der Glatteiswert wird aus dem Verhaltnis von glatteisbefurwortenden Informatio-nen Eis im Verhaltnis zur Gesamtinformation zu Glatteis (glatt+unglatt) bestimmt:

Glatteis = glattglatt+unglatt

Sollten beide Attribute Eis und Heiss mit 0 belegt sein, erhalt Glatteis ebenso denWert 0.

Aus den drei Attributen Nieder, Nebel und Glatteis kann dann im Anschluß uber die Funktion13 der Wert von µWetter bestimmt werden.

Fur den Fall, dass die beiden Anschlusstellen in zwei unterschiedlichen Wetter-Regionenliegen, muss der µWetter-Wert fur beide Regionen bestimmt werden und anschließend beideWerte uber das arithmetische Mittel aggregiert werden. Der entstehende µWetter-Wert wirdam Ende der Funktion an die aufrufende Funktion zuruckgegeben.

Class Verkehr: Die Funktion Class Verkehr bestimmt den µV erkehr-Wert durch die Funk-tion 8 auf Seite 53. Als Ubergabeparameter werden die folgenden Werte ubergeben:

str Name der Straßea1 Name der ersten Anschlussstellea2 Name der zweiten Anschlussstellestunde Reisestundewt Wochentag der Reiseevent Großereignisse wahrend der Reise

Um den µV erkehr-Wert fur das zu erwartende Verkehrsaufkommen zu bestimmen ist zuersteine Aggregierungs-Anfrage uber den gespeicherten Detektorwerten notwendig. Dafur wirdzuerst nach alle verwendbaren Daten selektiert. Darunter fallen alle Detektordaten, die aneinem gleichen Wochentag wt zu der gleichen Uhrzeit stunde und bei gleichen Großereignissenevent ermittelt wurden. Aus diesen Detektordaten wird anschließend die durchschnittlicheDichte bestimmt. Aus dem Dichtewert kann uber die Funktion 8 der Ruckgabewert µV erkehr

der Funktion bestimmt werden.

Page 86: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

74 6: Implementierung

6.3 Szenarioablauf

Die Routenplanung soll alle Routen von Karlsruhe nach Darmstadt bewerten, anhand des zuerwartenden Verkehrsaufkommen, dem Wetter und den Storungen auf der Strecke. Die Be-wertung findet anhand einer Klassifizierung nach den drei Kontexten statt. Die zu Verfugungstehenden Routen sind nochmals in Tabelle 30 aufgefuhrt.

Autobahnabschnitte Lange [km]

Route 1 1-3-6-10 101,49

Route 2 1-3-6-9-11 109,09

Route 3 1-3-4-7-8-10 111,94

Route 4 1-3-4-7-11 107,8

Route 5 1-2-5-6-10 116,37

Route 6 1-2-5-6-9-11 123,97

Route 7 1-2-7-8-10 110,04

Route 8 1-2-7-11 105,9

Tabelle 30: Routen von Karlsruhe nach Darmstadt

Das Wetter — in dem Szenario — ist in den Landkreisen Karlsruhe, Heidelberg, Mannheimund Darmstadt wie in Abbildung 19 modelliert. Nur im Bereich um das Zielgebiet Darmstadtbesteht Glattegefahr. In allen Bereichen kann es schwach bis stark regnen.

1 2

3

4 / 5

6 7

8 / 9

1 0

1 1

Karlsruhe

Glatt := 0.0 Unglatt := 0.8 Nieder_Stark := 0.0 Nieder_Schwach := 0.7 Nieder_Kein := 0.8 Nebel_Stark := 0.0 Nebel_Schwach := 0.0 Nebel_Kein := 0.8

Mannheim

Glatt := 0.0 Unglatt := 0.7 Nieder_Stark := 0.0 Nieder_Schwach := 0.7 Nieder_Kein := 0.0 Nebel_Stark := 0.0 Nebel_Schwach := 0.0 Nebel_Kein := 0.7

Heidelberg

Glatt := 0.0 Unglatt := 0.9 Nieder_Stark := 0.9 Nieder_Schwach := 0.0 Nieder_Kein := 0.0 Nebel_Stark := 0.0 Nebel_Schwach := 0.0 Nebel_Kein := 0.9

Darmstadt

Glatt := 0.35 Unglatt := 0.53 Nieder_Stark := 0.0 Nieder_Schwach := 0.7 Nieder_Kein := 0.6 Nebel_Stark := 0.0 Nebel_Schwach := 0.0 Nebel_Kein := 0.7

Abbildung 19: Das Wetter im Bereich der Routen

Auf der Strecke liegen folgende Baustellen (Tabelle 31) und bis zum Zeitpunkt der Abfahrt

Page 87: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

6.3: Szenarioablauf 75

sind die Storungsmeldungen aus Tabelle 32 eingegangen.

Straße AS1 AS2 WfvS Geschw Art

A5 44 42 0 80 Umbau einer AS

A5 45 42 1 80 Bruckenarbeiten

A5 32 31 0 80 Erneuerung d. Fahrbahn

A656 3 2 1 80 Ausbau-/Umbauarbeiten

A656 2 3 1 80 Ausbau-/Umbauarbeiten

A6 27 26 0 80 Bruckenarbeiten

A6 25 23 0 80 Erweiterung der AS

A67 10 6 0 80 Erneuerung d. Fahrbahn

Tabelle 31: Baustellen

Straße AS1 AS2 Fluss WfvS Geschw Storungs Typ ZW Zeit

A5 35 34 zah 1 80 Rasenmaharbeiten 0.6 11:15:00A67 10 9 — 1 — Umgekippter LKW 0.5 11:23:00A659 3 2 gestaut 1 — Verkehrsunfall 0.8 11:58:00A5 44 42 frei 1 — Markierungsarbeiten 0.6 13:21:00A67 10 9 zah 1 80 Raumungsarbeiten 0.9 12:02:00A5 35 34 frei 0 130 Straße frei 0.7 12:15:00

Tabelle 32: Storungsmeldungen

Eine Ausfuhrung der Prozedur Klassifikationen ergibt eine Verteilung der Routen uber dieKlassen wie in den Tabellen 33 und 34

Klasse Route 1 Route 2 Route 3 Route 4 BeschreibungC1 0.15 0.15 0.23 0.18 gute FahrbedingungC2 0.16 0.17 0.26 0.20 vorsichtig FahrenC3 0.01 0.01 0.02 0.01 kleine VerzogerungenC4 0.01 0.01 0.02 0.01 erhohte StaugefahrC5 0.14 0.16 0.15 0.21 gebundener VerkehrC6 0.40 0.35 0.26 0.31 hohe UnfallgefahrC7 0.02 0.04 0.01 0.04 Strecke meidenC8 0.11 0.11 0.04 0.05 Strecke weitraumig umfahren

Lange 101.49 109.09 107.70 103.56

Tabelle 33: Klassifikation der Routen 1–4

In der Abbildung 20 ist die Klassenzuteilung nochmals grafisch veranschaulicht. In der Ab-bildung reprasentieren die Kugeln mit den Nummern die Position der Route in dem Raumder durch die Terme Dichte, Storung und Wetter aufgespannt wird. Die Kreuze in der Ab-bilung geben die Position der Routen anhand der Werte fur Storung und Wetter wieder,um die Position im Raum besser zu verdeutlichen. Der Wert fur Dichte wird durch die Li-nie zwischen Kreuz und Kugel verdeutlicht. Die Routen 7 und 8 gehen dabei als die bestenAlternativen hervor. Da sie am nachsten zum optimalen Punkt (vordere linke Ecke oben)liegen und die Routen 1 und 2 gehen als schlechteste Alternativen aus der Klassifikation

Page 88: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

76 6: Implementierung

Klasse Route 5 Route 6 Route 7 Route 8 BeschreibungC1 0.23 0.22 0.31 0.27 gute FahrbedingungC2 0.26 0.26 0.34 0.27 vorsichtig FahrenC3 0.01 0.01 0.03 0.01 kleine VerzogerungenC4 0.01 0.00 0.02 0.01 erhohte StaugefahrC5 0.17 0.18 0.14 0.21 gebundener VerkehrC6 0.26 0.23 0.13 0.15 hohe UnfallgefahrC7 0.02 0.04 0.02 0.05 Strecke meidenC8 0.05 0.06 0.01 0.03 Strecke weitraumig umfahren

Lange 116.37 123.97 105.80 101.66

Tabelle 34: Klassifikation der Routen 5–8

hervor und sollten gemieden werden. Fur eine Auswahl zwischen den Routen 7 und 8 spieltdie subjektive Praferenz eine Rolle. Route 7 uberzeugt durch die niedrigste Verkehrsdichteund auf der Route 8 hat man am wenigsten Probleme mit dem Wetter. Je nachdem was demAnfrager wichtiger erscheint kann er entweder die Route 7 oder die Route 8 praferieren.

Störung 0 1

W e t t e

r

0

1

D

i c h t e

1

0

schwach stark

g u t

s c h l e c h

t

h o c

h n i

e d r

i g

8 5

3

1

7

6

2 4

Abbildung 20: Grafische Darstellung der Klassifikation

Page 89: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

7: Zusammenfassung und Ausblick 77

7 Zusammenfassung und Ausblick

In dieser Diplomarbeit wurde die Imperfektion von Informationen aus dem Verkehrsumfeldanalysiert und eine Moglichkeit zur Speicherung der Imperfektion in einem Datenbanksystementworfen. Es wurde ein Datenbankschema konzipiert und prototypisch implementiert.

Fur die Speicherung von unsicheren und unscharfen Informationen wurde ein sinnvolles Da-tenmodell gefunden, welches die Imperfektion erhalt und eine unkomplizierte Weiterverar-beitung in Datenbanksystemen ermoglicht. Die Abbildung der Ungenauigkeit ist durch einDatenmodell nicht so einfach moglich, dafur wurde mit dem Konzept der Klassifikation eineMoglichkeit gefunden, mit der man zum einen die Ungenauigkeit in den Daten bei Anfragenberucksichtigen kann und zum anderen die Anfragen naher an dem menschlichen Verstandnisformulieren kann. Da die Klassifikationen auf SQL aufbauen und neben SQL fur Anfragenverwendet werden konnen, stellen sie auch kein Hindernis bei der Weiterverarbeitung derDaten dar.

Durch die Berucksichtigung der Unsicherheit von Informationen und die Verarbeitung vonunscharfen Begriffen konnten Informationen von unterschiedlichen Quellen gut fur die ge-meinsame Beschreibung eines Sachverhaltes verwendet werden, was bei einem Standard-Datenmodell zu Inkonsistenzen fuhren konnte. Dadurch gelingt es die Information von un-terschiedlichen Quellen anhand ihrer Zuverlassigkeit zu berucksichtigen und kommt so zueinem realitatsnaheren Abbild als dies bei der Festlegung auf eine Quelle der Fall ware.Dadurch konnen Verkehrsleitzentralen und Verkehrsteilnehmer die Verkehrssituationen bes-ser beurteilen und somit auch zu einer besseren Beurteilung von angebrachten Maßnahmenkommen.

Das Klassifikationenmodell ermoglicht dem Anwender eine leichte Interpretation der Daten,da durch die Hinzunhame der Imperfektion in das Datenmodell einzelne Tupel nicht mehr sointuitiv verstandlich sind wie scheinbar prazise Tupel. Des weiteren ermoglicht das Klassifika-tionenmodell eine Beurteilung von Sachverhalten die der menschlichen Auffassung ahnlicherist als die Selektion nach scharfen Werten wie sie in SQL vorgenommen wird, dadurch erhaltder Verkehrsteilnehmer einen zusatzlichen Nutzen durch das Modell.

Interessant ware die Ausweitung des Schemas auf die Einbindung noch weiterer Datenquellen,welche in Kapitel 2 vorgestellt wurden um einen noch besseren Wissensstand zu ermoglichen.

In dem vorgestellten Konzept lag der Schwerpunkt auf dem status quo des Verkehrsgesche-hen. Untersuchenswert ware die Moglichkeit aufgrund der vorhandenen imperfekten DatenSchlusse uber Verkehrszustande in der nahen Zukunft zu tatigen (z.B. Ob die Unfallstelle in1h geraumt ist? etc.), wobei in den Schlussen, durch die dazwischenliegende Zeit, auch wie-der zusatzlich Imperfektion entsteht. Die Anfrage muss mehrere imperfekte Datenbestandezuruckgreifen (z.B. Verkehrsaufkommen in dem Bereich, vergangene Zeit seit dem Unfall,usw.). So muss eine Anfrage in der Lage sein aufgrund der Imperfektion verschiedene mogli-che Welten zu konstruieren und dem Nutzer eine Moglichkeit zur Interpretation der Moglich-keiten liefern.

Page 90: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

78 7: Zusammenfassung und Ausblick

Page 91: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

A: Aquivalenzklassen im Kontextmodell 79

A Aquivalenzklassen im Kontextmodell

Autobahn Behinderung Verkehrsdichte µgut µakzeptabel µcomp Fcard

A5 kaum 14 0.67 1.00 0.82

A5 keine 28 1.00 0.60 0.770.80

A81 keine 23 1.00 0.85 0.92 0.92

Autobahn Behinderung Verkehrsdichte µgut µinakzeptabel µcomp Fcard

A81 kaum 31 0.67 0.55 0.56 0.56

Autobahn Behinderung Verkehrsdichte µschlecht µakzeptabel µcomp Fcard

A5 mittel 25 0.67 0.75 0.68 0.68

Autobahn Behinderung Verkehrsdichte µschlecht µinakzeptabel µcomp Fcard

A8 groß 43 1.00 1.00 1.00

A8 mittel 48 0.67 1.00 0.820.91

Page 92: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

80 A: Aquivalenzklassen im Kontextmodell

Page 93: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

LITERATUR 81

Literatur

[1] Arnauld Antoine,Nicole Pierre, ”Die Logik oder die Kunst des Denkens“, Wissen-schaftliche Buchgesellschaft, Darmstadt, 1994

[2] Aristoteles, ”Organon“, Felix Verlag GmbH, 2001

[3] Baustelleninformationssystem des Bundes und der Lander, ”Bundesmini-sterium fur Verkehr, Bau- und Wohnungswesen“,http://www.bmv.de/Baustelleninformationssystem-.653.htm

[4] Bezdek J.C., Sankar P.K., ”Fuzzy Models For Pattern Recognition: Methods ThatSearch for Structures in Data“, IEEE Press, New York, 1992

[5] Borgelt Christian, Kruse Rudolf, ”Unsicherheit und Vagheit: Begriffe, Methoden,Forschungsthemen“ Kunstliche Intelligenz, Heft 3/01, arendtap Verlag, Bremen

[6] Brilon W., Ponzlet M., ”Variability of Speed-Flow Relationships on German Au-tobahns“ Transportation Research Record, TRB, Washington DC, No. 1555, 1996

[7] Bosc P., Kacprzyk J. (ed.) ”Fuzziness in Database Management Systems“, Studiesin Fuzziness Physica-Verlag, 1995, Vol. 5

[8] Czommer Renate, ”Leistungsfahigkeit fahrzeugautonomer Ortungsverfahren auf derBasis von Map-Matching-Techniken“, Dissertation, Universitat Stuttgart, 2000

[9] Demant Bernd, ”Fuzzy-Theorie oder die Faszination des Vagen“, Vieweg, Braun-schweig, 1993

[10] Dey Debabrata, Sarkar Sumit, ”A Probabilistic Relational Model and Algebra“,ACM Transactions on Database Systems, Vol. 21, No. 3, Sptember 1996, 339-369

[11] Durht W., Hanke H., Levin Ch., ”Wirksamkeit des Strassenwinterdienstes auf dieVerkehrssicherheit und die Wirtschaftlichkeit des Verkehrsablaufs.“, Forschung Stra-ßenbau und Straßenverkehrstechnik, Heft 550, Bonn, 1989

[12] Dyreson Curtis E., ”A Bibliography on Uncertainty Management in Information Sy-stems“, Uncertainty Management in Information Systems, 1996

[13] Fraunhofer Institut Mikorelektronische Schaltungen und Systeme, ”Fuzzy Lexikon“,http://www.imsdd.fhg.de/englisch/produktgebiete/pdf/f lexikon.pdf, 1998

[14] Fuhles-ubach S., ”Analysen zur Unscharfe in Datenbank- und Retrivalsystemen“,Dissertation, Humboldt-Universitat zu Berlin, 1997

[15] Fuhr Norbert, Rolleke Thomas, ”A Probabilistic Relational Algebra for the Inte-gration of Information Retrieval and Database Systems“, ACM Transactions on Infor-mation Systems, Vol. 15, No. 1, January 1997, 32-66

[16] Geo Magazin, ”Zoom: Stau-Raume“, http://www.geo.de/GEO/kultur gesellschaft/ ge-sellschaft/2002 07 GEO zoom stau raeume/index.html?linkref=geode teaser toc text&SDSID=51332600000011087026723, GEO Magazin, Vol. 07, 2002

[17] Gesellschaft fur Verkehrsdaten GmbH, ”Von der Meßwerterfassung zur auto-matisch generierten Verkehrsmeldung“, http://www.ddg.de/pdf-dat/datenerf.pdf

Page 94: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

82 LITERATUR

[18] Hansen Hans R., Neumann Gustav, ”Wirtschaftsinformatik“, UTB, Stuttgart, 2001

[19] Hauf Oliver, ”Die Informationsgesellschaft. Anatomie einer Lebensluge.“, Peter LangGmbH, Frankfurt, 1996

[20] Huber Werner, Ladke Michael, Ogger Rainer, ”ExtendedFloating-Car Data for the Acquisitions of Traffic Information“,http://www.bmwgroup.com/e/0 0 www bmwgroup com/8 science mobility/8 2 mobilitaet verkehr/pdf/XFCD englisch.pdf

[21] Kraftfahrt-Bundesamt, ”Fahrzeugbestand am 1. Januar 2004“,http://www.kba.de/Stabsstelle/Presseservice/Pressemitteilungen/pressemiteilungen2004/bestand/Bestand20041.pdf, 2004

[22] Lakshamanan Laks V. S., Leone Nicola, Ross Robert, Subrahmanian V. S., ”Prob-View: A Flexible Probabilstic Database System“ ACM Transactions on Database Sy-stems Vol. 22, No. 3, September 1997, 419-469

[23] Lang S., Lockemann Peter C., ”Datenbankeinsatz“, Springer, 1995

[24] Mangold M., Trager K., Lindenbach A., ”Wirksamkeit von Streckenbeeinflus-sungsanlagen unter besonderer Berucksichtigung der Umfelddatenerfassung“, ResearchWork for the Ministry of Traffic, Kassel 1996

[25] Meier Andreas, Savary Christian, Schindler Gunter, Veryha Yauheni, ”DatabaseSchema with Fuzzy Classification and Classification Query Language“, CIMA 2001,Bangor U.K.

[26] Merkel Andreas, ”Konzeption und Umsetzung einer Schemaerweiterung durch kon-texte unter Berucksichtigung von Aggregierungsfragen“, Studienarbeit, UniversitatKarlsruhe (TH), 2004

[27] Motro Amihai, Smets Philippe, ”Uncertainty Management in Information Systems“,Kluwer Academic Publishers, 1997

[28] Nair Premchand S., ”Uncertainty in Multi-Source Databases“, Studies in Fuzzinessand Soft Computing, Vol. 130, Springer, 2003

[29] Ovid, ”Starkung der SelbstOrganisationsfahigkeit im Verkehr durch I+K-gestutzteDienste“, http://www.ovid.uni-karlsruhe.de

[30] Parsons Simon, ”Current approaches to handling imperfect information in data andknowledge bases“, IEEE Transactions on Knowledge and Data Engineering, 8(3), 353-372

[31] Pedrycz W., ”Fuzzy sets in pattern recognition: methodology and methods“, PatternRecognition, Vol. 23, 121-146, 1989

[32] von der Ruhren S., Beckmann K.J., Eissfeldt N., Grafe J., Muhlhans H.,Wagner P., ”Simulationsbasierte Kruzfristprognose von Verkehrszustanden im Rah-men von stadtinfokoln — Methodik, Umsetzung, Erfahrungen“, http://www.isb.rwth-aachen.de/publikationen/vwt2003 vdr.pdf

[33] Rundensteiner Elke A., ”The Development of a Fuzzy Temporal Relational Database(FTRDB): An Artificial Intelligence Application.“, Master’s Thesis, Dept. of ComputerScience, Florida State University, 1987

Page 95: Datenbankunterst˜utzung f ur imperfekte˜ Daten im ... · Das Endergebnis ist: Wir wissen erstaunlich wenig, und doch ist es erstaunlich, dass wir ˜uberhaupt so viel wissen, und

LITERATUR 83

[34] Russel Bertrand, ”Philosophie des Abendlandes“, Glb Parkland, 2001

[35] Schindler Gunter, ”Fuzzy-Datenanalyse durch kontextbasierte Datenbankanfragen“,Deutscher Universitatsverlag, Dissertation, 1998

[36] Schnabel W., Lohse D. ”Grundlagen der Straßenverkehrstechnik und der Verkehrs-planung“, Verlag fur Bauwesen, 1997

[37] Schneider Markus, ”Uncertainty Management for Spatial Data in Databases: FuzzySpatial Data Types“, SSD’99, LNCS 1651, 330-351, Springer Verlag, 1999

[38] Schoning Uwe, ”Logik fur Informatiker“, Spektrum Akademischer Verlag, 2000

[39] stadtinfokoln, ”Mobilitatsforschung fur den Ballungsraum“,http://www.stadtinfokoeln.info/s/download.htm

[40] Straßenverkehrsordnung (StvO), BGBl. 2004, Teil I Nr. 4, S. 117, Januar 2004

[41] Wittgenstein Ludwig, ”Philosophische Untersuchungen“, Suhrkamp, 2001

[42] Witte Rene, ”Architektur von Fuzzy-Informationssystemen“, Dissertation, Univer-sitat Karlsruhe (TH), 2002

[43] Yager, Ovchinnikov, Tong, Nguyen, ”Fuzzy Sets and Applications: Selected pa-pers by L.A. Zadeh.“, Wiley-Interscience Publiication, 1987

[44] Zadeh Lofti, ”Fuzzy sets“, Inf. Control. 8:, 338-353, 1965

[45] Zadeh Lotfi, ”Fuzzy Sets as the Basis for a Theory of Possibility“, Fuzzy Sets andSystems 1:, 3-28, 1978

[46] Zaniolo Carlo, Zicari Roberto, Subrahmanian V. S., ”Advanced Database Sy-stems“, Morgan Kaufmann Series in Data Management Systems, Morgan KaufmannPublishers, 1997

[47] Zimmermann H.-J., ”Fuzzy Set Theorie - and Ist Applications“, Kluwer, 1992

[48] Zimmermann H.-J., ZYSNO P., ”Latent connectives in human decision making“, FuzzySets and Systems, 1980