12

Click here to load reader

Zur Identifikation von Strukturanalogien in Datenmodellen; Identifying Structural Analogies in Data Models — A Procedure and its Application Exemplified by Scheer’s Y-CIM Reference

  • Upload
    peter

  • View
    224

  • Download
    5

Embed Size (px)

Citation preview

Page 1: Zur Identifikation von Strukturanalogien in Datenmodellen; Identifying Structural Analogies in Data Models — A Procedure and its Application Exemplified by Scheer’s Y-CIM Reference

1 Ausgangssituation undProblemstellung

Datenmodelle sind ein wichtiges Instru-ment zur Gestaltung betrieblicher Infor-mationssysteme [WaWe02]. Indes zeigenbisherige Erfahrungen, dass die Daten-modellierung eine beachtliche Komplexitatverursacht: Erstens bestehen Modelle pra-xisrelevanter Großenordnung nicht seltenaus mehreren hundert oder gar tausendund mehr Konstrukten [ScHa92]. Zweitensist an der Entwicklung und Nutzung vonDatenmodellen eine großere Personen-gruppe beteiligt. Drittens haben Daten-modelle einen langen Lebenszyklus, wah-rend dessen vielfaltige �nderungen an denursprunglichen Anforderungen auftretenkonnen. Um die Modellierungskomplexitat

zu reduzieren, werden daher geeignete In-strumente benotigt.

Ein bekanntes Mittel zur Reduzierungder Modellierungskomplexitat ist die Iden-tifikation und Nutzung von Strukturanalo-gien, worunter �hnlichkeiten zwischenverschiedenen Modellkonstrukten verstan-den werden [BeSc04, 143]. Strukturanalo-gien sind vergleichbar mit industriellenGleichteilen [Schu98, 207–209]. �hnlichwie Gleichteile erfolgreich in klassischenIngenieursdisziplinen eingesetzt werden[Moog85, 1], versprechen Strukturanalo-gien die Komplexitat in der Modellierungzu senken.Neben dem praktischen Nutzen haben

Strukturanalogien auch theoretische Rele-vanz: Die Identifikation von Strukturana-logien gibt Hinweise auf unbekannte Zu-sammenhange im Gegenstandsbereich derWissenschaft Wirtschaftsinformatik. DieKenntnis ahnlicher Sachverhalte erlaubt ih-re Beschreibung auf einer hoheren Ebene(„Generalisierung“).Der vorliegende Artikel widmet sich

dem Problem, innerhalb eines Daten-modells vorhandene Strukturanalogien zuentdecken. Ziel ist die Entwicklung einesVerfahrens zur Identifikation derartiger

Analogien. Die Untersuchung leistet zumeinen den Beitrag, erstmalig ein solchesIdentifikationsverfahren zu beschreiben.Zum anderen werden mithilfe des Verfah-rens Strukturanalogien im Y-CIM-Refe-renzmodell von Scheer [Sche97] identifi-ziert.

Die Untersuchung basiert auf einem inge-nieurwissenschaftlichen Forschungsansatz[HMPR04]: Ausgehend von einem prak-tisch wie theoretisch relevanten Problem,fur das noch keine befriedigende Losungvorliegt, wird ein neues Verfahren zur Pro-blemlosung entwickelt und beschrieben.Die Anwendbarkeit und Nutzlichkeit desneuen Verfahrens werden anhand eineskonkreten Beispiels belegt. Um eine ge-dankliche Strenge und Intersubjektivitat inder Problemlosung zu erreichen, werdenformale Mittel eingesetzt.

Der Beitrag ist wie folgt aufgebaut: Nachdiesem einleitenden Abschnitt beleuchtetder nachste Abschnitt den bisherigen For-schungsstand. Abschnitt 3 fuhrt das Ver-fahren zur Identifikation von Strukturana-logien ein, das in Abschnitt 4 angewendetund in Abschnitt 5 kritisch diskutiert wird.Abschnitt 6 resumiert die Ergebnisse derUntersuchung.

WIRTSCHAFTSINFORMATIK 47 (2005) 2, S. 89–100

Die Autoren

Peter FettkePeter Loos

Dipl.-Wirt.-Inf. Peter FettkeProf. Dr. Peter LoosJohannes Gutenberg-Universitat MainzLehrstuhl fur Wirtschaftsinformatik undBWLISYM – Information Systems &Management55099 Mainz{fettke|loos}@isym.bwl.uni-mainz.dewww.isym.bwl.uni-mainz.de06131 39-23051

Zur Identifikation von Strukturanalogienin DatenmodellenEin Verfahren und seine Anwendungam Beispiel des Y-CIM-Referenzmodellsvon Scheer

Kernpunkte

Datenmodelle unterstutzen Analyse, Entwurf und Implementierung von betrieblichen Infor-mationssystemen. Strukturanalogien helfen die Modellierungskomplexitat zu reduzieren.Der Beitrag erlautert ein Verfahren zur Identifikation von Strukturanalogien. Ebenso werdenAnwendung und Nutzen des Verfahrens an einem Beispiel dargestellt.

Stichworte: Informationsmodellierung, Datenmodellierung, Modellierung, Entity-Relation-ship-Model, �hnlichkeitsmaße, Integration, Referenzmodell, Y-CIM-Modell, Industrie

WI – Aufsatz

Page 2: Zur Identifikation von Strukturanalogien in Datenmodellen; Identifying Structural Analogies in Data Models — A Procedure and its Application Exemplified by Scheer’s Y-CIM Reference

2 Stand der Forschung

Bisher wird in der Literatur [Beck95;BeSc97, 441–443; BSGI03, 51–53; BeSc04,143; Broc03, 80f.; ReSc96; Rose95, 173f.;Schu98, 237–240; Seub99, 109] der Begriffder Strukturanalogie nicht formal definiert,sondern intuitiv umschrieben und anhandkonkreter Beispiele eingefuhrt. Beispiels-weise erlautert Becker Beispiele fur Struk-turanalogien auf der Ebene der Attributs-auspragung, der Attribute und der Enti-tatstypen [Beck95, 136].Obgleich die genannten Arbeiten viel-

fach die Notwendigkeit der Identifikationvon Strukturanalogien betonen, sind bisherkeine Verfahren zur systematischen Identi-fizierung bekannt. Vielmehr unterstellendie Autoren regelmaßig, Strukturanalogienseien in einem Modell intuitiv ersichtlich.Daher bleibt die Frage offen, wie Struktur-analogien systematisch zu identifizierensind.Allerdings existieren mehrere For-

schungsfelder, die analoge Probleme be-handeln. Im Kontext des Vergleichs undder Integration von Datenmodellen bzw.von Ontologien werden zahlreiche �hn-lichkeitsmaße vorgeschlagen (fur �bersich-ten siehe [BaLN86; Conr02; DiFo02;KaSc03; KiSR04; PaSp98; RaBe02]). Der indiesem Feld erreichte Forschungsstand istweit fortgeschritten und ausgereift. Aller-dings adressieren diese Arbeiten die Iden-tifikation von �hnlichkeiten zwischenKonstrukten verschiedener Modelle, wah-rend unter Strukturanalogien �hnlichkei-ten zwischen Konstrukten desselben Mo-dells verstanden werden. Damit ist eineAnwendungsvoraussetzung bekannter Ver-fahren verletzt.�hnliche Fragen bestehen bei der Identi-

fikation von Entwurfsmustern [GHJV95],welche eine gewisse �hnlichkeit mit Struk-turanalogien aufweisen. Die fur diesenZweck in [Risi98] erlauterten Verfahrensind allerdings sehr abstrakt und gebenkaum konkrete Handlungsanweisungen,sondern gleichen eher Erfahrungsberich-ten. Beispielsweise empfiehlt ein Verfahrendie Nutzung von Experteninterviews. In-

des lassen diese Ausfuhrungen offen, wiedie Interviews geeignet zu strukturierenoder hinsichtlich welcher Aspekte aus-zuwerten sind.Aufgrund der mehrdimensionalen Struk-

tur von Datenmodellen scheinen Verfahrenzur Identifikation von �hnlichkeiten derGraphentheorie [CoGo70; Ullm76] geeig-net. Beispielsweise beschreibt eine Sub-Graphen-Isomorphie eine wohldefinierteEigenschaft zwischen einem Ober- und ei-nem Untergraphen, die intuitiv als Struk-turahnlichkeit umschrieben werden kann.Fur die Anwendung dieser Verfahren ist zuklaren, unter welchen Bedingungen eineSub-Graphen-Isomorphie als Strukturana-logie in einem Datenmodell zu verstehenist. Die Anwendung dieser Verfahren aufdie Untersuchung von Datenmodellen istden Verfassern nicht bekannt. Gleiches giltfur Anatze zur Identifikation von Analo-gien in Datenbestanden (bspw. „Informa-tion-Retrieval“, „Data-Mining“, „Knowl-edge-Discovery“ [Ferb02]).Zusammenfassend ist festzuhalten, dass

bisher keine Verfahren zur Identifikationvon Strukturanalogien vorliegen.

3 Verfahren zur Identifi-kation von Strukturanalogien

Das vorzustellende Verfahren zur Identifi-kation von Strukturanalogien besteht ausden drei Schritten Vorbereitung, Messungund Analyse, die im Folgenden jeweils ineinem eigenen Abschnitt beschrieben wer-den.

3.1 Schritt 1: Vorbereitung

Datenmodelle werden in Theorie und Pra-xis oft mithilfe von Diagrammen reprasen-tiert. Die Art der Darstellung in Diagram-men (verwendete Symbole, mogliche Bezie-hungen etc.) unterliegt nicht der Willkur,sondern wird durch Regeln einer bestimm-ten Modellierungssprache eingeschrankt.Verwendete Modellierungssprachen wer-den oft als „semi-formal“ attributiert. Die-

se vage Bezeichnung trifft auf die aus-schließliche Verwendung naturlicher Spra-chen wie Deutsch, Chinesisch etc. nicht zu.Weitere Bedeutungsakzente dieser Attribu-tierung sind indes unklar. Zwar kann auf-grund der Bezeichnung „semi-formal“ da-rauf geschlossen werden, dass der Formali-sierungsgrad der charakterisierten Spracheeingeschrankt ist. Gleichwohl werden in-tendierte Formalisierungsverfahren meistnicht explizit angegeben, sondern nur im-plizit unterstellt. Hierdurch eroffnet sichein breiter Spielraum moglicher Ausdeu-tungen.Das hier vorgestellte Verfahren zur Iden-

tifikation von Strukturanalogien erfordertes, die Diagramme in einem noch naher zubeschreibenden Sinne zu formalisieren.Speziell beruht der vorzunehmende For-malisierungsschritt auf der Idee, ein Daten-modell als ein mengentheoretisches Pradi-kat zu definieren. Diese Art der Formali-sierung wird innerhalb der mathematischenLogik, der Physik und der Wissenschafts-theorie auch als informelle Axiomatisie-rung bezeichnet [Steg85, 39]. Derselbe An-satz erfreut sich auch in der Informatikgroßer Beliebtheit. Beispielsweise fußenverschiedene Standardwerke zur theoreti-schen Informatik [HoMU01; Scho95] oderformalen Semantik [Wins93, 1–10] auf derMengenlehre.Ziel des vorbereitenden Schrittes ist es,

ein formales Pradikat einzufuhren. Daseingefuhrte Pradikat soll genau auf diejeni-gen mengentheoretischen Konstrukte zu-treffen, die von einem Diagramm graphischreprasentiert werden. Das Vorgehen wirdan einem kleinen Beispiel illustriert. Furdas in Bild 1 dargestellte Entity-Relation-ship-Diagramm (ER-Diagramm) soll einPradikat P definiert werden.

Definition: x ist ein P („Beispieldaten-modell“) genau dann, wenn ein L und einA existieren, sodass gilt:(1) x ¼ hL, A, Ki(2) L ist eine Menge („Lieferant“)(3) A ist eine Menge („Artikel“)(4) K � L�A („kann liefern“)(5) 8l 2 L: 9a und (l, a) 2 KDie Ausfuhrungen zwischen den Anfuh-rungszeichen entsprechen den Bezeichnun-gen im ER-Diagramm und gehoren nichtzur Definition des Pradikats P, sonderndienen nur zur Erlauterung. Die Elementevon K sind Tupel, deren Ordnung beliebig,aber fest ist. Die Kardinalitat (0, n) fuhrt zukeiner, die Kardinalitat (1, n) zu der Ne-benbedingung (5) auf der Relation K. DieseNebenbedingung kann wie folgt umschrie-ben werden: Jeder Lieferant liefert mindes-tens einen Artikel. Falls im ER-Diagramm

WIRTSCHAFTSINFORMATIK 47 (2005) 2, S. 89–100

Lieferant Artikelkann liefern1,n 0,n

Bild 1 Beispieldatenmodell

90 Peter Fettke, Peter Loos

Page 3: Zur Identifikation von Strukturanalogien in Datenmodellen; Identifying Structural Analogies in Data Models — A Procedure and its Application Exemplified by Scheer’s Y-CIM Reference

Attribute dargestellt waren, konnten dieseuber die Angabe von zusatzlichen mathe-matischen Funktionen formalisiert werden.Mit obiger Definition entspricht das Pra-

dikat P dem Beispieldatenmodell, welchesdas Diagramm in Bild 1 darstellt. Fur einbeliebiges Konstrukt x kann entschiedenwerden, ob dass Pradikat P auf dieses zu-trifft oder nicht. Beispiel: Seien x1 ¼ h{l1, l2},{a1, a2}, {(l1, a1), (l2, a1)}i und x2 ¼ h{l1, l2},{a1, a2}, {(l1, a3)}i mit ai 6¼ aj, li 6¼ lj fur i 6¼ j.Das Pradikat P trifft auf x1 zu und auf x2nicht zu.Der erste Schritt des Verfahrens kann als

eine mengentheoretische Rekonstruktiondes Datenmodells verstanden werden.Nach diesem einleitenden Schritt liegt dasER-Diagramm in praziser Form vor. Die-ser Schritt ist nur auszufuhren, falls das zuanalysierende Datenmodell noch nicht ineiner solchen Formalisierung vorliegt.Die gewahlte Formalisierung gleicht

dem Ansatz von [ElWH85], wobei ver-schiedene Aspekte vereinfacht sind (bspw.spielen mehrwertige Attribute und Katego-rien im Folgenden keine Rolle). Andere be-kannte Formalisierungen von ER-Dia-grammen (bspw. [Chen76; Thal00]) konn-ten bei entsprechenden Anpassungen dernachfolgenden Schritte auch verwendetwerden.Eine Zwischenbemerkung zur verwen-

deten Terminologie: Im Folgenden werdendie Begriffe „Menge“ bzw. „Relation“ undnicht „Entitats-“ bzw. „Relationshiptyp“verwendet. Der bei der ER-Modellierungubliche Sprachgebrauch wird bewusst ver-mieden, um das eingefuhrte Verfahrennicht an eine spezielle Modellierungsspra-che zu binden. Daher kann das Verfahrenim Kontext anderer Modellierungsspra-chen angewendet werden.

3.2 Schritt 2: Messung

Zur Messung von �hnlichkeiten zwischenModellkonstrukten ist eine formale Prazi-sierung der Terminologie notwendig. DieBegriffslehre unterscheidet u. a. klassifika-torische und metrische Begriffe [Hemp52].Beispielsweise ist der Begriff „Mensch“ einklassifikatorischer und der Begriff „Lange“ein metrischer Begriff. Wenn der TerminusStrukturanalogie als klassifikatorischer Be-griff eingefuhrt wird, liegt eine Struktur-analogie entweder vor oder nicht vor. DieseBegriffswahl fuhrt unmittelbar zu der Fra-ge, ab welchem �hnlichkeitsniveau zwi-schen zwei Modellteilen von einer Analo-gie zu sprechen ist. Folglich bietet es sichan, von einem klassifikatorischen Begriffabzusehen und einen metrischen Begriff

einzufuhren. Wenn dieses Begriffsverstand-nis unterstellt wird, werden Strukturanalo-gien auf einem Kontinuum beschrieben. Ineinem Extremfall ist eine Strukturanalogieals Strukturidentitat zu charakterisieren:Zwei Konstrukte sind nicht nur ahnlich,sondern identisch. Im anderen Extremfallgelten zwei Konstrukte als vollkommenverschieden. Zwischen beiden Polenspannt sich ein Kontinuum unterschiedli-cher �hnlichkeitsgrade auf.Um den �hnlichkeitsgrad zweier Kons-

trukte in einem Modell ermitteln zu kon-nen, mussen diese einander vergleichendgegenubergestellt werden. Es bedarf eines�hnlichkeitsmaßes, welches den Analogie-grad der Konstrukte misst. Ein solches�hnlichkeitsmaß ist das Ergebnis einerreellwertigen Abstandsfunktion, die sichdadurch auszeichnet, dass ihr Wert umsogroßer ist, je ahnlicher die Konstrukte sind.Die Einfuhrung eines geeigneten �hnlich-keitsmaßes wird im Folgenden zunachstintuitiv erlautert und anschließend formal-sprachlich prazisiert. Hierbei wird dieGrundidee anhand der �hnlichkeit vonRelationen ausgefuhrt.Die Ausfuhrungen beruhen auf der An-

nahme, dass das zu analysierende Dia-gramm mithilfe eines Pradikats P reprasen-tiert wird (vgl. vorherigen Abschnitt). DieDefinition des Pradikats P besteht aus ver-schiedenen Mengen und Relationen. DieAnzahl der eingefuhrten Mengen sei mitdem Symbol ne, die Anzahl der eingefuhr-ten Relationen mit dem Symbol nr be-zeichnet. Ferner sei davon ausgegangen,dass zur Definition des Pradikats P dieMengen E1 bis Ene und R1 bis Rnr verwen-det werden.Die eingefuhrten Mengen und Relatio-

nen lassen sich in einer Matrix anordnen,

in deren Spalten die im Pradikat P verwen-deten Mengen und in deren Zeilen die imPradikat P verwendeten Relationen abge-tragen werden. In Bild 2 ist exemplarischeine Matrix mit 9 Mengen und 6 Rela-tionen dargestellt; folglich ist das ent-sprechende Pradikat P auf 9 Mengen und 6Relationen definiert. Ein Element ni, j derMatrix (i Zeilen-, j die Spaltennummer) be-schreibt, wie oft die Menge j zur Definitionder Relation i verwendet wird. Der im Bildangegebene Grad bezeichnet die Anzahlder Mengen, die zur Definition einer Rela-tion insgesamt genutzt werden. Dieser er-gibt sich aus der Zeilensumme. Beispiels-weise ist im angegebenen Beispiel R3 einedreistellige Relation, die auf den MengenE4, E5 und E6 definiert ist.Im Folgenden ist der Begriff der Struk-

turanalogie zu prazisieren. Hierzu werdenzunachst die beiden Extremfalle der Struk-turidentitat und vollkommenen Verschie-denheit festgelegt. Im Beispiel konnen dieRelationen R1 und R2 als strukturidentischverstanden werden, da beide Relationenauf denselben Mengen E1 bis E3 definiertsind. In diesem Fall sollte die �hnlichkeitzwischen beiden Relationen den Wert 1 be-tragen. Dagegen sind bspw. die RelationenR1 und R5 vollkommen verschieden, daverschiedene Mengen fur ihre Definitionverwendet werden: Die Relation R1 ist aufden Mengen E1, E2 und E3 definiert, dage-gen die Relation R5 auf den Mengen E8

und E9. Daher sollte der �hnlichkeitswertin diesem Fall 0 betragen.

Gleichzeitig konnen zwischen Relatio-nen verschiedene �hnlichkeiten bestehen.Beispielsweise sind die Relationen R3 undR4 auf den Mengen E4, E5 und E6, die Rela-tion R4 daruber hinaus noch auf der MengeE7 definiert. Bei diesen beiden Relationen

WIRTSCHAFTSINFORMATIK 47 (2005) 2, S. 89–100

E1 E2 E3 E4 E5 E6 E7 E8 E9

R1 4 2 1 1R2 4 2 1 1R3 3 1 1 1R4 4 1 1 1 1R5 2 1 1R6 3 2 1

Legende: Ri Relation i, Ei Menge i

Rela-tionen

GradMengen

Bild 2 Zusammenhang zwischen Mengen und Relationen

Zur Identifikation von Strukturanalogien in Datenmodellen 91

Page 4: Zur Identifikation von Strukturanalogien in Datenmodellen; Identifying Structural Analogies in Data Models — A Procedure and its Application Exemplified by Scheer’s Y-CIM Reference

handelt es sich weder um strukturidenti-sche noch um vollkommen verschiedeneRelationen. Daher sollte diesen beiden Re-lationen ein �hnlichkeitswert zwischen 0und 1 zugewiesen werden.Die zuvor intuitiv prasentierte Idee

wird jetzt formalisiert. Speziell gilt es, einzweistelliges �hnlichkeitsmaß d mit DI(d)¼ f1; 2; . . . ; nrg � f1; 2; . . . ; nrg und DII(d)¼ [0; 1] zu bestimmen. DI(d) bezeichnetden Definitions-, DII(d) den Wertebereichder Funktion d. Der Wert d(x, y) reprasen-tiert den �hnlichkeitswert der beiden Rela-tionen Rx und Ry, wobei die Pole des �hn-lichkeitskontinuums wie folgt zu interpre-tieren sind: Wenn d(x, y) den Wert 0annimmt, dann sind die Konstrukte Rx undRy vollkommen strukturverschieden, beimWert 1 strukturidentisch.Die Definition einer Relation ist formal

zu beschreiben. Hierzu werden Hilfsmen-gen ROi definiert, welche die zur Definiti-on einer Relation verwendeten Mengen an-geben. Da eine Menge mehrfach zur Defi-nition einer Relation verwendet werdenkann, wird jede einzelne Verwendung miteiner laufenden Nummer versehen. Bei-

spielsweise sind gemaß Bild 2 die Relatio-nen R5 und R6 auf den Mengen E8 und E9

definiert, wobei die Menge E8 an zwei Stel-len in R6 eingeht. Dieser Sachverhalt ist inBild 3 (1) formal formuliert.Die gewahlte Konstruktion bewirkt,

dass die mehrfache Verwendung einerMenge bei der �hnlichkeitsmessung zwi-schen zwei Relationen berucksichtigt wird.Auf diese Weise werden die Relationen R5

und R6 des Beispiels in Bild 2 als verschie-den angesehen, obgleich beide nur auf denMengen E8 und E9 definiert sind.

Das konkrete Konstruktionsbeispiel derMengen RO5 und RO6 wird jetzt verall-gemeinert. Dabei besteht die Definition ei-ner Hilfsmenge ROi fur eine Relation ausmehreren Tupeln. Die erste Komponenteeines Tupels enthalt eine Menge, auf derdie Relation definiert ist; die zweite Kom-ponente eine eindeutige Nummer. Die all-gemeine Definition der Hilfsmengen ROi

zeigt Bild 3 (2).Die Symbole nr, ne und ni, j werden ge-

maß der obigen Einfuhrung verwendet.Auf Basis der zuvor definierten Hilfsmen-gen wird in Anlehnung an [Balz97, 215f.;

Tver77, 333] ein �hnlichkeitsmaß vor-geschlagen (normierte symmetrische Diffe-renz). Dieses findet sich in Bild 3 (3). DieNotation |M| bezeichnet die Anzahl derElemente der Menge M.

Die Grundidee des �hnlichkeitsmaßes istes, das Verhaltnis zwischen der Anzahl dergemeinsamen und der Anzahl samtlicherElemente der beiden Hilfsmengen ROx undROy zu bestimmen. Falls die beiden Hilfs-mengen keine gemeinsamen Elemente ent-halten, ist der Zahler des Bruchs und damitauch der Wert d(x, y) gleich 0. Wenn beideHilfsmengen identisch sind, sind der ZahlerundNenner des Bruchs identisch und damitder Wert d(x, y) gleich 1.Exemplarisch wird die �hnlichkeit zwi-

schen den Relationen R5 und R6 berechnet,es gilt also den Wert d(5, 6) zu bestimmen(siehe Bild 3 (4)).Prinzipiell konnen auch andere �hnlich-

keitsfunktionen zur Bestimmung verwen-det werden (siehe bspw. die �bersicht in[BEPW96, 264–281]). Das vorgestellteVerfahren wurde gewahlt, weil es zum ei-nen eine verhaltnismaßig einfache Kons-truktion darstellt. Beispielsweise werdenkeine Gewichte in der Definition der �hn-lichkeitsfunktion berucksichtigt [Tver77,333]. Zum anderen erfullt das Maß dieoben diskutieren Anforderungen.Die einzelnen �hnlichkeitswerte d(x, y)

fur das gegebene Pradikat P konnen in ei-ner Tabelle angeordnet werden (Bild 4).Die Vorspalte bzw. Kopfzeile der Tabelleenthalten die Argumente der Funktion d,die Zellen beschreiben den entsprechenden�hnlichkeitswert d(x, y).

3.3 Schritt 3: Analyse

Im dritten Schritt werden die bestimmten�hnlichkeitswerte naher analysiert und eswird entschieden, wie mit diesen umzuge-hen ist. Neben einer formalen Analyse derKonstrukte ist eine inhaltliche Analyse

WIRTSCHAFTSINFORMATIK 47 (2005) 2, S. 89–100

},1E,,2E,,1E{RO

},1E,,1E{RO

9886

985

�������

�����

nri1mit}n,E...,,,2E,,1E

...,...,...,...,

,n,E...,,,2E,,1E

,n,E...,,,2E,,1E{:RO

nei,nenene

i,2222

i,1111i

��������

������

�������

yx

yx

RORO

RORO:y)d(x,

(1) (2)

(3)

67,03

2

}1,E,2,E,1,E{

}1,E,1,E{

}1,E,2,E,1,E{}1,E,1,E{

}1,E,2,E,1,E{}1,E,1,E{

RORO

ROROd(5,6)

988

98

98898

98898

65

65��

������

�����

�����������

������������

��(4)

Bild 3 Bestimmung des �hnlichkeitsmaßes

R1 R2 R3 R4 R5 R6

R1 1,00R2 1,00 1,00R3 0,00 0,00 1,00R4 0,00 0,00 0,75 1,00R5 0,00 0,00 0,00 0,00 1,00R6 0,00 0,00 0,00 0,00 0,67 1,00

Legende: Ri Relation i

Bild 4 �hnlichkeitsmatrix

92 Peter Fettke, Peter Loos

Page 5: Zur Identifikation von Strukturanalogien in Datenmodellen; Identifying Structural Analogies in Data Models — A Procedure and its Application Exemplified by Scheer’s Y-CIM Reference

notwendig. Es bietet sich an, die Analysezweistufig vorzunehmen: In einem erstenSchritt werden strukturidentische, an-schließend -ahnliche Konstrukte in abstei-gender Reihenfolge untersucht.Ob eine identifizierte �hnlichkeit auch

inhaltlich zu begrunden ist, kann aus einem�hnlichkeitswert nicht erschlossen wer-den. Es wird nur deutlich, dass bestimmteformale Analogien vorliegen. Beim Nutzeneiner formalen �hnlichkeit sind zwei Vor-gehensweise zu unterscheiden. Zum einenkann ein Modellierer die Entscheidungtreffen, dass die Analogie zur Verein-fachung des Modells genutzt werden sollte.Dies ware bspw. dann der Fall, wenn beideKonstrukte denselben Sachverhalt repra-sentieren. Zum anderen kann ein Modellie-rer feststellen, dass die strukturanalogen

Modellausschnitte einen anderen fachli-chen Sachverhalt darstellen und daher nichtintegriert werden sollen. Allerdings ist esmoglich, die formale Analogie evtl. bei dertechnischen Implementierung des Modellszu nutzen. So kann bspw. ein Datentyp„Queue“ sowohl Kunden- als auch Fer-tigungsauftrage reprasentieren.Mogliche Handlungsoptionen zur Nut-

zung einer Strukturanalogie werden inBild 5 zusammenfassend dargestellt. Fall 1liegt vor, wenn die Strukturanalogie auffachlicher Ebene genutzt wird. Diese Opti-on bietet sich bspw. an, wenn verschiedeneKonstrukte in einem Modell bisher unbe-merkt denselben Sachverhalt reprasentie-ren, also redundant sind. Die strukturana-logen Konstrukte konnten aber auch ver-schiedene Sachverhalte reprasentieren, die

aufgrund der Analyse aus fachlicher Sichtintegriert betrachtet werden sollen. Dieskann bspw. der Fall sein, wenn zukunftigdieselben Modelle zur Beschreibung des

WIRTSCHAFTSINFORMATIK 47 (2005) 2, S. 89–100

Fachliche Nutzung

Fall 1 Technische Nutzung

Fall 2 Fall 3

Ja Nein

Ja Nein

Bild 5 Handlungsoptionen zur Nut-zung von Strukturanalogien

Fremdteil

Eigenteil

Artikel(Verkaufsteil)

Teil-Varianten-Zuordnung

Variante

Dispositions-stufen-

Zuordnung

Struktur-Varianten-Zuordnung

Teil

Teil-Merkmal-typ-Zuo.

Merkmaltyp

Bedarfs-ableitung

Auftrag(-sposition)

Bedarf(-sposition)

Auftrags(-kopf)

Bedarfs-deckung

Bedarfs-plan

Organisations-einheit

Primärbe-darfsplan

Primär-bedarfs-position

Zeitn

1

n

n

n

1

n

TeilTeil

n

n

n

1

n

n

n

n

n

n

n

n

n n

n

n

nn

n

n

n

n

n

n

nn

n

n

nn

n

n

nn

1

n

n

E2

E1

E19

E18

E20E17

E14

E12

E11

E10

E13

E9

E8

E7

E6

E5

E4

E3

E16

E15

R1

R9

R8

R7

R6

R5

R4

R3

R2

R18

R19

R17

R16

R14

R15

R12

R13

R11

R10

n

Dispositions-stufe

Enderzeugnis

Baugruppe

Einzelteil

Material

Lager-Zuordnung

Lagerort

Lager-bestand

Teil

Struktur

Struktur-merkmal-

Zuordnung

Merkmal

Merkmal-Gruppierung

Lagerraum

Reser-vierung

Lager-deckung

Prognosewert

tragspositionKundenauf-

Produktions-planung

Feinsteuerung

Bild 6 Referenzdatenmodell zur Bedarfsplanung nach Scheer (Quelle: [Sche97, 176], graphische Darstellung geringfugig modifiziert)

Zur Identifikation von Strukturanalogien in Datenmodellen 93

Page 6: Zur Identifikation von Strukturanalogien in Datenmodellen; Identifying Structural Analogies in Data Models — A Procedure and its Application Exemplified by Scheer’s Y-CIM Reference

WIRTSCHAFTSINFORMATIK 47 (2005) 2, S. 89–100

(1) x = <E1, E2, E3, E4, E5, E6, E7, E8, E9, E10, E11, E12, E13, E14,

E15, E16, E17, E18, E19, E20, R1, R2, R3, R4, R5, R6, R7, R8, R9,

R10, R11, R12, R13, R14, R15, R16, R17, R18, R19>

(2) E1 ist eine Menge („Fremdteil“)

(3) E2 ist eine Menge („Eigenteil“)

(4) E3 ist eine Menge („Artikel (Verkaufsteil)“)

(5) E4 ist eine Menge („Dispositionsstufe“)

(6) E5 ist eine Menge („Enderzeugnis“)

(7) E6 ist eine Menge („Baugruppe“)

(8) E7 ist eine Menge („Einzelteil“)

(9) E8 ist eine Menge („Material“)

(10) E9 ist eine Menge („Variante“)

(11) E10 ist eine Menge („Lagerort“)

(12) E11 ist eine Menge („Teil“)

(13) E12 ist eine Menge („Merkmal“)

(14) E13 ist eine Menge („Lagerraum“)

(15) E14 ist eine Menge („Merkmaltyp“)

(16) E15 ist eine Menge („Kundenauftragsposition“)

(17) E16 ist eine Menge („Prognosewert“)

(18) E17 ist eine Menge („Organisationseinheit“)

(19) E18 ist eine Menge („Produktionsplanung“)

(20) E19 ist eine Menge („Feinsteuerung“)

(21) E20 ist eine Menge („Zeit“)

(22) R1 � E9 × E11 („Teil-Varianten-Zuordnung“)

(23) R2 � E4 × E11 („Dispositionsstufen-Zuordnung“)

(24) R3 � E9 × R6 � E9 × (E11 × E11) („Struktur-Varianten-Zuordnung“)

(25) R4 � E10 × E13 („Lager-Zuordnung“)

(26) R5 � E10 × E11 („Lagerbestand“)

(27) R6 � E11 × E11 („Struktur“)

(28) R7 � R6 × R11 × E12 � (E11 × E11) × (E11 × E14) × E12 („Struktur-Merkmal-Zuordnung“)

(29) R8 � E12 × E14 („Merkmalgruppierung“)

(30) R9 � R5 × R13 � (E10 × E11) × R13 � (E10 × E11) × (E20 × (E17 × E17 × E20) × E11) („Reservierung“)

(31) R10 � R5 × R14 � (E10 × E11) × R14 � (E10 × E11) × (E20 × (E17 × E17 × E20) × E11) („Lagerdeckung“)

(32) R11 � E11 × E14 („Teilmerkmal-Zuordnung“)

(33) R12 � R13 × R14

� (E20 × (E17 × E17 × E20) × E11) × (E20 × (E17 × E17 × E20) × E11) („Bedarfsableitung“)

(34) R13 � E20 × R16 × E11 � E20 × (E17 × E17 × E20) × E11 („Auftrag(-sposition)“)

(35) R14 � E20 × R17 × E11 � E20 × (E17 × E17 × E20) × E11 („Bedarf(-sposition)“)

(36) R15 � R13 × R14

� (E20 × (E17 × E17 × E20) × E11) × (E20 × (E17 × E17 × E20) × E11) („Bedarfsdeckung“)

(37) R16 � E17 × E17 × E20 („Auftragskopf“)

(38) R17 � E17 × E17 × E20 („Bedarfsplan“)

(39) R18 � E3 × R19 × E20 � E3 × (E17 × E17 × E20) × E20 („Primärbedarfsposition“)

(40) R19 � E17 × E17 × E20 („Primärbedarfsplan“)

Definition: x ist ein B („Bedarfsplanung“) genau dann, wenn Ei und Rj mit

i�{1, ..., 20} und j�{1, ..., 19} existieren, sodass gilt:

Bild 7 Pradikat des Referenzdatenmodells zur Bedarfsplanung

E 1 E 2 E 3 E 4 E 5 E 6 E 7 E 8 E 9 E 10 E 11 E 12 E 13 E 14 E 15 E 16 E 17 E 18 E 19 E 20

R 1 2 1 1

R 2 2 1 1R 3 3 1 2

R 4 2 1 1R 5 2 1 1

R 6 2 2R 7 5 3 1 1R 8 2 1 1

R 9 7 1 2 2 2R 10 7 1 2 2 2

R 11 2 1 1R 12 10 2 4 4

R 13 5 1 2 2R 14 5 1 2 2

R 15 10 2 4 4R 16 3 2 1

R 17 3 2 1R 18 5 1 2 2R 19 3 2 1

Legende: Ri Relation i, E i Menge i

MengenRela-tionen

Grad

Bild 8 Zusammenhang zwischen Mengen und Relationen im Referenzdatenmodell

94 Peter Fettke, Peter Loos

Page 7: Zur Identifikation von Strukturanalogien in Datenmodellen; Identifying Structural Analogies in Data Models — A Procedure and its Application Exemplified by Scheer’s Y-CIM Reference

Eingangs- und des Ausgangslagers verwen-det werden [Beck01, 173–189].

Falls eine Strukturanalogie nicht auf derfachlichen Ebene genutzt wird, kann sietrotzdem auf einer technischen Ebene be-rucksichtigt werden (Fall 2). In diesem Fallbleiben die strukturanalogen Konstrukteauf fachlicher Ebene getrennt, werden aberauf der technischen Ebene integriert. Furdas zuvor geschilderte Beispiel eines Ein-gangs- und eines Ausgangslagers bedeutetdieser Fall, dass auf der fachlichen Ebeneweiterhin zwischen unterschiedlichen La-gerarten unterschieden wird. Allerdingswerden aus technischer Sicht dieselbenStrukturen zur Reprasentation der Inhalteverwendet.

Falls die Strukturanalogie weder auf derfachlichen noch auf der technischen Ebenegenutzt wird, liegt Fall 3 vor. Beispielswei-se konnte gegen die Ausnutzung der Struk-turanalogie sprechen, dass eine Integrationmit hohem Aufwand verbunden ware oderdass zukunftig unterschiedliche Anforde-rungen an die strukturanalogen Konstruktegestellt werden.

4 Beispiel

4.1 Einfuhrung

Im Folgenden wird das zuvor vorgestellteVerfahren zur Identifikation von Struktur-

analogien im Y-CIM-Referenzmodell vonScheer [Sche97] angewendet. Es wird nichtdas gesamte Modell, sondern nur ein Aus-schnitt untersucht. Als Ausschnitt wird dasReferenzdatenmodell zur Bedarfsplanungausgewahlt [Sche97, 96–209] (Bild 6). DieBedarfsplanung umfasst nach Scheer dieBedarfsermittlung an selbstgefertigten undfremdbezogenen Teilen sowie die Verwal-tung der Lager und die Beschaffung vonFremdteilen. Damit ist die Bedarfsplanungeine zentrale Funktionalitat in einem Sys-tem zur Produktionsplanung und -steue-rung. Das Y-CIM-Modell wird zur De-monstration des Verfahrens ausgewahlt,weil es sowohl relativ umfangreich ist alsauch laut Scheer eine gewisse Verbreitung

WIRTSCHAFTSINFORMATIK 47 (2005) 2, S. 89–100

R 1 R 2 R 3 R 4 R 5 R 6 R 7 R 8 R 9 R 10 R 11 R 12 R 13 R 14 R 15 R 16 R 17 R 18 R 19

R 1 1,00

R 2 0,33R 3 0,67 0,25R 4 0,00 0,00 0,00R 5 0,33 0,33 0,25 0,33R 6 0,33 0,33 0,67 0,00 0,33R 7 0,17 0,17 0,33 0,00 0,17 0,40R 8 0,00 0,00 0,00 0,00 0,00 0,00 0,40R 9 0,13 0,13 0,25 0,13 0,29 0,29 0,20 0,00R 10 0,13 0,13 0,25 0,13 0,29 0,29 0,20 0,00 1,00

R 11 0,13 0,33 0,25 0,00 0,33 0,33 0,40 0,33 0,13 0,13R 12 0,09 0,09 0,18 0,00 0,09 0,20 0,15 0,00 0,55 0,55 0,09R 13 0,17 0,17 0,14 0,00 0,17 0,17 0,11 0,00 0,71 0,71 0,17 0,50R 14 0,17 0,17 0,14 0,00 0,17 0,17 0,11 0,00 0,71 0,71 0,17 0,50 1,00

R 15 0,09 0,09 0,18 0,00 0,09 0,20 0,15 0,00 0,55 0,55 0,09 1,00 0,50 0,50R 16 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,43 0,43 0,00 0,30 0,60 0,60 0,30R 17 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,43 0,43 0,00 0,30 0,60 0,60 0,30 1,00

R 18 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,50 0,50 0,00 0,36 0,67 0,67 0,36 0,60 0,60R 19 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,43 0,43 0,00 0,30 0,60 0,60 0,30 1,00 1,00 0,60Legende: Ri Relation i

1,00

1,00

1,00

1,00

1,00

1,00

1,00

1,00

1,00

1,00

1,00

1,00

1,00

1,00

1,00

1,00

1,00

1,00

Bild 9 �hnlichkeitsmatrix fur das Referenzdatenmodell

33,03

1

}1,E,1,E,1,E{

}1,E{

}1,E,1,E{}1,E,1,E{

}1,E,1,E{}1,E,1,E{:

RORO

ROROd(1,2)

1194

11

114119

114119

21

21��

������

��

���������

���������

Bild 10 Exemplarische Berechnung des �hnlichkeitswertes zwischen R1 und R2

Zur Identifikation von Strukturanalogien in Datenmodellen 95

Page 8: Zur Identifikation von Strukturanalogien in Datenmodellen; Identifying Structural Analogies in Data Models — A Procedure and its Application Exemplified by Scheer’s Y-CIM Reference

gewonnen hat und in „zahlreichen Projek-ten“ erfolgreich angewendet wurde[Sche97, V, 94; Sche04, 12].

4.2 Schritt 1: Vorbereitung

Im ersten Schritt wird ein Pradikat defi-niert, welches das Referenzdatenmodellzur Bedarfsplanung reprasentiert. Dies ge-schieht wie in Bild 7 dargestellt.Auf die Angabe von Spezialisierungs-

beziehungen und auf aus Kardinalitaten re-sultierende Restriktionen wird hier be-wusst verzichtet, da diese im Folgendenkeine Rolle spielen werden (siehe auch an-schließende Diskussion in Abschnitt 5).Diese konnen bei Bedarf erganzt werden.

4.3 Schritt 2: Messung

Zunachst ist zu ermitteln, auf welchenMengen die eingefuhrten Relationen defi-niert sind. Dieser Zusammenhang ist inBild 8 angegeben. Beispielsweise wird ausdem Bild ersichtlich, dass die Relation R1

auf den Mengen E9 und E11 und die Rela-tion R2 auf den Mengen E4 und E11 defi-niert sind. Bild 9 zeigt die �hnlichkeits-werte des in Abschnitt 3.2 eingefuhrtenMaßes. Beispielsweise berechnet sich der�hnlichkeitswert zwischen den RelationenR1 und R2 wie in Bild 10 dargestellt (sieheden Wert in der Spalte R1 und der Zeile R2

in Bild 9).

4.4 Schritt 3: Analyse

Es folgt eine Analyse der ermittelten �hn-lichkeitswerte. Zunachst wird auf Struk-turidentitaten, anschließend auf -ahnlich-keiten eingegangen. Die Handlungsmog-lichkeiten werden am ersten Beispielausfuhrlicher dargelegt.Um Strukturanalogien zu erkennen, sind

die in Bild 9 angegebenen �hnlichkeits-werte zu untersuchen. Die Relationen R16,R17 und R19 sind strukturidentisch, weildie entsprechenden �hnlichkeitswerte denWert 1 annehmen (siehe bspw. den Wert inder Spalte R16 und der Zeile R19 in der Ta-belle). Formal handelt es sich jeweils um ei-ne dreistellige Relation, die auf den Men-gen E20 („Zeit“) und E17 („Organisations-einheit“) definiert ist, wobei die Menge E17

in zwei verschiedenen Rollen in die jeweili-ge Relation eingeht. Elemente dieser Rela-tionen reprasentieren jeweils einen Auf-tragskopf bzw. einen (Primar-)Bedarfsplan.Die Strukturidentitat findet sich nicht

nur auf der Kopfebene von Auftragen, son-dern auch auf der Positionsebene. Hierbeisind die Relationen R13 („Auftragspositi-on“) und R14 („Bedarf(-sposition)“) struk-turidentisch. Inhaltlich handelt es sich umdie Beziehung zwischen einem Auftrags-kopf bzw. einem Bedarfsplan und einemTeil. Die intuitive Analyse des Daten-modells konnte den Anschein erwecken, eshandele sich um strukturahnliche, abernicht um strukturidentische Konstrukte.

Zwar sind beide Relationen auf der MengeE11 („Teil“) definiert, aber die anderen zurDefinition benotigten Mengen scheinen beieinem Blick auf das Datenmodell in Bild 6verschieden zu sein (Relation R16 und R17).Indes zeigen die entsprechenden Werte der�hnlichkeitsmatrix in Bild 8 (R13 undR14), dass beide Relationen identisch defi-niert sind. Es handelt sich jeweils um funf-stellige Relationen, die beide auf den Men-gen E17 („Organisationseinheit“, 2 mal),E20 („Zeit“, 2 mal) und E11 („Teil“) defi-niert sind. Eine weitere Strukturidentitatergibt sich zwischen den Relationen R12

und R15 („Bedarfsableitung“ bzw. „Be-darfsdeckung“).Die obigen Strukturidentitaten ermogli-

chen eine Anpassung des Datenmodells,indem strukturanaloge Modellteile inte-griert werden. Dieser Sachverhalt wird inder Literatur auch als Datenstrukturinte-gration thematisiert [Beck01]. Der relevan-te Ausschnitt und eine mogliche Daten-strukturintegration werden in Bild 11 dar-gestellt. Das Diagramm in Bild 11bentsteht aus dem Originaldiagramm inBild 11a, indem samtliche strukturidenti-schen Konstrukte integriert werden (R12

und R15 werden zu R012, R13 und R14 wer-

den zu R013 sowie R16 und R17 werden zu

R016). Wenn die Datenstrukturintegration

ohne zusatzliche Maßnahmen vorgenom-men wird, sind unterschiedliche Belegartenim Datenmodell nicht mehr unterscheid-bar. Falls die fehlende Differenzierung

WIRTSCHAFTSINFORMATIK 47 (2005) 2, S. 89–100

Bedarfs-ableitung

Auftrag(-sposition)

Bedarf(-sposition)

Auftrag(-skopf)

Bedarfs-deckung

Bedarfs-plan

Organisations-einheit Zeit

Teil

n n

n

n

n

n

nn

n

n

n

n

Beleg-beziehung

Beleg-position Belegkopf

Organisations-einheit Zeit

Teil

n

n nn

n

n

(b) Ausnutzung der Strukturidentität ("Datenstrukturintegration")(a) Strukturidentität

n n

n

nn

R13 R16

R14 R17

R12

R15

E11

E17 E20

E11

E17 E20R'12

R'13 R'16

Bild 11 Handlungsoption zur Nutzung der Strukturanalogie

96 Peter Fettke, Peter Loos

Page 9: Zur Identifikation von Strukturanalogien in Datenmodellen; Identifying Structural Analogies in Data Models — A Procedure and its Application Exemplified by Scheer’s Y-CIM Reference

nicht akzeptabel ist, kann bspw. die Beleg-art mithilfe eines zusatzlichen Attributs ge-kennzeichnet werden.Ob die formale Unterscheidung inhalt-

lich gerechtfertigt ist, lasst sich nicht ohneweitere Informationen entscheiden. Indesist zu vermuten, dass ein Primarbedarfs-plan inhaltlich anders auszudeuten ist alsein Auftragskopf bzw. ein Bedarfsplan.Hier ware eine detaillierte Analyse der An-wendungsdomane notwendig. Selbst wennvermutlich aufgrund einer genauen inhalt-lichen Analyse eine Differenzierung not-wendig erscheint, kann die Strukturanalo-gie auf technischer Ebene genutzt werden.Mogliche �berlegungen werden am Bei-spiel der Realisierung des Referenzmodellsfur drei Szenarien angefuhrt:a) Entwurf eines relationalen Datenbank-

modells,b) Implementierung notwendiger Klassen

bei der Programmierung undc) Identifikation generischer Strukturen.Ad a) Bei der Umsetzung des Daten-

modells in ein relationales Datenbank-modell muss keineswegs zwingend jede derdrei Relation R16, R17 und R19 in einer eige-nen Tabelle implementiert werden. Mitdem Wort „Tabelle“ ist hier eine im Daten-banksystem implementierte Relation ge-meint. Aus Sicht des relationalen Daten-bankmodells handelt es sich um eine Rela-tion. In diesem Kontext wird das Wort„Relation“ allerdings ausschließlich fur Re-lationen des Pradikats B verwendet, um ei-ne sprachliche Differenzierung der unter-schiedlichen Sachverhalte zu gewahrleisten.Beispielsweise konnte bei der Implementie-rung eine Integration der drei Relationenvorgenommen werden. Selbst dann wareeine Differenzierung moglich, indem bspw.die zur Reprasentation der Relation ge-nutzte Tabelle um ein zusatzliches Attributerganzt wird. Das Attribut beschreibt, obder Tupel einen Auftragskopf oder einenBedarfsplan etc. reprasentiert. Eine solcheRealisierung ware durchaus angemessen,wenn keine weiteren inhaltlichen Grundegegen eine Differenzierung sprechen. Da-gegen erscheint diese Option bspw. un-gunstig, falls zusatzliche Integritatsbedin-gungen vorliegen oder die Leistung derDatenabfrage von Bedeutung ist.Ad b) Bei der Realisierung einer Klasse

in einer Programmiersprache ist es denk-bar, statt drei speziellen Datenstrukturenfur die Verwaltung von Auftragen bzw.(Primar-)Bedarfsplanen eine einzige Klassezu konzipieren, die fur alle drei angespro-chenen Falle instanziiert werden kann.Auch bei diesem Vorgehen lassen sich ohneweitere inhaltliche �berlegungen keine

Entscheidungsempfehlungen aussprechen.Ein Argument gegen eine mogliche Inte-gration ist bspw., dass die Operationen aufdiesen Klassen eine grundlegend unter-schiedliche fachliche Bedeutung haben unddaher nicht sinnvoll in eine Ober- und Un-terklassenbeziehung eingeordnet werdenkonnen.Ad c) Ferner kann die identifizierte

Strukturanalogie genutzt werden, um einegenerische Struktur [Loos96] zu definie-ren. Wenn dieses Konzept favorisiert wird,ist eine zusatzliche Menge „Belegtyp“ ein-zufuhren. Elemente dieser Menge wie„Auftrag“ oder „(Primar-)Bedarf“ repra-sentieren unterschiedliche Belegarten (ana-log sind Mengen fur Belegposition sowiefur Belegbeziehungen einzufuhren). Somitkonnten weiterhin Differenzierungen zwi-schen Auftragen und (Primar-)Bedarfenvorgenommen werden. Gleichzeitig ent-steht ein zusatzliches Flexibilitatspotenzial,da zur Laufzeit neue Typen von unter-schiedlichen Belegen eingefuhrt werdenkonnen. Dies zeigt, dass das vorgestellteVerfahren auch zur Identifikation von ge-nerischen Strukturen eingesetzt werdenkann.Die zuvor dargestellten Nutzungsmog-

lichkeiten von Strukturanalogien sind furdie folgenden Falle analog und werden da-her nicht erneut angefuhrt.Eine weitere Strukturidentitat findet sich

zwischen den Relationen R9 und R10 („Re-servierung“ bzw. „Lagerdeckung“). Dieseergibt sich aus den zuvor diskutiertenStrukturidentitaten der Relationen R14 undR19. Lagerdeckungen und Reservierungensind demnach strukturidentisch, obwohlsie zunachst auf unterschiedlichen Mengendefiniert zu sein scheinen.Im Folgenden werden exemplarisch

Strukturanalogien betrachtet, welche rela-tiv hohe �hnlichkeitswerte aufweisen, aberkeine Strukturidentitat darstellen. Die Re-lationen R9 und R13 („Reservierung“ und„Auftrag(-sposition)“) besitzen einen �hn-lichkeitsgrad von 0,71. Da die siebenstelligeRelation R9 auf der funfstelligen RelationR13 definiert ist, uberrascht der hohe Wertnicht. Allerdings ist R9 zusatzlich auf denMengen E10 („Lagerort“) und E11 („Teil“)definiert. Aufgrund von bereits angespro-chenen Strukturidentitaten besteht zwi-schen den Relationen R9 und R14 bzw. R10

und R13 sowie R10 und R14 derselbe �hn-lichkeitsgrad von 0,71.Den dritthochsten �hnlichkeitsgrad

(0,67) besitzt die Relationen R18 („Primar-bedarfsposition“) zu den beiden struk-turidentischen Relationen R13 und R14

(„Auftrags(-position)“, „Bedarf(-spositi-

on)“). Dabei unterscheidet sich eine Pri-marbedarfsposition von einer Auftrags-bzw. Bedarfsposition in der Art, dass dieseauf der Menge E3 („Artikel“), jene auf derMenge E11 („Teil“) definiert ist. Gleichzei-tig ist die Menge E3 eine Untermenge vonE11. Folglich ruhrt die Strukturahnlichkeitzwischen den Relation R18 und R13 bzw.R14 daher, dass R18 nicht fur alle, sondernnur fur bestimmte Elemente aus E11 defi-niert ist. Inhaltlich gedeutet bedeutet dies,dass Auftrags- bzw. (Primar-)Bedarfsposi-tionen mit einer Einschrankung struktur-identisch sind: Wahrend Primarbedarfs-positionen nur im Kontext von Artikelnsinnvoll definiert sind, konnen Auftrags-und Bedarfspositionen fur samtliche Artenvon Teilen definiert werden.

Weitere Analysen konnen analog vor-genommen werden. Ferner ware insbeson-dere eine Untersuchung der Mengen vonInteresse. Diese kann aber im betrachtetenBeispiel nicht sinnvoll vorgenommen wer-den, weil abgesehen von Schlusselattribu-ten keine weiteren Attribute angegebensind. Folglich waren samtliche Mengenstrukturidentisch – ein wenig spektakula-res Ergebnis.

5 Diskussion

Dieser Abschnitt diskutiert die einzelnenSchritte des zuvor vorgestellten Verfahrenssowie seiner Anwendung auf das Referenz-modell von Scheer.

5.1 Ad Schritt 1: Vorbereitung

Die im ersten Schritt verwendete Formali-sierung versteht die Bezeichner im ER-Diagramm (im Beispiel „Teil“, „Auftrag“,„Zeit“ etc.) ausschließlich als Namen furMengen, ohne daruber hinaus eine be-stimmte Bedeutung zu unterstellen („nack-te“ Zeichenketten). Daher ist es fur dasVerfahren unerheblich, ob ein Bezeichnerbspw. „Kunde“ , „KND“ oder „Custo-mer“ lautet. Es stellt sich die Frage, wie diegegebenen Bezeichner zur Identifikationvon Strukturanalogien nutzbar sind. Bei-spielsweise konnten diejenigen Entitats-typen als ahnlich verstanden werden, dieim ER-Diagramm einen ahnlichen Be-zeichner tragen. Dieser Weg wirft aber dieFrage auf, unter welcher Bedingung zweiBezeichner ahnlich sind. Zunachst bietetsich ein rein syntaktisches Kriterium an. Indiesem Fall waren bspw. die Bezeichner„Kunde“ und „Kunden“ als ahnlich ein-zustufen. Anspruchsvollere Verfahren ver-

WIRTSCHAFTSINFORMATIK 47 (2005) 2, S. 89–100

Zur Identifikation von Strukturanalogien in Datenmodellen 97

Page 10: Zur Identifikation von Strukturanalogien in Datenmodellen; Identifying Structural Analogies in Data Models — A Procedure and its Application Exemplified by Scheer’s Y-CIM Reference

binden mit einem Bezeichner eine spezielleBedeutung. Dann waren bspw. die Be-zeichner „Kunde“ und „Geschaftspartner“als ahnlich einzustufen. Indes besteht keineeinheitliche theoretische Auffassung, wasunter der Bedeutung eines Wortes zu ver-stehen sei [Lyon80, 15–18].Das vorgestellte Verfahren bezieht sich

unmittelbar auf ER-Diagramme. Daruberhinaus konnen die Ausfuhrungen auf ande-re Notationen fur Datenmodelle, insbeson-dere Klassenmodelle, ubertragen werden.Ebenso ist es interessant, Strukturanalogienin anderen Modellierungssichten naher zuuntersuchen. Um bspw. Strukturanalogienin Prozessmodellen zu entdecken, mussen�hnlichkeiten zwischen einzelnen Pro-zessfunktionen bzw. Reihenfolgebeziehun-gen alternativer Prozessstrange untersuchtwerden. Weitere Potenziale fur kunftigeArbeiten ergeben sich bei der sichten-ubergreifenden Berucksichtung von Struk-turanalogien [BeSc97, 441–443].

5.2 Ad Schritt 2: Messung

Im zweiten Schritt wird ein spezielles �hn-lichkeitsmaß vorgestellt. Die Funktions-weise des Maßes beruht auf einer intuitivenIdee der �hnlichkeit zwischen zwei Kons-trukten: Ein Wert von 0 kann als vollkom-mene Verschiedenheit, ein Wert von 1 alsIdentitat der Konstrukte interpretiert wer-den. Ferner handelt es sich bei dem vor-geschlagenen Maß um eine einfache Maß-zahl, die in zahlreichen anderen Anwen-dungen genutzt wird [Tver77, 333].Allerdings sind prinzipiell andere �hnlich-keitsmaße denkbar. Beispielsweise konnenverschiedene Aspekte mit unterschiedli-chen Gewichtungen berucksichtigt wer-den. Folglich wird es erforderlich, die Leis-tungsfahigkeit alternativer �hnlichkeits-maße naher zu untersuchen.Die Bestimmung von �hnlichkeitswer-

ten im vorgestellten Verfahren konnte zu-satzliche Aspekte berucksichtigen: Zu-nachst nutzt das Verfahren keine Informa-tionen auf Auspragungsebene. Ebensowurde der Einfluss von Kardinalitaten,Spezialisierungsoperationen und Attribu-ten nicht berucksichtigt. Diese Aspekte lie-fern zusatzliche Informationen zur Cha-rakterisierung einer Strukturanalogie. Eskonnte bspw. bei der Analyse von Kardi-nalitaten festgestellt werden, dass dieseidentisch sind, Ober- und Untermengen-verhaltnisse (Kardinalitaten von (0,1) und(0,n)) vorliegen bzw. beide Relationen kei-ne gemeinsamen Elemente enthalten (Kar-dinalitaten von (1,1) und (2,2)). Derartige

Differenzierungen fuhren zu der Frage, ob�hnlichkeiten in Bezug auf Kardinalitatenund in Bezug auf Mengen in gleicher Ge-wichtung zueinander stehen. Dies verdeut-licht, dass der Begriff der Strukturanalogieweiter auszudifferenzieren ist.Das vorgestellte Verfahren konzentriert

sich bei der Identifikation auf �hnlichkei-ten zwischen einzelnen Konstrukten. Zu-nachst erscheint es, dass nur auf einzelneKonstrukte bezogene Strukturanalogienidentifizierbar sind und keine �hnlichkei-ten, die zwischen einer großeren Mengevon Konstrukten bestehen. Allerdings hatdie Beispielanwendung gezeigt, dass auchAnalogien zwischen einer großeren Mengevon Konstrukten entdeckt werden konnen(vgl. Bild 11).

5.3 Ad Schritt 3: Analyse

Allgemein konnte gegen die erzielten Er-gebnisse argumentiert werden, dass dieidentifizierten Strukturanalogien trivialsind, da diese unmittelbar aus der Darstel-lung des ER-Diagramms ersichtlich wer-den. Dieses Argument scheint bspw. beiden im Beispiel angesprochenen �hnlich-keiten zwischen den Relationen R12 undR15 zutreffend. Allerdings ist eine intuitiveIdentifizierung gerade deswegen leichtmoglich, weil zur Darstellung des Beispielseine ERM-Variante verwendet wird, dieuber so genannte uminterpretierte Bezie-hungstypen (bspw. R5 in Bild 6) verfugt.Falls eine Modellierungssprache keine um-interpretierten Beziehungstypen kennt,ware die Identifizierung der Strukturanalo-gie ungleich schwerer. Dies zeigt, dass um-interpretierte Beziehungstypen einen Bei-trag zur Identifikation und Nutzung vonStrukturanalogien in Datenmodellen leis-ten und in diesem Sinne ein wichtigesKonstrukt der Datenmodellierung darstel-len. Ferner ist zu bedenken, dass in großenDiagrammen die Modelldarstellung schnellunubersichtlich wird. Folglich ist eine in-tuitive graphische Analyse des Diagrammskaum moglich.Abschließend sei darauf hingewiesen,

dass die Nutzung von Strukturanalogiendurchaus mit Nachteilen verbunden seinkann. Vermutlich ist bspw. ein integriertesDatenmodell fur den Endanwender schwe-rer verstandlich. Losungen fur diese Prob-leme sind indes unabhangig von der in die-sem Beitrag fokussierten Frage der Identi-fikation von Strukturanalogien.

6 Resumee

Strukturanalogien sind ein bekanntes Mit-tel zur Komplexitatsreduzierung von Da-tenmodellen. Zwar wird in der Literaturdie Bedeutung von Strukturanalogien beider Modellierung hervorgehoben, aller-dings sind keine Verfahren zur Identifikati-on von Strukturanalogien bekannt. In demBeitrag wird erstmalig ein Verfahren vor-gestellt, mit dem Datenmodelle systema-tisch hinsichtlich Strukturanalogien unter-sucht werden konnen. Ferner werden mit-hilfe des Verfahrens Strukturidentitatenund -ahnlichkeiten im Y-CIM-Modell vonScheer aufgedeckt und ihre Konsequenzendiskutiert. Die Diskussion zeigt u. a. auch,dass uminterpretierte Beziehungstypen dieIdentifikation von Strukturanalogien inDatenmodellen unterstutzen.Das vorgestellte Verfahren ist nutzlich in

der Praxis, um Strukturanalogien in Mo-dellen zu identifizieren. Aufgrund der vor-gestellten Formalisierung des Verfahrenskonnen Modellierungswerkzeuge leichtum eine entsprechende Funktionalitat er-weitert werden. Ein um diese Funktionali-tat erweitertes Modellierungswerkzeug istin der Lage, den Modellierer bereits wah-rend der Modellerstellung automatisiertuber Strukturanalogien zu unterrichten.

Neben der praktischen Anwendungkann das Verfahren auch in der Forschunggenutzt werden, um bspw. Strukturanalo-gien in den zahlreich vorhandenen Refe-renzmodellen zu entdecken [FeLo04]. Der-artige Untersuchungen erlauben eine Ver-einfachung und Konsolidierung desReferenzmodellbestands.Die Reflexion der gewonnenen Ergeb-

nisse in Abschnitt 5 hat weitere Ansatz-punkte fur die zukunftige Forschung auf-gezeigt. Neben Verfeinerungen und Ergan-zungen des Verfahrens erscheint esinsbesondere sinnvoll, Erfahrungen impraktischen Umgang mit Strukturanalogienzu gewinnen und prazise Handlungsemp-fehlungen zur Nutzung von Strukturana-logien zu entwickeln.

Danksagung

Die Autoren bedanken sich bei den vieranonymen Gutachtern fur ihre nutzlichenund konstruktiven Kommentare. Ebensohaben die Hinweise und Anmerkungenvon Thomas Deelmann, Kai Pastor, Kam-yar Sarshar und Jorg Zwicker den Beitragverbessert.

WIRTSCHAFTSINFORMATIK 47 (2005) 2, S. 89–100

98 Peter Fettke, Peter Loos

Page 11: Zur Identifikation von Strukturanalogien in Datenmodellen; Identifying Structural Analogies in Data Models — A Procedure and its Application Exemplified by Scheer’s Y-CIM Reference

Literatur

[BaLN86] Batini, Carlo; Lenzerini, Maurizio; Na-vathe, Shamkant B.: A Comparative Analysis ofMethodologies for Database Schema Integration.In: ACM Computing Surveys 18 (1986) 4, S.323–364.

[Balz97] Balzer, Wolfgang: Die Wissenschaft undihre Methoden – Grundsatze der Wissenschafts-theorie – Ein Lehrbuch. Freiburg, Munchen1997.

[Beck01] Becker, Jorg: CIM-Integrationsmodell –Die EDV-gestutzte Verbindung betrieblicher Be-reiche. Berlin et al. 1991.

[Beck95] Becker, Jorg: Strukturanalogien in Infor-mationsmodellen – Ihre Definition, ihr Nutzenund ihr Einfluß auf die Bildung der Grundsatzeordnungsmaßiger Modellierung (GoM). In:Wolfgang Konig (Hrsg.): Wirtschaftsinformatik’95 – Wettbewerbsfahigkeit, Innovation, Wirt-schaftlichkeit. Heidelberg 1995, S. 133–150.

[BEPW96] Backhaus, Klaus; Erichson, Bernd; Plin-ke, Wulff; Weiber, Rolf: Multivariate Analyseme-thoden – Eine anwendungsorientierte Einfuh-rung. Berlin et al. 1996.

[BeSc04] Becker, Jorg; Schutte, Reinhard: Handels-informationssysteme – Domanenorientierte Ein-fuhrung in die Wirtschaftsinformatik. 2. Aufl.,Frankfurt a. M. 2004.

[BeSc97] Becker, Jorg; Schutte, Reinhard: Refe-renz-Informationsmodelle fur den Handel: Be-griff, Nutzen und Empfehlungen fur die Gestal-tung und unternehmensspezifische Adaptionvon Referenzmodellen. In: Hermann Krallmann(Hrsg.): Wirtschaftsinformatik ’97 – Internatio-nale Geschaftstatigkeit auf der Basis flexibler Or-ganisationsstrukturen und leistungsfahiger Infor-mationssysteme. Heidelberg 1997, S. 427–448.

[Broc03] vom Brocke, Jan: Referenzmodellierung –Gestaltung und Verteilung von Konstruktions-prozessen. Berlin 2003.

[BSGI03] Becker, Jorg; Schutte, Reinhard; Geib,Thomas; Ibershoff, H.: Grundsatze ordnungs-maßiger Modellierung (GoM) – Sachbericht vom23. Marz 2000. http://www-wi.uni-muenster.de/is/projekte/gom/Abschlussbericht/GOM_Schlussbericht.pdf, Abruf am 2004-12-09.

[Chen76] Chen, Peter Pin-Shan: The Entity-Rela-tionship Model – Toward a Unified View ofData. In: ACM Transactions on Database Sys-tems 1 (1976) 1, S. 9–36.

[CoGo70] Corneil, D.; Gotlieb, C.: An efficient al-gorithm for graph isomorphism. In: Journal ofthe Association for Computing Machinery 17(1970) 1, S. 51–64.

[Conr02] Conrad, Stefan: Schemaintegration – In-tegrationskonflikte, Losungsansatze, aktuelleHerausforderungen. In: Informatik – Forschungund Entwicklung 17 (2002), S. 101–111.

[DiFo02] Ding, Ying; Foo, Schubert: Ontology re-search and development. Part 2 – a review ofmapping and evolving. In: Journal of Informa-tion Science 28 (2002) 5, S. 383–396.

[ElWH85] Elmasri, R.; Weeldreyer, J.; Hevner, A.:The category concept: An extension to the en-tity-relationship model. In: Data & KnowledgeEngineering 1 (1985), S. 75–116.

[FeLo04] Fettke, Peter; Loos, Peter: Referenzmo-dellierungsforschung. In: Wirtschaftsinformatik46 (2004) 5, S. 331–340.

[Ferb02] Ferber, Reginald: Dokumentensuche undDokumentenerschließung. In: Peter Rechenberg;Gustav Pomberger (Hrsg.): Informatik-Hand-buch. 3. Aufl., Munchen, Wien 2002, S.913–961.

[GHJV95] Gamma, Erich; Helm, Richard; John-son, Ralph; Vlissides, John: Design Patterns –Elements of Reusable Object-Oriented Soft-ware. Reading, MA, et al. 1995.

[Hemp52] Hempel, Carl G.: Fundamentals ofConcept Formation in Empirical Science. Chica-go 1952.

[HMPR04] Hevner, Alan R.; March, Salvatore T.;Park, Jinsoo; Ram, Sudha: Design Science in In-formation Systems Research. In: MIS Quarterly28 (2004) 1, S. 75–105.

[HoMU01] Hopcroft, John E.; Motwani, Rajeev;Ullmann, Jeffrey D.: Introduction to AutomataTheory, Languages, and Computation. 2. Aufl.,Boston et al. 2001.

[KaSc03] Kalfoglou, Yannis; Schorlemmer, Marco:Ontology mapping: the state of the art. In: TheKnowledge Engineering Review 18 (2003) 1, S.1–31.

[KiSR04] Kishore, Rajiv; Sharman, Raj; Ramesh,Ram: Computational Ontologies and Informa-tion Systems: I. Foundations. In: CAIS – Com-munications of the AIS 14 (2004), S. 158–183.

[Loos96] Loos, Peter:Geschaftsprozeßadaquate In-formationssystemadaption durch generischeStrukturen. In: Gottfried Vossen; Jorg Becker(Hrsg.): Geschaftsprozeßmodellierung undWorkflow-Management – Modelle, Methoden,Werkzeuge. Bonn et al. 1996, S. 163–175.

[Lyon80] Lyons, John: Semantik – Band I. Mun-chen 1980.

[Moog85] Moog, Walter: �hnlichkeits- und Analo-gielehre. Dusseldorf 1985.

[PaSp98] Parent, Christine; Spaccapietra, Stefano:Issues and Approaches of Database Integration.In: Communications of the ACM 41 (1998) 5, S.166–178.

[RaBe02] Rahm, Erhard; Bernstein, Philip A.: Asurvey of approaches to automatic schemamatching. In: The Very Large Database Journal10 (2001), S. 334–350.

[ReSc96]Remme, Markus; Scheer, August-Wilhelm:Konstruktion von Prozeßmodellen, Heft 125 desInstituts fur Wirtschaftsinformatik im Institut furempirische Wirtschaftsforschung an der Univer-sitat des Saarlandes. Saarbrucken 1996.

[Risi98] Rising, Linda: Pattern Mining. In: SabaZamir (Hrsg.): Handbook of Object Technol-ogy. Boca Raton et al. 1998, S. 38–31 bis 38–39.

[Rose95] Rosemann, Michael: Komplexitatsmana-gement in Prozeßmodellen – Methodenspezi-fische Gestaltungsempfehlungen fur die Infor-mationsmodellierung. Wiesbaden 1995.

[ScHa92] Scheer, August-Wilhelm; Hars, Alexan-der: Extending Data Modeling to Cover theWhole Enterprise. In: Communications of theACM 35 (1992) 9, S. 166–172.

[Sche04] Scheer, August-Wilhelm: 20 Jahre Gestal-tung industrieller Geschaftsprozesse. In: Indus-trie Management 20 (2004) 1, S. 11–18.

[Sche97] Scheer, August-Wilhelm: Wirtschaftsinfor-matik – Referenzmodelle fur industrielle Ge-schaftsprozesse. 7. Aufl., Berlin et al. 1997.

[Scho95] Schoning, Uwe: Theoretische Informatikkurzgefaßt. 2. Aufl., Heidelberg, Berlin, Oxford1995.

[Schu98] Schutte, Reinhard: Grundsatze ordnungs-maßiger Referenzmodellierung – Konstruktionkonfigurations- und anpassungsorientierter Mo-delle. Wiesbaden 1998.

WIRTSCHAFTSINFORMATIK 47 (2005) 2, S. 89–100

Abstract

Identifying Structural Analogies in Data Models – A Procedure and its Application Exem-plified by Scheer’s Y-CIM Reference Model

On the one hand, data models decrease the complexity of information system development.On the other hand, data models causes additional complexity. Recently structural analogiesare discussed as instruments reducing the complexity of data models. This piece of researchpresents a procedure to identify structural analogies in data models and demonstrates itsperformance by analyzing Scheer’s reference model for industrial enterprises (Y-CIM-mod-el). The proposed procedure is based on formalizing data models within set theory and usesa quantitative similarity measure. The obtained results show both identical and very similarinformation structures within the Y-CIM-model. Furthermore, ways of dealing with the identi-fied structural analogies are discussed from an analysis and software design perspective.

Keywords: Information Modeling, Conceptual Modeling, Data Modeling, Modeling, En-tity-Relationship-Model, Similarity Measure, Integration, Reference Model, Y-CIM-Model,Industry

Zur Identifikation von Strukturanalogien in Datenmodellen 99

Page 12: Zur Identifikation von Strukturanalogien in Datenmodellen; Identifying Structural Analogies in Data Models — A Procedure and its Application Exemplified by Scheer’s Y-CIM Reference

[Seub99] Seubert, Michael: Business-Objekte undobjektorientiertes Prozeßdesign. In: Jorg Becker;Michael Rosemann; Reinhard Schutte (Hrsg.):Referenzmodellierung – State-of-the-Art undEntwicklungsperspektiven. Heidelberg 1999, S.107–128.

[Steg85] Stegmuller, Wolfgang: Probleme und Re-sultate der Wissenschaftstheorie und Analyti-schen Philosophie, Band II, Theorie und Erfah-rung, Zweiter Teilband, Theorienstrukturen undTheoriendynamik. Berlin et al. 1985.

[Thal00] Thalheim, Bernhard: Entity-RelationshipModeling – Foundations of Database Technol-ogy. Berlin et al. 2000.

[Tver77] Tversky, Amos: Features of Similarity. In:Psychological Review 84 (1977) 4, S. 327–352.

[Ullm76] Ullmann, J. D.: An algorithm for sub-graph isomorphism. In: Journal of the Associa-tion for Computing Machinery 23 (1976) 1, S.31–42.

[WaWe02]Wand, Yair; Weber, Ron:Research Com-mentary: Information Systems and ConceptualModeling – A Research Agenda. In: InformationSystems Research 13 (2002) 4, S. 363–377.

[Wins93] Winskel, Glynn: The Formal Semantics ofProgramming Languages: An Introduction.Cambridge, MA 1993.