1
Echtzeit Gerätedaten Nachrichtenübermittlung als Grundlage für datengetriebene Lösungen wie das IIoT Lennart Severin Hochschule Darmstadt - Fachbereiche Mathematik und Naturwissenschaften & Informatik Zusammenfassung und Schwerpunkte Die kontinuierlich steigende Abhängigkeit industrieller Unternehmen von digitalen Infrastrukturen führt zur Notwendigkeit, disparate und abhängige Applikationen in einer einheitlichen Struktur zu verbinden. Enterprise Application Integration (EAI ) ist ein Prozess um Systeme in eine Struktur zu integrieren, sodass Informationen und Ressourcen geteilt werden können [1]. Ziel dieser Arbeit war es, basierend auf den Prinzipien von EAI eine entkoppelte, event- getriebene und nachrichtenbasierte Integrationsarchitektur zu entwerfen. Diese Archi- tektur sollte in die bestehende Infrastruktur von Musterunternehmen (MU ) integrier- bar sein. Weiterhin sollten Änderungen im Lebenszyklus von Geräten, welche von MU produziert werden, erkannt, eingeordnet und zur Verfügung gestellt werden. Solche Än- derungen können beispielsweise die Produktion, der Verkauf oder eine Qualitätskontrolle eines Geräts sein und werden als Events bezeichnet. Zur Umsetzung dieses Ziels wurde zunächst die bestehende Infrastruktur analysiert und eine geeignete nachrichtenbasierte Lösung identifiziert. Anschließend wurden vorhandene Events, welche zu duplikativen Einträgen im Datenbe- stand führen, analysiert und mittels ausgewählter statistischer Methode eingeordnet. Im Fokus standen dabei Duplikate, die auf einen systematischen Fehler oder einen Tippfeh- ler zurückzuführen sein könnten. Es sollte bestimmt werden, ob Abweichungen zwischen den Duplikaten so klein sind, dass eine automatische Zusammenführung angebracht ist. Schließlich wurde eine Architektur konzipiert und Methoden zur Publizierung von Events identifiziert. Die erarbeitete Methode zur Einordnung der Events wurde in der Architektur implementiert und die Ergebnisse zur Initiierung weiterer Prozessschritte persistiert. Darüber hinaus wurde die entwickelte Architektur auf ihre Echtzeitfähigkeit und Skalierbarkeit unter verschiedenen Last- und Verarbeitungsszenarien geprüft. Diese Prüfung erfolgte mittels dreier Testreihen. Die drei Schwerpunkte lassen sich wie folgt zusammenfassen: 1 Entwicklung einer in die bestehende Infrastruktur integrierbaren, eventgetrieben und nachrichtenbasierten Integrationsarchitektur. 2 Analyse und Einordnung von Duplikaten anhand ausgewählter statistischer Methoden. 3 Umsetzung einer Architektur anhand eines Anwendungsfalles und die Prüfung der Echtzeitfähigkeit und Skalierbarkeit unter verschiedenen Last- und Verarbeitungsszenarien. Verfübare Daten Der verfügbare Datensatz besteht aus 61,937,797 Einträgen aus den Jahren 2000 bis 2021. Selektiert nach doppelten Serialnummern entsprechen rund 360,000 der zu ana- lysierenden Menge. In Tabelle 1 wird ein Auszug des Duplikatsdatensatzes mit ausge- wählten Merkmalen dargestellt. SN MN MT OC T CN CCC CPON FV FB 725545006 56004119 KMAT DTRANSRW01 Ident.Nr. 4226 30050497 CH 1.03.00 HART 725545006 56004142 HAWA DTRANSRW01 Ident.Nr. 4226 30050497 CH Mail H.R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3745101003 71034285 HAWA BA304D 30-M6-6 34000944/G GB 8034173 3745101003 83402582 HAWA BA304D 30-M6-6 34000944/G GB 8034173 0 to Tabelle 1: Auszug des Duplikatsdatensatzes mit den verbliebenen Merkmalen nach der Merkmalsselektion. Vorgehensweise Zunächst wurde zur Konzeptionierung der Integrationsarchitektur, eine Analyse der be- stehenden Infrastruktur durchgeführt. Zur Selektion einer geeigneten Enterprise Mes- saging (EM )-Lösung wurde eine Nutzwertanalyse verwendet [2]. Im Fokus der Analyse standen qualitative Merkmale wie die Zukunftsperspektive, Integrier- und Nutzbarkeit sowie die Funktionalität. Verglichen wurden Apache Kafka, SAP Event Mesh und Mi- crosoft Event Hub. Die Analyse der Systeme erfolgte anhand von 10 Kriterien, wobei 4 Kriterien als erforderlich und 6 Kriterien als optional eingestuft wurden. Event Mesh erzielte den größten Nutzwert und wurde als Basis für die Konzeption verwendet. Anschließend wurden die duplikativen Eintrage analysiert. Im Mittelpunkt stand die Identifizierung systematischer Zusammenhänge der Merkmale und Abweichungen zwi- schen den Ausprägungen. Zunächst wurde eine Merkmalsselektion basierend auf einem Vergleichsdatensatz ohne Duplikate durchgeführt. Von 21 vorhandenen Merkmalen wur- den 12 verworfen. Anschließend wurde die Damerau-Levenshtein-Distanz zur Bestimmung des Editierabstands zwischen den Merkmalsausprägungen des ersten Eintrags und etwaigen Duplikaten berechnet. Mithilfe dieser Distanz wird die minimale Anzahl an Operationen zur Transformation eines Strings in einen anderen String bestimmt. Die Besonderheit dieses Distanzmaßes ist es, neben Einfüge- und Löschoperationen auch die Transposition benachbarter Zeichen zu berücksichtigen [3]. Basierend auf Stichprobenuntersuchungen und unter Konsultation interner Experten wurden daraufhin Annahmen zu automatisch zusammenführbaren Einträgen getroffen. Es wurden Hypothesen zu den systematischen Zusammenhängen von 3 Merkmals- kombinationen (7 Merkmale) sowie ein Grenzwert für den Editierabstand formuliert. Zur Prüfung der systematischen Zusammenhänge wurde einer Faktoranalyse durchgeführt [4]. Die Zuordnung der Daten und die Prüfung des Grenzwertes erfolgte mittels dem K-Means Clustering-Verfahren [5]. Basierend auf der initial selektierten EM -Lösung wurde anschließend die Zielarchitektur in allgemeiner Form und im Bezug zu dem Anwendungsfall konzipiert. Business Technology Platform Publisher Enterprise Messaging Queue Externe Applikationen Queue Queue Queue Topic Topic Topic II I Topic III Queue IV Nachrichten Kanal PTP Kanal BTP Subscriber Subscriber Smart Data Integration Trigger + R BTP BTP A B C Trigger + Job Scheduler Abbildung 1: Aufbau der eventgetriebenen Integrationsarchitektur. In Abbildung 1 ist die erarbeitete Zielarchitektur für den Anwendungsfall der Detektion und Publikation von Änderungen in den Gerätestammdaten dargestellt. Die linksseitig aufgezeigten Varianten A, B und C sind Mechanismen, welche Änderungen detektieren und an einen Publisher oder direkt an das EM -System senden. Nach Empfang der Nachricht stehen die Subskriptionsvarianten I bis IV zur Verfügung, um die Nachricht für weitere Applikationen vorzuhalten, zu vervielfältigen und zuzustellen. Als Subscriber wurde eine Applikation zur Transformation, Einordnung und Persistierung der Daten in der Business Techno- logy Platform (BTP ) implementiert und verwendet. Die Allgemeine Architektur wird durch Ersetzen der linksseitigen Publiziervarianten A bis C mit einer beliebigen internen oder externen Applikation erreicht. Im letzten Teil dieser Arbeit wurde die erarbeitete Architektur anhand dreier Testreihen auf ihre Echt- zeitfähigkeit und Skalierbarkeit geprüft. Weiterhin wurden Hypothesen über das Verhalten des Systems unter diversen Lastszenarien aufgestellt und unter folgenden Konfigurationen überprüft: Testlänge von 5 und 30 Minuten, bis zu drei Protokolle, alle Subskriptionsvarianten I bis IV, bis zu drei aktive Subscriber und 35 bis 280 Nachrichten pro Minute. Weiterhin wird zwischen den Testreihen durch eine dedizierte Zeitstempelabfrage unterschieden. In Testreihe 1 (Abb. 2a) wird eine solche Abfrage durchgeführt. In Testreihen 2 (Abb. 2b) und 3 (Abb. 2c) hingegen, wird die Zeitsynchronisierung der BTP verwendet. Alle Applikationen und Services der BTP werden von Amazon Web Services gehostet. Zur Durchführung der Testreihen wurde die Detektion und Publikation der Änderungen durch ein lokales Skript ersetzt. Business Technology Platform Enterprise Messaging AMQP Lokale Python Applikation Publisher je Protokoll Topic Subscriber in Data Intelligence HANA Datenbank MQTT Topic HTTP Topic HTTP Zeitstempel Data Intelligence PTP Kanal (a) Testreihe 1: Kurzzeit-Test Business Technology Platform Enterprise Messaging AMQP Lokale Python Applikation Publisher je Protokoll Queue Subscriber in Data Intelligence HANA Datenbank MQTT Topic PTP Kanal (b) Testreihe 2: Langzeit-Test Business Technology Platform Enterprise Messaging Lokale Python Applikation Publisher je Protokoll Subscriber in Data Intelligence HANA Datenbank MQTT Topic Nachrichten Kanal PTP Kanal AMQP Topic Queue 1 Queue 2 Queue 3 (c) Testreihe 3: Subscriber-Varianten-Test Abbildung 2: Schematischer Aufbau der Testreihen 1 bis 3. Ergebnisse Hinsichtlich der Duplikatsannahmen konnte mithilfe der Faktoranalyse gezeigt werden, dass diejenigen Merkmalskombinationen mit systembedingten Zusammenhängen hohe Faktorladungen in jeweils einem Faktor aufweisen. Basierend auf dem K-Means Clustering-Verfahren wurde ein Cluster identifiziert, wel- ches sich klar von den übrigen Clustern abgrenzt und aus 87.5% der angenommenen Duplikate besteht. Damit konnte der angenommene Grenzwert für automatisch zusammenführbare Einträge bestätigt und 12.16% aller Duplikate nach 2005 zugeordnet werden. Mit Testreihe 1 wurde gezeigt, dass signifikante Unterschiede der Latenz zwischen HTTP und AMQP sowie HTTP und MQTT vorliegen. Weiterhin wurde eine Überlastung des Systems ab etwa 245 Nachrichten pro Minute identifiziert, welche auf die dedizierte Zeitstempelabfrage zurückzuführen ist. Alle Protokolle zeigten Latenzzeiten zwischen 200 und 450 Millisekunden für bis zu 245 Nachrichten pro Minute und erfüllen somit die Echtzeitforderung des Anwendungsfalles von Sekunden bis Minuten. In Testreihe 2 wurde entgegen der Erwartung gezeigt, dass eine Queue-Subskription mindestens gleiche oder kleinere Latenzzeiten wie eine Topic-Subskription aufweist. Weiterhin konnte für steigende Nach- richten pro Minute ausgehend von 35 bis 280 (200% der Spitzenbelastung des produktiven Systems), keine durchgängig signifikante Steigerung der Latenz abgeleitet werden. Insbesondere die Randbereiche der Nachrichten pro Minute zeigten Abweichungen von der Annahme. Mit Testreihe 3 konnte die Skalierbarkeit des Systems für bis zu drei parallel aktiven Subscribern gezeigt werden. Insbesondere die Queue-Subskription zeigte signifikante Unterschiede bei einer steigenden Anzahl von Subscribern. In Folge dessen wurde der Vergleich zwischen den Subskriptionsvarianten mit multiplen Subscribern durchgeführt. In diesem Fall zeigte die Topic-Subskription bei drei aktiven Subscribern signi- fikant kleinere Latenzzeiten als die Queue-Subskription. Dies könnte auf den technologischen Unterschied von der Topic- und Queue-Subskription zurückzuführen sein. Eine Queue hält die Daten solange vor, bis diese konsumiert wurden. Eine Topic hingegen stellt die Nachricht den aktiven Subscribern zu und löscht diese Nachricht anschließend. Sowohl Testreihe 2 als auch Testreihe 3 zeigten Latenzzeiten unter 20 Millisekunden in jeder Konfiguration, vgl. Abbildung 3. (a) Queue-Subskription (b) Topic-Subskription (c) Queue multiple Subscriber (d) Topic multiple Subscriber Abbildung 3: Häufigkeitsverteilung der Latenz von Testreihe 2 (3a, 3b) und 3 (3c, 3d). Bei Testreihe 3 wurden 140 Nachrichten pro Minute gewählt, gemäß der Spitzenbelastung des produktiven Systems. Fazit und Ausblick Somit wurde eine eventgetrieben und nachrichtenbasierte Integrationsarchitektur erarbeitet, die skalierbar und in allen Kategorien echtzeitfähig ist. Zusätzlich wurde eine Methode zur Einordnung von Duplikaten erarbeitet, welche durch eine automatische Zusammenführung bereinigt werden können. Die Ergebnisse werden persistiert und stehen zur Initialisierung weiterer Prozesse zur Verfügung. Dies ermöglicht eine nahtlose Einbindung in bestehende Integrationsprozesse und eine Minimierung falscher Einträge für den zukünftigen Datenbestand. Hinsichtlich der EM -Lösung könnten Varianten und Methoden zur Publizierung von businessgetriebenen Events untersucht werden. In diesem Kontext sollte eine Methode zur Provisionierung unterschiedlicher Anwendungsfälle konzipiert werden, um die Kapazitäten des EM -Systems entsprechend zu dimensionie- ren. Einhergehend mit der Provisionierung, könnten Mechanismen zur Datensicherung bei Systemausfall untersucht und entwickelt werden. Quellen [1] M. Fowler, Patterns of Enterprise Application Architecture. USA: Addison-Wesley Longman Publishing Co., Inc., 2002. [2] C. H. Kepner and B. B. Tregoe, “The new rational manager: An updated edition for a new world,” Princeton, N. J. (P. O. Box), vol. 704, 1997. [3] C. Zhao and S. Sahni, “String correction using the damerau-levenshtein distance,” BMC Bioinformatics, vol. 20, p. 277, Jun 2019. [4] R. Cudeck, “10 - exploratory factor analysis,” in Handbook of Applied Multivariate Statistics and Mathematical Modeling (H. E. Tinsley and S. D. Brown, eds.), pp. 265–296, San Diego: Academic Press, 2000. [5] C. M. Bishop, Pattern Recognition and Machine Learning (Information Science and Statistics). Berlin, Heidelberg: Springer-Verlag, 2006.

Echtzeit Gerätedaten Nachrichtenübermittlung als Grundlage

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Echtzeit Gerätedaten Nachrichtenübermittlung als Grundlage

Echtzeit Gerätedaten Nachrichtenübermittlung als Grundlage fürdatengetriebene Lösungen wie das IIoT

Lennart SeverinHochschule Darmstadt - Fachbereiche Mathematik und Naturwissenschaften & Informatik

Zusammenfassung und Schwerpunkte

Die kontinuierlich steigende Abhängigkeit industrieller Unternehmen von digitalenInfrastrukturen führt zur Notwendigkeit, disparate und abhängige Applikationen ineiner einheitlichen Struktur zu verbinden. Enterprise Application Integration (EAI )ist ein Prozess um Systeme in eine Struktur zu integrieren, sodass Informationen undRessourcen geteilt werden können [1].

Ziel dieser Arbeit war es, basierend auf den Prinzipien von EAI eine entkoppelte, event-getriebene und nachrichtenbasierte Integrationsarchitektur zu entwerfen. Diese Archi-tektur sollte in die bestehende Infrastruktur von Musterunternehmen (MU ) integrier-bar sein. Weiterhin sollten Änderungen im Lebenszyklus von Geräten, welche von MUproduziert werden, erkannt, eingeordnet und zur Verfügung gestellt werden. Solche Än-derungen können beispielsweise die Produktion, der Verkauf oder eine Qualitätskontrolleeines Geräts sein und werden als Events bezeichnet.Zur Umsetzung dieses Ziels wurde zunächst die bestehende Infrastruktur analysiert undeine geeignete nachrichtenbasierte Lösung identifiziert.Anschließend wurden vorhandene Events, welche zu duplikativen Einträgen im Datenbe-stand führen, analysiert und mittels ausgewählter statistischer Methode eingeordnet. ImFokus standen dabei Duplikate, die auf einen systematischen Fehler oder einen Tippfeh-ler zurückzuführen sein könnten. Es sollte bestimmt werden, ob Abweichungen zwischenden Duplikaten so klein sind, dass eine automatische Zusammenführung angebracht ist.Schließlich wurde eine Architektur konzipiert und Methoden zur Publizierung vonEvents identifiziert. Die erarbeitete Methode zur Einordnung der Events wurde in derArchitektur implementiert und die Ergebnisse zur Initiierung weiterer Prozessschrittepersistiert. Darüber hinaus wurde die entwickelte Architektur auf ihre Echtzeitfähigkeitund Skalierbarkeit unter verschiedenen Last- und Verarbeitungsszenarien geprüft. DiesePrüfung erfolgte mittels dreier Testreihen.

Die drei Schwerpunkte lassen sich wie folgt zusammenfassen:1 Entwicklung einer in die bestehende Infrastruktur integrierbaren, eventgetrieben undnachrichtenbasierten Integrationsarchitektur.

2 Analyse und Einordnung von Duplikaten anhand ausgewählter statistischerMethoden.

3 Umsetzung einer Architektur anhand eines Anwendungsfalles und die Prüfung derEchtzeitfähigkeit und Skalierbarkeit unter verschiedenen Last- undVerarbeitungsszenarien.

Verfübare Daten

Der verfügbare Datensatz besteht aus 61,937,797 Einträgen aus den Jahren 2000 bis2021. Selektiert nach doppelten Serialnummern entsprechen rund 360,000 der zu ana-lysierenden Menge. In Tabelle 1 wird ein Auszug des Duplikatsdatensatzes mit ausge-wählten Merkmalen dargestellt.

SN MN MT OC T CN CCC CPON FV FB725545006 56004119 KMAT DTRANSRW01 Ident.Nr. 4226 30050497 CH 1.03.00 HART725545006 56004142 HAWA DTRANSRW01 Ident.Nr. 4226 30050497 CH Mail H.R.

... ... ... ... ... ... ... ... ... ...3745101003 71034285 HAWA BA304D 30-M6-6 34000944/G GB 80341733745101003 83402582 HAWA BA304D 30-M6-6 34000944/G GB 8034173 0 toTabelle 1: Auszug des Duplikatsdatensatzes mit den verbliebenen Merkmalen nach der Merkmalsselektion.

Vorgehensweise

Zunächst wurde zur Konzeptionierung der Integrationsarchitektur, eine Analyse der be-stehenden Infrastruktur durchgeführt. Zur Selektion einer geeigneten Enterprise Mes-saging (EM )-Lösung wurde eine Nutzwertanalyse verwendet [2]. Im Fokus der Analysestanden qualitative Merkmale wie die Zukunftsperspektive, Integrier- und Nutzbarkeitsowie die Funktionalität. Verglichen wurden Apache Kafka, SAP Event Mesh und Mi-crosoft Event Hub. Die Analyse der Systeme erfolgte anhand von 10 Kriterien, wobei4 Kriterien als erforderlich und 6 Kriterien als optional eingestuft wurden. Event Mesherzielte den größten Nutzwert und wurde als Basis für die Konzeption verwendet.Anschließend wurden die duplikativen Eintrage analysiert. Im Mittelpunkt stand dieIdentifizierung systematischer Zusammenhänge der Merkmale und Abweichungen zwi-schen den Ausprägungen. Zunächst wurde eine Merkmalsselektion basierend auf einemVergleichsdatensatz ohne Duplikate durchgeführt. Von 21 vorhandenen Merkmalen wur-den 12 verworfen.

Anschließend wurde die Damerau-Levenshtein-Distanz zur Bestimmung des Editierabstands zwischen denMerkmalsausprägungen des ersten Eintrags und etwaigen Duplikaten berechnet. Mithilfe dieser Distanzwird die minimale Anzahl an Operationen zur Transformation eines Strings in einen anderen Stringbestimmt. Die Besonderheit dieses Distanzmaßes ist es, neben Einfüge- und Löschoperationen auch dieTransposition benachbarter Zeichen zu berücksichtigen [3]. Basierend auf Stichprobenuntersuchungen undunter Konsultation interner Experten wurden daraufhin Annahmen zu automatisch zusammenführbarenEinträgen getroffen. Es wurden Hypothesen zu den systematischen Zusammenhängen von 3 Merkmals-kombinationen (7 Merkmale) sowie ein Grenzwert für den Editierabstand formuliert. Zur Prüfung dersystematischen Zusammenhänge wurde einer Faktoranalyse durchgeführt [4]. Die Zuordnung der Datenund die Prüfung des Grenzwertes erfolgte mittels dem K-Means Clustering-Verfahren [5].Basierend auf der initial selektierten EM -Lösung wurde anschließend die Zielarchitektur in allgemeinerForm und im Bezug zu dem Anwendungsfall konzipiert.

Business Technology Platform

Publisher

Enterprise Messaging

Queue

Externe Applikationen

Queue Queue

QueueTopic

Topic

Topic

II

I

Topic

III

QueueIV

Nachrichten Kanal

PTP Kanal

BTP

Subscriber

Subscriber

Smart DataIntegration

Trigger + RBTP

BTP

A

B

C

Trigger + Job Scheduler

Abbildung 1: Aufbau der eventgetriebenen Integrationsarchitektur.

In Abbildung 1 ist die erarbeitete Zielarchitektur für den Anwendungsfall der Detektion und Publikationvon Änderungen in den Gerätestammdaten dargestellt. Die linksseitig aufgezeigten Varianten A, B und Csind Mechanismen, welche Änderungen detektieren und an einen Publisher oder direkt an das EM -Systemsenden. Nach Empfang der Nachricht stehen die Subskriptionsvarianten I bis IV zur Verfügung, um dieNachricht für weitere Applikationen vorzuhalten, zu vervielfältigen und zuzustellen. Als Subscriber wurdeeine Applikation zur Transformation, Einordnung und Persistierung der Daten in der Business Techno-logy Platform (BTP) implementiert und verwendet. Die Allgemeine Architektur wird durch Ersetzen derlinksseitigen Publiziervarianten A bis C mit einer beliebigen internen oder externen Applikation erreicht.Im letzten Teil dieser Arbeit wurde die erarbeitete Architektur anhand dreier Testreihen auf ihre Echt-zeitfähigkeit und Skalierbarkeit geprüft. Weiterhin wurden Hypothesen über das Verhalten des Systemsunter diversen Lastszenarien aufgestellt und unter folgenden Konfigurationen überprüft: Testlänge von 5und 30 Minuten, bis zu drei Protokolle, alle Subskriptionsvarianten I bis IV, bis zu drei aktive Subscriberund 35 bis 280 Nachrichten pro Minute. Weiterhin wird zwischen den Testreihen durch eine dedizierteZeitstempelabfrage unterschieden. In Testreihe 1 (Abb. 2a) wird eine solche Abfrage durchgeführt. InTestreihen 2 (Abb. 2b) und 3 (Abb. 2c) hingegen, wird die Zeitsynchronisierung der BTP verwendet. AlleApplikationen und Services der BTP werden von Amazon Web Services gehostet. Zur Durchführung derTestreihen wurde die Detektion und Publikation der Änderungen durch ein lokales Skript ersetzt.

Business Technology Platform

Enterprise Messaging

AMQP

Lokale Python Applikation

Publisher je Protokoll

Topic

Subscriber in Data Intelligence

HANA Datenbank

MQTTTopic

HTTPTopic

HTTP

ZeitstempelData Intelligence

PTP Kanal

(a) Testreihe 1: Kurzzeit-Test

Business Technology Platform

Enterprise Messaging

AMQP

Lokale Python Applikation

Publisher je Protokoll

Queue

Subscriber in Data Intelligence

HANA Datenbank

MQTTTopic

PTP Kanal

(b) Testreihe 2: Langzeit-Test

Business Technology Platform

Enterprise MessagingLokale Python Applikation

Publisher je Protokoll

Subscriber in Data Intelligence

HANA Datenbank

MQTT

Topic

Nachrichten Kanal

PTP Kanal

AMQP

Topic

Queue 1

Queue 2

Queue 3

(c) Testreihe 3: Subscriber-Varianten-Test

Abbildung 2: Schematischer Aufbau der Testreihen 1 bis 3.

Ergebnisse

Hinsichtlich der Duplikatsannahmen konnte mithilfe der Faktoranalyse gezeigt werden, dass diejenigenMerkmalskombinationen mit systembedingten Zusammenhängen hohe Faktorladungen in jeweils einemFaktor aufweisen. Basierend auf dem K-Means Clustering-Verfahren wurde ein Cluster identifiziert, wel-ches sich klar von den übrigen Clustern abgrenzt und aus 87.5% der angenommenen Duplikate besteht.Damit konnte der angenommene Grenzwert für automatisch zusammenführbare Einträge bestätigt und12.16% aller Duplikate nach 2005 zugeordnet werden.Mit Testreihe 1 wurde gezeigt, dass signifikante Unterschiede der Latenz zwischen HTTP und AMQP sowieHTTP und MQTT vorliegen. Weiterhin wurde eine Überlastung des Systems ab etwa 245 Nachrichtenpro Minute identifiziert, welche auf die dedizierte Zeitstempelabfrage zurückzuführen ist. Alle Protokollezeigten Latenzzeiten zwischen 200 und 450 Millisekunden für bis zu 245 Nachrichten pro Minute underfüllen somit die Echtzeitforderung des Anwendungsfalles von Sekunden bis Minuten.In Testreihe 2 wurde entgegen der Erwartung gezeigt, dass eine Queue-Subskription mindestens gleicheoder kleinere Latenzzeiten wie eine Topic-Subskription aufweist. Weiterhin konnte für steigende Nach-richten pro Minute ausgehend von 35 bis 280 (200% der Spitzenbelastung des produktiven Systems),keine durchgängig signifikante Steigerung der Latenz abgeleitet werden. Insbesondere die Randbereicheder Nachrichten pro Minute zeigten Abweichungen von der Annahme.Mit Testreihe 3 konnte die Skalierbarkeit des Systems für bis zu drei parallel aktiven Subscribern gezeigtwerden. Insbesondere die Queue-Subskription zeigte signifikante Unterschiede bei einer steigenden Anzahlvon Subscribern. In Folge dessen wurde der Vergleich zwischen den Subskriptionsvarianten mit multiplenSubscribern durchgeführt. In diesem Fall zeigte die Topic-Subskription bei drei aktiven Subscribern signi-fikant kleinere Latenzzeiten als die Queue-Subskription. Dies könnte auf den technologischen Unterschiedvon der Topic- und Queue-Subskription zurückzuführen sein. Eine Queue hält die Daten solange vor,bis diese konsumiert wurden. Eine Topic hingegen stellt die Nachricht den aktiven Subscribern zu undlöscht diese Nachricht anschließend. Sowohl Testreihe 2 als auch Testreihe 3 zeigten Latenzzeiten unter20 Millisekunden in jeder Konfiguration, vgl. Abbildung 3.

(a) Queue-Subskription (b) Topic-Subskription

(c) Queue multiple Subscriber (d) Topic multiple Subscriber

Abbildung 3: Häufigkeitsverteilung der Latenz von Testreihe 2 (3a, 3b) und 3 (3c, 3d). Bei Testreihe 3 wurden 140 Nachrichtenpro Minute gewählt, gemäß der Spitzenbelastung des produktiven Systems.

Fazit und AusblickSomit wurde eine eventgetrieben und nachrichtenbasierte Integrationsarchitektur erarbeitet, die skalierbarund in allen Kategorien echtzeitfähig ist. Zusätzlich wurde eine Methode zur Einordnung von Duplikatenerarbeitet, welche durch eine automatische Zusammenführung bereinigt werden können. Die Ergebnissewerden persistiert und stehen zur Initialisierung weiterer Prozesse zur Verfügung. Dies ermöglicht einenahtlose Einbindung in bestehende Integrationsprozesse und eine Minimierung falscher Einträge für denzukünftigen Datenbestand.Hinsichtlich der EM -Lösung könnten Varianten und Methoden zur Publizierung von businessgetriebenenEvents untersucht werden. In diesem Kontext sollte eine Methode zur Provisionierung unterschiedlicherAnwendungsfälle konzipiert werden, um die Kapazitäten des EM -Systems entsprechend zu dimensionie-ren. Einhergehend mit der Provisionierung, könnten Mechanismen zur Datensicherung bei Systemausfalluntersucht und entwickelt werden.

Quellen

[1] M. Fowler, Patterns of Enterprise Application Architecture.USA: Addison-Wesley Longman Publishing Co., Inc., 2002.

[2] C. H. Kepner and B. B. Tregoe, “The new rational manager: An updated edition for a new world,” Princeton, N. J. (P.O. Box), vol. 704, 1997.

[3] C. Zhao and S. Sahni, “String correction using the damerau-levenshtein distance,” BMC Bioinformatics, vol. 20, p. 277,Jun 2019.

[4] R. Cudeck, “10 - exploratory factor analysis,” in Handbook of Applied Multivariate Statistics and MathematicalModeling (H. E. Tinsley and S. D. Brown, eds.), pp. 265–296, San Diego: Academic Press, 2000.

[5] C. M. Bishop, Pattern Recognition and Machine Learning (Information Science and Statistics).Berlin, Heidelberg: Springer-Verlag, 2006.