Upload
vuongdung
View
218
Download
1
Embed Size (px)
Citation preview
Whitepaper
A Passion for Quality
Anpassungen zur Einhaltung
von Vorschriften rund um den
Datenschutz
GDPR / EU-DSGVO: Auswirkungen auf das
Testdatenmanagement in Unternehmen
von Frank Pankalla und Rainer Popella
Sogeti GDPR / EU-DSGVO: Auswirkungen auf das
Testdatenmanagement in Unternehmen Seite 2 / 16
Inhaltsverzeichnis
1 Einleitung ..................................................................................................... 3
1.1 Die wichtigsten Änderungen der neuen EU-DSGVO (GDPR) ......................................... 3
1.2 Bestandsaufnahme und Dokumentation ................................................................... 4
1.3 Zweckänderung..................................................................................................... 5
1.4 Datenschutz ......................................................................................................... 5
1.5 Recht auf „Vergessenwerden“ ................................................................................. 5
1.6 Testumgebung ...................................................................................................... 5
2 Alternative Möglichkeiten zur Testdatenerzeugung...................................... 6
2.1 Alternative: Erstellung synthetischer Testdaten ......................................................... 6
2.2 Alternative: Anonymisierung und Pseudonymisierung von Testdaten ............................ 7
2.3 Alternative: Maskierung von Daten .......................................................................... 7
2.4 Alternative: Verschlüsselung von Testdaten .............................................................. 8
3 Aufbereitung von Testdaten mit Testdatenmanagementsystemen (TDMS) .. 9
3.1 TDMS - Auswahlkriterien ........................................................................................ 9
3.2 Datenmaskierung (Data masking) ......................................................................... 10
3.3 Teilmengenerstellung (Subsetting) ........................................................................ 11
3.4 Data Profiling ...................................................................................................... 11
3.5 Sensitive Data Analysis, Data Discovery ................................................................. 11
3.6 Data Archiving .................................................................................................... 11
3.7 Data Decommissioning ......................................................................................... 11
3.8 Synthetic Data Generation .................................................................................... 12
3.9 Automatisierung .................................................................................................. 12
3.10 Pakete zur Einhaltung rechtlicher Vorgaben ............................................................ 12
3.10.1 PII: Personally Identifiable Information ....................................................... 12
3.10.2 PCI: Payment Card Industry Data Security Standard ..................................... 13
3.10.3 PHI: Protected Health Information .............................................................. 13
4 Fazit | Zu den Autoren................................................................................ 14
4.1 Fazit .................................................................................................................. 14
4.2 Zu den Autoren ................................................................................................... 14
5 Quellen ....................................................................................................... 15
Sogeti GDPR / EU-DSGVO: Auswirkungen auf das
Testdatenmanagement in Unternehmen Seite 3 / 16
1 Einleitung
Die „General Data Protection Regulation“ (GDPR) der EU wird spätestens ab Mai 2018
wirksam und hat die bisherige EU-Richtlinie 95/46/EG im April 2016 abgelöst. In
Deutschland auch EU-Datenschutzgrundverordnung (EU-DSGVO) genannt, regelt sie nun
im Wesentlichen den Umgang mit sowie den Schutz von personenbezogenen Daten von
EU-Bürgern.
Welche Auswirkungen hat diese Verordnung auf den Test, die Testprozesse und den
Einsatz von Testdaten in Unternehmen und wie hat ein konformes Testdatenmanage-
ment auszusehen?
Können Testdatenmanagementsysteme (TDMS) helfen? Und welche Kriterien spielen bei
der Auswahl eine Rolle?
Da die GDPR sehr umfangreich und komplex ist, sind in diesem Dokument nur die
wesentlichen Aspekte für das Testdatenmanagement beziehungsweise den Testbetrieb
aufgeführt.
1.1 Die wichtigsten Änderungen der neuen EU-DSGVO (GDPR)
Die folgende Aufstellung fasst einige der wichtigsten Änderungen zusammen (siehe
hierzu die verfügbaren Dokumente unter [1]).
1. Unternehmen müssen alle Instanzen von personenbezogenen Daten in der
gesamten Organisation nachverfolgen können.
2. Die Daten unterliegen einer strengen Zweckbindung. Sie dürfen nur für
eindeutige, festgelegte und rechtmäßige Zwecke benutzt werden. Will man die
Daten für einen anderen Zweck nutzen, als den für den sie ursprünglich erhoben
wurden, wie zum Beispiel zum Testen, dann muss die Einwilligung der betroffenen
Personen zur Nutzung ihrer Daten eingeholt werden.
3. Den Aufsichtsbehörden ist eine überzeugende Dokumentation der Mechanismen
vorzulegen, die das Unternehmen einsetzt, um personenbezogene Daten über alle
Systeme und Plattformen hinweg zu verfolgen und angemessen zu kontrollieren.
4. EU-Bürger erhalten das Recht auf „Vergessenwerden“. Unternehmen müssen
nachweisen, dass sie jede Instanz von personenbezogenen Daten auf Wunsch der
betroffenen Person aus allen Systemen und Plattformen entfernen können.
5. Für die Unternehmen besteht eine Verpflichtung bei Datenschutzrechtsverlet-
zungen (Data breaches), sowohl Betroffene als auch die Datenschutzbehörde ohne
unnötige Verzögerung innerhalb von 72 Stunden zu informieren.
Eine Datenschutzrechtsverletzung liegt vor, wenn Daten versehentlich oder
rechtswidrig vernichtet oder geändert wurden, wenn sie verlorengingen oder wenn
auf sie durch Unbefugte zugegriffen wurde oder sie von Unbefugten offengelegt
wurden. Der Vorfall muss nicht gemeldet werden, wenn kein Risiko besteht, dass
es zu einer Verletzung der Rechte und Freiheiten der von der
Datenschutzverletzung betroffenen Person kommt.
6. Die Rechte der betroffenen Personen an den Daten wurden gestärkt. Das betrifft
zum Beispiel:
Sogeti GDPR / EU-DSGVO: Auswirkungen auf das
Testdatenmanagement in Unternehmen Seite 4 / 16
a. Der betroffenen Person muss auf Verlangen Auskunft über die Art und
Verwendung ihrer Daten gegeben werden. Folgende Informationen sollten
Bestandteil der Auskunft sein:
Für welche Zwecke werden die Daten benutzt?
Um welche Daten handelt es sich genau?
Wie lange werden die Daten gespeichert?
Wo kommen die Daten her?
Werden die Daten für automatische Entscheidungsfindungen genutzt?
Werden die Daten in Drittländer übertragen und wie ist dort der
Datenschutz gewährleistet?
b. Die betroffene Person hat mit Einschränkungen das Recht auf die
Berichtigung, Löschung und Einschränkung der Verarbeitung ihrer Daten.
c. Mit der EU-DSGVO wird ein Recht auf Datenübertragung eingeführt. Dahinter
steht der Export der von der betroffenen Person bereitgestellten Daten in
einem maschinenlesbaren Format. In diesem Zusammenhang kann die
betroffene Person auch die Übertragung dieser Daten an einen anderen
Serviceanbieter verlangen.
7. Ebenfalls bedeutsam ist, dass die Verordnung den grenzüberschreitenden
Datentransfer neu regelt und den Datenschutz für EU-Bürger auch auf Nicht-EU-
Länder ausweitet. Wer Off-Shoring von Testaktivitäten betreibt und Daten zu
Testzwecken in Drittländer transferiert, muss nun sicherstellen, dass dort die EU-
Datenschutzvorgaben mindestens gleichwertig gewährleistet sind.
Im Artikel 25 der EU-DSGVO wird eine Aussage über „Privacy by Design“ und
„Privacy by Default“ gemacht. Maßnahmen zum Schutz der personenbezogenen
Daten sollen sich unter anderem am Stand der Technik orientieren. Was technisch
machbar ist, sollte auch gemacht werden; es sei denn, es sprechen gewichtige
Gründe dagegen. Diese Abwägung ist Bestandteil der geforderten Dokumentation.
Bei Nichteinhaltung der neuen Regeln und Gesetze drohen entweder behördliche
Auflagen oder empfindliche Strafen. Die Bußgelder können bis zu einer Höhe von
vier Prozent des Konzernumsatzes betragen. Verantwortliche Personen wie
Datenschützer oder Manager müssen bei nachgewiesenen Verstößen mit Geldbußen
von bis zu 20 Millionen Euro rechnen.
Nicht alle diese Änderungen haben Einfluss auf das Testdatenmanagement und den
Testbetrieb, aber beispielsweise das Recht auf „Vergessenwerden“ kann bis in das
Management der Testdaten hineinwirken.
1.2 Bestandsaufnahme und Dokumentation
Ein erster Schritt ist es, zu analysieren und zu dokumentieren, wo, wie und zu welchem
Zweck produktive und personenbezogene Daten im Unternehmen verwendet werden.
Wichtig ist, dass bei dieser Analyse alle Bereiche, in welchen personenbezogene Daten
verwendet werden, einbezogen werden. Dazu gehören auch die Bereiche Entwicklung
und Testen. Auf Basis dieser Ergebnisse kann dann eine Strategie entwickelt und es
können geeignete Maßnahmen abgeleitet werden. Es empfiehlt sich, recht früh den
Datenschutzbeauftragten hinzuzuziehen, weil letztendlich die Strategie bzw. die
Maßnahmen mit ihm abgestimmt werden müssen.
Sogeti GDPR / EU-DSGVO: Auswirkungen auf das
Testdatenmanagement in Unternehmen Seite 5 / 16
1.3 Zweckänderung
Eine Möglichkeit, mit den Vorgaben der EU umzugehen, ist die Einholung der
Genehmigung von der betroffenen Person zur Verwendung ihrer personenbezogenen
Daten in Tests.
Die Wahrscheinlichkeit ist recht hoch, dass eine betroffene Person nicht einwilligt. Ist
man wirklich in der Lage, die Daten dahingehend zu verwalten und nur genau die
personenbezogenen Daten zu Testzwecken zu extrahieren, bei denen eine Zustimmung
vorliegt?
Das Problem wird noch komplexer durch die Tatsache, dass in den meisten Fällen die
betroffene Person nicht nur der „Kunde“ ist, sondern auch der Zulieferer, der
interessierte Dritte, der Aktionär oder Mitarbeiter. Denn auch zu diesen Personen werden
in vielen Fällen personenbezogene Daten gespeichert.
1.4 Datenschutz
Die Nutzung von Produktivdaten zum Testen erfordert Änderungen im Testdaten-
management des Unternehmens und stellt die Organisation vor Herausforderungen in
Sachen Dokumentation und Datenverwaltung. Sicherheitsmaßnahmen organisatorischer
und technischer Art müssen getroffen und ein Risikomanagement für Testdaten
eingeführt werden, damit Datenschutzrechtsverletzungen (Data breaches) wie
Datendiebstahl oder unabsichtliches Veröffentlichen zumindest erschwert und die Folgen
abgemildert werden können. Zudem müssen die entsprechenden Meldewege eingerichtet
werden, um der neuen 72-Stunden-Meldefrist gerecht zu werden.
1.5 Recht auf „Vergessenwerden“
Nimmt eine betroffene Person ihr Recht auf „Vergessenwerden“ wahr, dann muss
sichergestellt sein, dass die entsprechenden personenbezogenen Daten auch aus den
Testdatenbeständen in allen Testumgebungen wieder verschwinden. Das führt
möglicherweise zur täglichen Aktualisierung von Testdatenbeständen. Bei Unternehmen
mit Millionen von Kunden ist das kein unwahrscheinliches Szenario.
1.6 Testumgebung
Werden Produktivdaten zum Testen benutzt, dann gelten im Prinzip die gleichen
Anforderungen für die Testumgebung wie für die Produktionsumgebung hinsichtlich
Sicherheit und Zugriffschutz. Diese Anforderungen erhöhen die Kosten und den
Verwaltungsaufwand für eine entsprechende Testumgebung. Besondere
Herausforderungen in diesem Zusammenhang stellen sich durch die Nutzung von
Nearshore- bzw. Offshore-Testcentern in Nicht-EU-Ländern.
Die zuvor aufgeführten Punkte lassen den Schluss zu, dass die Nutzung von
Produktivdaten zum Testen mit vielen Problemen und hohem organisatorischen Aufwand
verbunden ist. Deshalb sollte man prüfen, ob nicht alternative Möglichkeiten zur
Erstellung von Testdaten zum Einsatz kommen könnten.
Sogeti GDPR / EU-DSGVO: Auswirkungen auf das
Testdatenmanagement in Unternehmen Seite 6 / 16
2 Alternative Möglichkeiten zur Testdatenerzeugung
Produktivdaten sind nur eine Quelle für Testdaten. Nachfolgende Verfahren können
genutzt werden, um Testdaten zu erzeugen:
Synthetische Testdaten
Anonymisierung und Pseudonymisierung von Produktivdaten
Maskierung von Produktivdaten
Verschlüsselung von Produktivdaten
Jedes Verfahren hat seine Vor- und Nachteile. Alle Testdaten sollten jedoch so erzeugt
werden, dass es sofort erkennbar ist, dass es sich um Test- und nicht um Produktivdaten
handelt. So kann vermieden werden, dass es zu unbegründeten „Anzeigen“ bei
Datenverlust kommt.
2.1 Alternative: Erstellung synthetischer Testdaten
Eine gute Alternative ist die ausschließliche Verwendung von synthetischen Testdaten.
Synthetische Testdatenerstellung ist die einzige Alternative, bei der keine produktiven
Daten zu Testzwecken verwendet werden. Im alltäglichen Testbetrieb sind synthetische
Daten jedoch oft umstritten. Ein häufiges Argument ist, dass diese Daten nicht
realitätsnah genug sind. Zudem ist es nicht trivial, in komplexen IT-Infrastrukturen
konsistente Testdaten synthetisch zu erstellen. Das bedeutet mitunter einen hohen
Aufwand an Zeit und Personal.
Empirisch zeigt sich zudem öfter, dass künstliche Daten verschiedene Fehlerzustände
nicht zuverlässig aufdecken, was eine erhöhte Defekt-Quote in Produktionssystemen
nach sich ziehen kann. Als Folge gibt es Entwickler und Tester, die produktive Daten im
Test bevorzugen. Die Nutzung synthetischer Daten im Test hat da ein Akzeptanz-
problem.
Aber es gibt auch deutliche Vorteile. Erstellt man synthetische Testdaten sorgfältig, kann
man sie besser auf notwendige Testfälle abstimmen als produktive Daten. Zudem gibt es
arbeitserleichternde Hilfsmittel wie Testdatengeneratoren.
Sogeti GDPR / EU-DSGVO: Auswirkungen auf das
Testdatenmanagement in Unternehmen Seite 7 / 16
2.2 Alternative: Anonymisierung und Pseudonymisierung von Testdaten
Weitere Möglichkeiten sind Anonymisierung und Pseudonymisierung von produktiven
Daten. Diese veränderten Daten können dann im Test verwendet werden, ohne dass
man ständig den Risiken eines Datendiebstahls von produktiven Daten ausgesetzt ist.
Anonymisierung bedeutet, dass personenbezogene Daten so verändert werden, dass
diese Daten einer Person nicht mehr zugeordnet werden können.
Bei der Pseudonymisierung werden die Identifikationsmerkmale durch andere, meist
mehrstellige Buchstaben- oder Zahlenkombinationen ersetzt, um die Feststellung der
Identität eines Individuums auszuschließen oder wesentlich zu erschweren.
Im Unterschied zur Anonymisierung bleiben bei der Pseudonymisierung Bezüge
verschiedener Datensätze untereinander erhalten oder es gibt einen verfügbaren
Schlüssel oder einen anwendbaren Regelsatz, der eine Zuordnung der Daten zu einer
Person ermöglicht. Ohne Schlüssel oder Anwendung der Regel ist eine Zuordnung nicht
oder nur schwer möglich.
Oftmals erreicht man im Prozess der Datenverarbeitung eine Anonymisierung nur über
den Schritt der Pseudonymisierung. Man stellt z. B. über Lookup-Tabellen Pseudonyme
zur Verfügung, die Namen durch andere Namen oder Zeichenfolgen nach bestimmten
Regeln ersetzen. Löscht man im Anschluss an diesen Vorgang die Lookup-Tabelle erhält
man anonymisierte Daten. Behält man die Lookup-Tabelle jedoch, sind die Daten nur
pseudonymisiert. Eine Rückverfolgung mit Hilfe der Tabelle bleibt möglich.
Allerdings ist man auch bei der Anonymisierung personenbezogener Daten nicht immer
auf der sicheren Seite. Eine De-Anonymisierung bleibt über Merkmalskombinationen
weiterhin möglich.
2.3 Alternative: Maskierung von Daten
Hersteller von Testdaten-Management-Systemen bieten oftmals eine reichhaltige
Auswahl an Maskierungstechniken an. Der Begriff der Datenmaskierung wird oft unscharf
verwendet und bezieht oftmals Pseudonymisierung und Anonymisierung mit ein. Richtig
ist, dass das Ergebnis von angewendeten Maskierungstechniken Pseudonymisierung,
Anonymisierung oder Verschlüsselung sein kann.
Maskierung kann aber auch eigenständig funktionieren. Dies ist dann ein „unkenntlich
machen“ oder ein (teilweises) Verdecken von Informationen.
Diese Art der Maskierung von Daten kennt man aus Onlineshops, in welchen zum
Beispiel die Kreditkartennummer nur auf den letzten vier Ziffern korrekt angezeigt wird.
Die vorherigen Ziffern sind nicht zu sehen oder durch ein „x“ ersetzt. Die vollständige
Maskierung wird bei der Eingabe von Passwörtern benutzt. Hier wird nur ein Platzhalter
angezeigt.
Eine Auflistung aller Maskierungstechniken an dieser Stelle würde zu weit führen.
Erwähnt werden soll, dass es eine grundlegende Unterteilung in statische und
dynamische Maskierungen gibt.
Dynamisch bedeutet, dass der Tester oder der Entwickler im betroffenen Ausgabefeld
nur maskierte oder teilmaskierte Daten zu sehen bekommt. Die Daten werden mit der
Sogeti GDPR / EU-DSGVO: Auswirkungen auf das
Testdatenmanagement in Unternehmen Seite 8 / 16
Datenbankabfrage „On-the-Fly“ maskiert. Die dahinterliegende Datenbank enthält jedoch
die Daten in unmaskierter Form. Bei der statischen Datenmaskierung sind die Daten in
der Datenbank entsprechend maskiert. Einen guten Überblick über die verschiedenen
Maskierungstechniken gibt der Artikel unter [2].
2.4 Alternative: Verschlüsselung von Testdaten
Bei diesem Verfahren werden die Daten entweder verschlüsselt in der Datenbank
abgelegt oder erst bei Abruf aus der Datenbank verschlüsselt. Der Tester sieht im
Frontend nur die verschlüsselten Daten.
Wenn man jedoch alle Felder wie Namen, Vornamen, Adressen oder eindeutige
Nummern nur noch verschlüsselt ablegt oder ausgibt, läuft dies gegen die Intention der
meisten Testanforderungen und Testfälle, da ja sehr oft die Richtigkeit der Ausgabe
überprüft werden muss.
Zudem ist Verschlüsselung auch noch sehr ressourcenintensiv, so dass große
Datenmengen meist nicht verschlüsselt werden. Im Normalfall werden Testprozesse
durch Verschlüsselung verkompliziert und verlangsamt. Daher ist Verschlüsselung im
Test oft nicht die Methode der Wahl, im Einzelfall kann sie im Einsatz aber
datenschutztechnisch helfen.
An dieser Stelle noch einmal der Hinweis, dass auch Schlüssel und
Verschlüsselungsalgorithmen kompromittiert sein könnten. Deshalb bietet auch die
Verschlüsselung keinen hundertprozentigen Schutz.
Sogeti GDPR / EU-DSGVO: Auswirkungen auf das
Testdatenmanagement in Unternehmen Seite 9 / 16
3 Aufbereitung von Testdaten mit Testdatenmanagementsystemen (TDMS)
Wer sich mit Testdaten in Unternehmen beschäftigt, stellt schnell fest, dass die
Verwendung homogen erstellter Testdaten die Ausnahme ist. Je nach Teststufe,
Testverfahren oder Anforderung werden synthetische Daten, anonymisierte Daten,
anderweitig maskierte Daten und/oder produktive Daten entweder seriell (z. B.
synthetische Daten im Unit-Test, produktive Daten im Abnahmetest) verwendet oder sie
werden zusammen vermischt als Ausgangsdatenbestand für alle Testumgebungen zur
Verfügung gestellt.
Da der Prozess zur Verwaltung von heterogenen Testdaten sowie die Erzeugung von
Testdaten, gleich nach welchem Verfahren, sehr aufwendig ist, empfiehlt sich der Einsatz
eines Testdatenmanagementsystems (TDMS). Solche Systeme bieten integrierte
Verfahren zur Maskierung, Anonymisierung, Pseudonymisierung sowie zur
Verschlüsselung von Daten und stellen diese im Test zur Verfügung. Einige Systeme
beinhalten auch Testdatengeneratoren.
Die Möglichkeiten, die solche TDM-Systeme anbieten, sind ebenfalls über andere Wege
wie datenbankeigene Tools, SQL, Skripte, selbst erstellte Programme sowie
Datenimport- und Datenexport-Werkzeuge erreichbar.
Der wesentliche Vorteil der TDMS dürfte darin liegen, dass sie heterogen
zusammengestellte Testdaten schneller erstellen und zur Verfügung stellen können.
Zudem bieten sie in der Verwaltung von Testdaten Vorteile und schaffen mehr
Transparenz. Damit helfen sie, die Anforderungen der neuen EU-Gesetzgebung zu
erfüllen und unterstützen das Unternehmen bei der Umsetzung der Vorgaben. Da es sich
meist um technisch nicht ganz triviale Systeme handelt, sollte man genügend Zeit für die
Implementierung eines solchen Systems einplanen.
Der Markt in Sachen TDMS ist jedenfalls groß und es gibt eine reichhaltige Auswahl von
großen TDM-Systemen bis hin zu kleineren Programmen, die nur Spezialaufgaben
erfüllen. Nahezu jeder große Softwarehersteller bietet Lösungen an. Es gibt auf Branchen
spezialisierte Anbieter und innovative, aufstrebende Hersteller.
Welches das richtige Werkzeug ist, hängt wie immer von den eigenen Anforderungen
und Gegebenheiten ab.
Gute Übersichten über die Möglichkeiten solcher TDMS-Werkzeuge geben beispielsweise
die Artikel [3] und [4].
3.1 TDMS - Auswahlkriterien
In der Zusammenstellung der Auswahlkriterien zur Auswahl eines Testdaten-
managementsystems sind viele Aspekte zu beachten. Welche Funktionalität soll das
TDMS beinhalten, auf welcher Plattform soll es betrieben werden und welche Systeme
soll es unterstützen?
Sogeti GDPR / EU-DSGVO: Auswirkungen auf das
Testdatenmanagement in Unternehmen Seite 10 / 16
Die wichtigsten Funktionen derzeit erhältlicher TDMS sind:
Datenmaskierung (Data masking)
Teilmengenerstellung (Subsetting)
Data profiling
Sensitive data analysis
Data discovery
Data decommission
Data archiving
Synthetic data generation
Automatisierung
Pakete zur Einhaltung rechtlicher Vorgaben
Nicht jede Suite verfügt über alle der genannten Funktionalitäten. Nicht ganz unwichtig
ist auch die Frage, welches Datenbanksystem die TDMS-Software unterstützen muss.
Auch hier gilt: Nicht jeder Anbieter unterstützt jede Schnittstelle, auch wenn die Auswahl
bei den meisten recht groß ist. Gleiches gilt für die Betriebssystemunterstützung. Neben
den breit aufgestellten Anbietern gibt es auch solche, die nur auf ein Betriebssystem
spezialisiert sind.
Viele TDMS arbeiten mit Enterprise Suiten zusammen oder sind sogar für diese
zertifiziert (z. B. SAP-Zertifizierung).
Allerdings: Nicht jedes TDMS unterstützt oder kollaboriert mit jeder Enterprise Suite.
Das gilt auch für die Zusammenarbeit mit Testwerkzeugen anderer Hersteller. Hier wird
meist HP-ALM unterstützt. Manche TDMS-Lösungen verfügen auch über integrierte
Testwerkzeuge.
3.2 Datenmaskierung (Data masking)
Die Maskierung von Daten kann relativ komplex sein. Gerade bei komplexen
Datenstrukturen und umfangreichen Geschäftsprozessen sind neben technischem Wissen
(Programmierung, Datenbank) auch gute Kenntnisse und Fähigkeiten im Bereich der
Business Analyse und des Testens notwendig. Durch den Einsatz eines guten Werkzeugs
kann die Arbeit erleichtert und die Qualität abgesichert werden. Das Werkzeug sollte in
der Lage sein, größere Datenstrukturen zu ersetzen. Dazu sollten Datenpools genutzt
werden können, z. B. Adressen oder Bankverbindungen. Wichtig ist auch, dass eigene
Datenpools eingebunden werden können. Die dabei eingesetzten Methoden müssen
Reverse Engineering nach heutigem Stand der Technik unmöglich machen. Sie müssen
weiterhin ermöglichen, dass vorgegebene Häufigkeitsverteilungen berücksichtigt werden
(z. B. Altersverteilungen, geographische Verteilungen). Mit dem Werkzeug sollte der
Prozess der Datenmaskierung letztendlich automatisiert werden. Damit ist es möglich,
neue Daten zu erzeugen, ohne dass der Spezialist notwendig ist.
Sogeti GDPR / EU-DSGVO: Auswirkungen auf das
Testdatenmanagement in Unternehmen Seite 11 / 16
3.3 Teilmengenerstellung (Subsetting)
Ein sehr wichtiges Funktionsmerkmal ist „Subsetting“. Da Datenmengen produktiver
Daten sehr groß sein können (Millionen von Daten, mehrere Terabyte) ist es sinnvoll,
solche Datenmengen für den Test zu verkleinern. Es müssen also Auswahlkriterien
gefunden werden, die es bei Anwendung ermöglichen, dass nur eine entsprechende
Auswahl an Daten extrahiert wird. Dies ist oftmals eine besondere Stärke von TDMS,
die hilft, Ressourcen im Test ökonomischer zu nutzen.
3.4 Data Profiling
Data Profiling beschreibt den Prozess zur Analyse von Daten (z. B. in einer Datenbank)
durch unterschiedliche Analysetechniken. Dieser Vorgang ist durch TDMS weitgehend
automatisierbar und unterstützt meist verschiedene Verfahren. Übliche Data-Profiling-
Verfahren sind Attribut-, Datensatz- und Tabellen-Analysen. Dadurch können
Datenqualitätsprobleme erkannt und die verursachenden Daten identifiziert werden.
Zugleich kann auch die Informationsqualität der analysierten Daten gemessen werden.
3.5 Sensitive Data Analysis, Data Discovery
Diese beiden Begriffe beschreiben die Analyse von Datenbeständen auf
datenschutzrechtlich sensible Daten und Felder. Die Systeme bieten Optionen, diese
Daten auf Basis von Paketen zur Einhaltung rechtlicher Vorgaben zu analysieren, zu
klassifizieren und zu kategorisieren. Die Ergebnisse können dann als Grundlage zur
Maskierung verwendet werden. Data Discovery wird als Begriff weniger konsistent
verwendet. Je nach Hersteller wird damit ebenfalls die Analyse auf sensible Daten
beschrieben, manchmal betrifft dies jedoch nur die Registrierung von Datenquellen für
das System. In einigen Fällen wird darüber hinaus auch die Analyse auf Primär- und
Sekundärschlüssel beschrieben, die die Systeme in die Lage versetzt, konsistente und
integre Daten (beim Subsetting) zu extrahieren.
3.6 Data Archiving
Ein wichtiges Funktionsmerkmal für den Test kann das Archivieren von Testdaten sein.
Die meisten TDMS sind nicht nur in der Lage zentralisiert Daten zu verteilen, sondern
diese auch zu archivieren. Dies ermöglicht es, z. B. an die jeweilige Teststufe angepasste
Versionen des Testdatenbestands zu sichern und zu archivieren, die sich dann immer
wieder verwenden lassen, wenn es der Test erfordert. In diesem Zusammenhang gibt es
auch Systeme mit Test Data Self-Service, die z. B. Testmanagern oder Testern das
eigenständige Einspielen von definierten Testdaten in Testumgebungen ermöglichen.
3.7 Data Decommissioning
Die Außerbetriebnahme von Daten könnte vor allem im Hinblick auf das Recht auf
„Vergessenwerden“ der neuen EU-Richtlinie und Gesetzesvorgabe ein wichtiges Attribut
von TDMS werden. Aber auch die Herausnahme veralteter archivierter Testdaten kann
helfen, im Test ressourcenschonender zu arbeiten. Allerdings: Nicht alle TDMS-Lösungen
bieten dies an.
Sogeti GDPR / EU-DSGVO: Auswirkungen auf das
Testdatenmanagement in Unternehmen Seite 12 / 16
3.8 Synthetic Data Generation
Im Rahmen der neuen EU-Regelungen ist das Erstellen von synthetischen Daten ein
wichtiges Attribut, das dem TDMS der Wahl nicht fehlen sollte, wenn man sich für eine
derartige Lösung entscheidet. Bei Systemen, die nicht über dieses Feature verfügen,
muss man entweder ein zusätzliches Tool anschaffen oder man muss sich über native
Datenbankwerkzeuge und Skripte behelfen.
3.9 Automatisierung
Eine nicht unwesentliche Eigenschaft von TDMS-Systemen ist die Bereitstellung von
Funktionen zur Testdatenerzeugung. Jedoch wird es im Rahmen einer fortschreitenden
Testautomatisierung immer wichtiger, Testdaten auf Knopfdruck bereitzustellen, sprich:
„On-Demand“. Deshalb ist es wichtig, dass TDMS-Systeme den Prozess der
Testdatenerzeugung und Bereitstellung als Workflow abbilden können. Das System sollte
in der Lage sein, auf Anforderung Testdaten zu erzeugen und diese Daten dann an
andere Systeme zu verteilen, in Datenbanken einzutragen oder für
Testautomatisierungswerkzeuge bereitzustellen.
3.10 Pakete zur Einhaltung rechtlicher Vorgaben
Die meisten Hersteller von TDMS-Lösungen liefern bereits vorgefertigte Maskierungs-
pakete zur Einhaltung bestimmter rechtlicher Vorgaben mit. Oft verfügbar sind:
PII: Personally identifiable information, folgt US-Gesetzen und EU-Direktiven
PCI: Payment Card Industry Data Security Standard
PHI: Protected health information, einschließlich medizinischer Daten von Patienten-
und Bezahlungshistorien.
Hier sind nur die drei wichtigsten Akronyme aufgeführt. Vor allem für den
nordamerikanischen Raum gibt es weitere rechtliche Vorgaben, die berücksichtigt sein
können (NPI, HIPAA, FERPA usw).
Mittlerweile werben manche Anbieter auch mit der „EU GDPR readiness“ für 2018.
3.10.1 PII: Personally Identifiable Information
PII steht für „personally identifiable information“ und ist ein rechtliches Konzept, das
zunächst im Zusammenhang mit der US-Gesetzgebung verwendet wurde. Mittlerweile
wird es jedoch verwendet, um alle international bestehenden gesetzlichen Regelungen
zusammengefasst zu betrachten. In diesem Sinne sind alte und neue Richtlinien der EU
Teil der Ausgestaltung des Gesamtkonzepts PII. Innerhalb von PII geht man davon aus,
dass es bestimmte personenbezogene Daten gibt, die jemanden direkt identifizieren
können (voller Name, Adresse, Geburtsdatum usw.) Daneben gibt es jedoch Daten, die
indirekt eine Identifizierung ermöglichen (z. B. Nachname, Web Cookies usw.). Zudem
muss man immer berücksichtigen, dass eine Kombination mehrerer Merkmale und
Attribute - auch wenn sie nicht direkt personenbezogen sind - immer auch das Potenzial
hat, eine Person eindeutig zu identifizieren.
Sogeti GDPR / EU-DSGVO: Auswirkungen auf das
Testdatenmanagement in Unternehmen Seite 13 / 16
3.10.2 PCI: Payment Card Industry Data Security Standard
Der Payment Card Industry Data Security Standard ist ein Regelwerk für die Abwicklung
von Kreditkartentransaktionen im Zahlungsverkehr. Es wird von allen wichtigen
Kreditkartenorganisationen unterstützt.
Alle Unternehmen und Dienstleister, die Kreditkarten-Transaktionen speichern,
übermitteln oder abwickeln, müssen sich an diese Regelungen halten. Wenn diese
Regelungen nicht erfüllt werden, können Strafgebühren verhängt, Einschränkungen
ausgesprochen oder die Akzeptanz von Kreditkarten untersagt werden. Es gibt 12
generelle Anforderungen an die Informationsverarbeitung im Zusammenhang mit
Kreditkartendaten, die regelmäßig durch Audits überprüft werden.
3.10.3 PHI: Protected Health Information
Protected Health Information findet als Begriff in der Legislative der USA vor allem in
Verbindung mit dem Health Insurance Portability and Accountability Act (HIPAA)
Verwendung. Für die US-Gesetzgebung werden dabei alle Informationen bezüglich
Gesundheitsstatus, Gesundheitsversorgung und Abrechnung der Gesundheitsleistungen
berücksichtigt, die von einer sogenannten „Covered Entity" (das können z. B. Ärzte,
Krankenhäuser, Krankenversicherer und Abrechnungsgesellschaften sein) erfasst und
erhoben werden, und die auf ein Individuum zurückgeführt werden können.
In der EU gibt es eine solche spezielle Regelung nicht, sondern dies wird ebenfalls über
die EU-Datenschutzgrundverordnung (EU-DSGVO) und nationale Gesetzgebungen
geregelt. In Deutschland sind Gesundheitsdaten nach dem Bundesdatenschutzgesetz
(BDSG) besonders sensibel und dürfen nur unter sehr restriktiven
Zulässigkeitsvoraussetzungen verwendet werden. Eine Nutzung für Testzwecke ist
gemäß § 28 Abs. 6 ff nicht erlaubt [14].
Sogeti GDPR / EU-DSGVO: Auswirkungen auf das
Testdatenmanagement in Unternehmen Seite 14 / 16
4 Fazit | Zu den Autoren
4.1 Fazit
Die neue EU-Grundschutzverordnung ist seit Mai 2016 verabschiedet und wird
spätestens ab dem 25.05.2018 gesetzlich wirksam. Es wird also Zeit, sich mit den
Änderungen zu befassen und auch die Auswirkungen auf den Testbetrieb und das
Testdatenmanagement zu betrachten. Testdatenmanagementsysteme (TDMS) können
dabei wirksam helfen, die Regeln und Gesetzesvorgaben einzuhalten. Die Auswahl bedarf
allerdings großer Sorgfalt, um ein System zu wählen, das sowohl den Anforderungen des
Unternehmens und der Infrastruktur als auch den neuen rechtlichen Vorgaben der EU
entspricht.
4.2 Zu den Autoren
Frank Pankalla ist Senior Consultant bei Sogeti Deutschland GmbH.
Mit seiner langjährigen Erfahrung in Themenfeldern wie dem Testinfrastruktur-
management und dem Testdatenmanagement optimiert er erfolgreich Testprozesse.
Rainer Popella ist Senior Consultant bei Sogeti Deutschland GmbH.
Er verfügt über langjährige Erfahrung in Themenfeldern wie Softwareentwicklung,
Business Analyse und Testdatenmanagement.
Sogeti GDPR / EU-DSGVO: Auswirkungen auf das
Testdatenmanagement in Unternehmen Seite 15 / 16
5 Quellen
1. Dokumente unter http://ec.europa.eu/justice/data-protection/reform/index_en.html
2. Data Masking: What You Need to Know – Net 2000 Ltd. Whitepaper, Link:
http://www.datamasker.com/DataMasking_WhatYouNeedToKnow.pdf (2016)
3. Sergey Vinogradov, Alexander Pastsyak - Evaluation of Data Anonymization Tools -
DBKDA 2012: The Fourth International Conference on Advances in Databases,
Knowledge, and Data Applications (2012)
4. Purnima Khurana, Purnima Bindal - Test Data Management - International Journal of
Computer Trends and Technology (IJCTT) – Volume 15 Number 4 – Sep 2014
5. Wikipedia: PII, Link:
https://en.wikipedia.org/wiki/Personally_identifiable_information
6. Wikipedia: PCI, Link:
https://de.wikipedia.org/wiki/Payment_Card_Industry_Data_Security_Standard
7. Wikipedia: Protected Health Information, Link:
https://en.wikipedia.org/wiki/Protected_health_information
8. Moving fragmented test data management towards a centralized approach –
Whitepaper INFOSYS (2016) - Link: https://www.infosys.com/it-services/validation-
solutions/white-papers/documents/fragmented-test-data-management.pdf
9. Data Masking Best Practice - ORACLE Whitepaper (2013) - Link:
http://www.oracle.com/us/products/database/data-masking-best-practices-
161213.pdf
10. Judy Fainor - Test Data Extraction Methods for IBM InfoSphere Optim Test Data
Management - Finding the right data subsetting strategy (2012), Link:
http://www.ibmbigdatahub.com/blog/test-data-extraction-methods-ibm-infosphere-
optim-test-data-management
11. Judy Fainor, Peter Hagelund - Provisioning Test Data with IBM InfoSphere Optim
Test Data Management: Part 1 Choosing the right strategy for using production data
in testing (2012), Link: http://www.ibmbigdatahub.com/blog/provisioning-test-data-
ibm-infosphere-optim-test-data-management-part-1
12. Judy Fainor, Peter Hagelund - Provisioning Test Data with IBM InfoSphere Optim
Test Data Management: Part 2 Privatizing sensitive data (2012), Link:
http://www.ibmbigdatahub.com/blog/provisioning-test-data-ibm-infosphere-optim-
test-data-management-part-2
13. Lang, Andreas - Anonymisierung/Pseudonymisierung von Daten für den Test - DACH
Security 2012 syssec (2012) pp-pp, Link: https://omen.cs.uni-
magdeburg.de/alang/paper/lang-anonymisierung-dach2012.pdf
14. Jaspers, Andreas - Sicherheitsrisiko Software-Test - Beispiele für das
datenschutzkonforme Testen mit Echtdaten - SQ Magazin Ausgabe 36, September
2015, Link: http://www.sq-
magazin.de/de/kampagne/artikel/datenschutzkonformes-testen-mit-echtdaten.html
Sogeti GDPR / EU-DSGVO: Auswirkungen auf das
Testdatenmanagement in Unternehmen Seite 16 / 16
Über Sogeti
Sogeti ist ein führender Anbieter von Technologie- und Engineering-Dienstleistungen.
Sogeti bietet wegbereitende Lösungen in der digitalen Transformation sowie
maßgeschneiderte Expertise rund um Cloud, Cybersecurity, Digital Manufacturing, Digital
Assurance und Testing sowie Trendtechnologien. Sogeti verbindet Agilität mit schneller
Umsetzungsfähigkeit, namhaften Technologie-Partnerschaften, Weltklasse-Methoden und
seinem globalem Liefermodell Rightshore®. Über 25.000 Mitarbeiter in 15 Ländern sowie
an über 100 Standorten in Europa, den USA und Indien sind für das Unternehmen tätig.
Sogeti ist eine hundertprozentige Tochtergesellschaft der Cap Gemini S.A. und an der
Pariser Börse notiert. Erfahren Sie mehr unter www.sogeti.com.
Rightshore® ist eine eingetragene Marke von Capgemini.
Sogeti Deutschland GmbH
Balcke-Dürr-Allee 7
D-40882 Ratingen
Tel.: +49 (0)2102 101-4000
Fax: +49 (0)2102 101-4100
www.sogeti.de
Besuchen Sie auch unsere
Webseite unter
www.sogeti.de/gdpr.
Titelbild: © istock 520166808
Sogeti GDPR Whitepaper 07/2017