21
Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

Embed Size (px)

DESCRIPTION

Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung. Inhaltsverzeichnis. Vorstellung der Firma Inverso Datenschutz: Warum? Techniken zum Schutz von Daten Erzeugen von Ersatzdaten (klassisch) Erzeugen von Ersatzdaten (durch Anonymisierung) - PowerPoint PPT Presentation

Citation preview

Page 1: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

Anonymisierung personenbezogener

Daten im Kontext einer verteilten

Softwareentwicklung

Page 2: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

2

Inhaltsverzeichnis

• Vorstellung der Firma Inverso

• Datenschutz: Warum?

• Techniken zum Schutz von Daten

• Erzeugen von Ersatzdaten (klassisch)

• Erzeugen von Ersatzdaten (durch Anonymisierung)

• Grad der Anonymisierung und Stufen der Sicherheit

Page 3: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

3

Datenschutz: Warum?

Zwei Grundanliegen des Datenschutzes:

1. Verantwortungsvoller Umgang mit sensiblen Daten

Wahrung von GeheimhaltungspflichtenSchutz sensibler Daten (Bsp.: Kontoverbindungsdaten, Kundendaten)

2. Schutz der Persönlichkeitsrechte

Jeder hat das Recht auf die freie Entfaltung seiner Persönlichkeit […] Art. 2 Abs. 1 Grundgesetz

Erzwungen durch:

Bundesdatenschutzgetz, Verträge und innerbetriebliche Regelungen

Page 4: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

4

Techniken zum Schutz sensibler Daten

Klassisch:

Strafen

Erzeugen von unkritischen Ersatzdaten

Oder:

Einschränken der Zugriffe auf kritische Daten

Überwachen des Umgangs mit kritischen Daten

Page 5: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

5

Grundidee der Ersatzdaten

• Originaldaten sind (unter anderem) personenbezogene und damit datenschutzrechtlich kritische Daten

• Die Daten sind eine Abbildung von verarbeitungsrelevanten und Personen identifizierenden Informationen

• Entscheidende Annahme: Merkmale der verarbeitungsrelevanten Informationen lassen sich hinreichend klar von den Merkmalen der identifizierenden Informationen trennen!

Page 6: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

6

Gängiges Vorgehen zur Erzeugung von Entwicklungsdaten

Reduktion auf Verarbeitungs-relevante Merkmale

Page 7: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

7

Anonymisierung als weiterer Lösungsansatz

Lösungsansatz

Reduktion um identifizierende Merkmale

Angestrebte Verbesserung

• Originaldaten sollen größeren Einfluss bekommen

• Testdaten sollen einfacher generierbar sein

• Testdaten sollen Konzeptionsmängel früher aufzeigen

Page 8: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

8

Kleines Beispiel

Grundidee bisher:

- Reduktion der Daten auf die verarbeitungsrelevanten Eigenschaften

- Beispiel: graphische

Abbildung der Verteilung

von Benotungen

Grundidee Anonymisierung:

- Reduktion der Daten auf die benötigten Informationen (Teil des Konzeptentwurfs)

- Reduktion der Daten um

die kritischen Informationen

Page 9: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

9

Herstellung des Personenbezugs

Primäre Identifikationsmerkmale

- Namen, Personalausweisnummer, Vertragsnummern, Mitgliedsnummern

Sekundäre Identifikationsmerkmale

- Klassiker: Geschlecht, Wohnort, Geburtsdatum

Hervorstechende Merkmalswerte

- Beispiele: Maximal-, Minimalwerte, seltene Werte, …

Page 10: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

10

Methoden der Anonymisierung (strukturverändernd)

Generalisieren / Verringern der Auflösung

Page 11: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

11

Methoden der Anonymisierung (wertverändernd)

Mikro-aggregation

Überlagern

Überschreiben

Imputation

Page 12: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

12

Methoden der Anonymisierung (werterhaltend)

Klonen

Zufallsvertauschung

Page 13: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

13

Kombinierte Methode: k-Anonymität

Grundprinzip: Widersprüchliche Zuordnungen

Mengenwachstum:

Mögliche Lösung:

- Reduktion der Originalmenge auf repräsentative Teilmenge

- Schwierigkeiten: Bestimmung der repräsentativen Eigenschaften, unkontrollierter Verlust unvermuteter Eigenschaften

Page 14: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

14

Beispiele unzureichender Anonymisierung

Anonymisierte Krankenversicherungsdaten herausgegeben durch die GIC (Group Insurance Commission) (2000)

- Dr. Latanya Sweeney konnte innerhalb der Datensammlung den Gouverneur von Massachusetts identifizieren und dessen Krankendaten bestimmten und ihm zuschicken

- Später konnte sie zeigen, dass sich 87% der Amerikaner anhand der Merkmale Geburtsdatum, Postleitzahl des Wohnortes und Geschlecht eindeutig identifizieren lassen

Veröffentlichung der anonymisierten Kundendaten des Videoverleihers Netflix (2006)

- Wissenschaftler konnten zeigen, dass anhand einiger weniger Kenntnisse über Vorlieben bestimmter Personen, sich diese in der anonymen Datensammlung leicht identifizieren ließen

Page 15: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

15

Allgemeine Problematik beim Einsatz anonymisierender Methoden

Anonymität:

- Robustheit der Anonymisierung / Sicherheit der Anonymität

- Bestimmung der Identifikatoren

- Wahl geeigneter Methoden

Wert der anonymen Daten:

- Wert der Originaldaten beruht auf möglicher Weise unbeachteten, aber verarbeitungsrelevanten Eigenschaften

Resultierendes Problem:

- Grauzone Bestimmung der Identifikatoren versus Grauzone Bestimmung der verarbeitungsrelevanten Eigenschaften

- Priorisieren der Anonymität führt mit hoher Wahrscheinlichkeit zum Verlust unbeachteter Eigenschaften

Page 16: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

16

Abgeleitetes Vorgehen

Grundsätzliche Zielstellung: Der Schutz der sensiblen Daten vor Missbrauch muss gewährleistet werden!

Lösungsidee: Grad der Anonymisierung

- Zunehmender Sicherheitsgewinn durch schrittweises, aber robustes Anonymisieren

- Motivation des Angreifers versus Aufwand für Informationsgewinn und Risiko von Bestrafung

- Grundidee schrittweises Bearbeiten von Identifikationsmerkmalen senkt schrittweise den Wert der Daten für Angreifer, bzw. steigert dessen Kosten für die Verwertung der Daten

Page 17: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

17

Sicherheitsstufenmodell

Erweitern des bisherigenzweistufigen Modells aufein fünfstufiges Modell

Page 18: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

18

Bereitstellung von Ersatzdaten

Bestimmen der verarbeitungsrelevanten Eigenschaften

Bestimmen der konkreten Ausprägungen dieser Eigenschaften

Schrittweises Anonymisieren der Identifikationsmerkmale unter Erhalt der zuvor bestimmten Eigenschaften

Verteilen der Daten auf die Systeme der jeweiligen Ebenen

Page 19: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

19

Auslesen der Eigenschaften und Anonymisierung in Stufen

Page 20: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

20

Probleme und Schwierigkeiten

Komplexität der Datenstruktur

- Abhängigkeiten der Datensätze untereinander

- Inhaltlich- Zeitlich

- Abhängigkeiten der Merkmale innerhalb eines Datensatzes

- Bsp.: Familienstand: • ledig vs. verheiratet (Seit? Angaben zum Ehepartner?)

- Umgang mit Primärschlüsseln

- Kritisch bei Neusortierung- Kritisch bei nicht stetigen, nicht nummerischen Werten

Aber vor Allem: Bestimmung der identifizierenden Eigenschaften!

Page 21: Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

21

Vorteile

Anpassbarkeit

- Auf Infrastrukturen (Kompatibilität zu bestehenden Infrastrukturen)

- Anforderungen an die Daten- Aufwand

Wiederverwendbarkeit

- Je gröber die Methoden, desto besser lassen sich diese wiederverwenden

Flexibilität

- Austauschbarkeit von Methoden- Ausblenden von Schichten

Erweiterbarkeit

- Neue Methoden - Neue Sicherheitsschichten

Step by Step

- Umsetzung als grobe Lösung, dann Verfeinerung zu präziser Lösung

Automatisierung

- Bereitstellung großer Mengen an Daten