Anonymisierung personenbezogener
Daten im Kontext einer verteilten
Softwareentwicklung
2
Inhaltsverzeichnis
• Vorstellung der Firma Inverso
• Datenschutz: Warum?
• Techniken zum Schutz von Daten
• Erzeugen von Ersatzdaten (klassisch)
• Erzeugen von Ersatzdaten (durch Anonymisierung)
• Grad der Anonymisierung und Stufen der Sicherheit
3
Datenschutz: Warum?
Zwei Grundanliegen des Datenschutzes:
1. Verantwortungsvoller Umgang mit sensiblen Daten
Wahrung von GeheimhaltungspflichtenSchutz sensibler Daten (Bsp.: Kontoverbindungsdaten, Kundendaten)
2. Schutz der Persönlichkeitsrechte
Jeder hat das Recht auf die freie Entfaltung seiner Persönlichkeit […] Art. 2 Abs. 1 Grundgesetz
Erzwungen durch:
Bundesdatenschutzgetz, Verträge und innerbetriebliche Regelungen
4
Techniken zum Schutz sensibler Daten
Klassisch:
Strafen
Erzeugen von unkritischen Ersatzdaten
Oder:
Einschränken der Zugriffe auf kritische Daten
Überwachen des Umgangs mit kritischen Daten
5
Grundidee der Ersatzdaten
• Originaldaten sind (unter anderem) personenbezogene und damit datenschutzrechtlich kritische Daten
• Die Daten sind eine Abbildung von verarbeitungsrelevanten und Personen identifizierenden Informationen
• Entscheidende Annahme: Merkmale der verarbeitungsrelevanten Informationen lassen sich hinreichend klar von den Merkmalen der identifizierenden Informationen trennen!
6
Gängiges Vorgehen zur Erzeugung von Entwicklungsdaten
Reduktion auf Verarbeitungs-relevante Merkmale
7
Anonymisierung als weiterer Lösungsansatz
Lösungsansatz
Reduktion um identifizierende Merkmale
Angestrebte Verbesserung
• Originaldaten sollen größeren Einfluss bekommen
• Testdaten sollen einfacher generierbar sein
• Testdaten sollen Konzeptionsmängel früher aufzeigen
8
Kleines Beispiel
Grundidee bisher:
- Reduktion der Daten auf die verarbeitungsrelevanten Eigenschaften
- Beispiel: graphische
Abbildung der Verteilung
von Benotungen
Grundidee Anonymisierung:
- Reduktion der Daten auf die benötigten Informationen (Teil des Konzeptentwurfs)
- Reduktion der Daten um
die kritischen Informationen
9
Herstellung des Personenbezugs
Primäre Identifikationsmerkmale
- Namen, Personalausweisnummer, Vertragsnummern, Mitgliedsnummern
Sekundäre Identifikationsmerkmale
- Klassiker: Geschlecht, Wohnort, Geburtsdatum
Hervorstechende Merkmalswerte
- Beispiele: Maximal-, Minimalwerte, seltene Werte, …
10
Methoden der Anonymisierung (strukturverändernd)
Generalisieren / Verringern der Auflösung
11
Methoden der Anonymisierung (wertverändernd)
Mikro-aggregation
Überlagern
Überschreiben
Imputation
12
Methoden der Anonymisierung (werterhaltend)
Klonen
Zufallsvertauschung
13
Kombinierte Methode: k-Anonymität
Grundprinzip: Widersprüchliche Zuordnungen
Mengenwachstum:
Mögliche Lösung:
- Reduktion der Originalmenge auf repräsentative Teilmenge
- Schwierigkeiten: Bestimmung der repräsentativen Eigenschaften, unkontrollierter Verlust unvermuteter Eigenschaften
14
Beispiele unzureichender Anonymisierung
Anonymisierte Krankenversicherungsdaten herausgegeben durch die GIC (Group Insurance Commission) (2000)
- Dr. Latanya Sweeney konnte innerhalb der Datensammlung den Gouverneur von Massachusetts identifizieren und dessen Krankendaten bestimmten und ihm zuschicken
- Später konnte sie zeigen, dass sich 87% der Amerikaner anhand der Merkmale Geburtsdatum, Postleitzahl des Wohnortes und Geschlecht eindeutig identifizieren lassen
Veröffentlichung der anonymisierten Kundendaten des Videoverleihers Netflix (2006)
- Wissenschaftler konnten zeigen, dass anhand einiger weniger Kenntnisse über Vorlieben bestimmter Personen, sich diese in der anonymen Datensammlung leicht identifizieren ließen
15
Allgemeine Problematik beim Einsatz anonymisierender Methoden
Anonymität:
- Robustheit der Anonymisierung / Sicherheit der Anonymität
- Bestimmung der Identifikatoren
- Wahl geeigneter Methoden
Wert der anonymen Daten:
- Wert der Originaldaten beruht auf möglicher Weise unbeachteten, aber verarbeitungsrelevanten Eigenschaften
Resultierendes Problem:
- Grauzone Bestimmung der Identifikatoren versus Grauzone Bestimmung der verarbeitungsrelevanten Eigenschaften
- Priorisieren der Anonymität führt mit hoher Wahrscheinlichkeit zum Verlust unbeachteter Eigenschaften
16
Abgeleitetes Vorgehen
Grundsätzliche Zielstellung: Der Schutz der sensiblen Daten vor Missbrauch muss gewährleistet werden!
Lösungsidee: Grad der Anonymisierung
- Zunehmender Sicherheitsgewinn durch schrittweises, aber robustes Anonymisieren
- Motivation des Angreifers versus Aufwand für Informationsgewinn und Risiko von Bestrafung
- Grundidee schrittweises Bearbeiten von Identifikationsmerkmalen senkt schrittweise den Wert der Daten für Angreifer, bzw. steigert dessen Kosten für die Verwertung der Daten
17
Sicherheitsstufenmodell
Erweitern des bisherigenzweistufigen Modells aufein fünfstufiges Modell
18
Bereitstellung von Ersatzdaten
Bestimmen der verarbeitungsrelevanten Eigenschaften
Bestimmen der konkreten Ausprägungen dieser Eigenschaften
Schrittweises Anonymisieren der Identifikationsmerkmale unter Erhalt der zuvor bestimmten Eigenschaften
Verteilen der Daten auf die Systeme der jeweiligen Ebenen
19
Auslesen der Eigenschaften und Anonymisierung in Stufen
20
Probleme und Schwierigkeiten
Komplexität der Datenstruktur
- Abhängigkeiten der Datensätze untereinander
- Inhaltlich- Zeitlich
- Abhängigkeiten der Merkmale innerhalb eines Datensatzes
- Bsp.: Familienstand: • ledig vs. verheiratet (Seit? Angaben zum Ehepartner?)
- Umgang mit Primärschlüsseln
- Kritisch bei Neusortierung- Kritisch bei nicht stetigen, nicht nummerischen Werten
Aber vor Allem: Bestimmung der identifizierenden Eigenschaften!
21
Vorteile
Anpassbarkeit
- Auf Infrastrukturen (Kompatibilität zu bestehenden Infrastrukturen)
- Anforderungen an die Daten- Aufwand
Wiederverwendbarkeit
- Je gröber die Methoden, desto besser lassen sich diese wiederverwenden
Flexibilität
- Austauschbarkeit von Methoden- Ausblenden von Schichten
Erweiterbarkeit
- Neue Methoden - Neue Sicherheitsschichten
Step by Step
- Umsetzung als grobe Lösung, dann Verfeinerung zu präziser Lösung
Automatisierung
- Bereitstellung großer Mengen an Daten