4
88 DuD Datenschutz und Datensicherheit 2 | 2012 SCHWERPUNKT 1 Datensammlung und ihre Auswertung Personenbezogene Daten liegen in mehreren Formen massen- weise im Internet vor. Die wichtigsten Formen sind technische Kommunikationsspuren in Web- und E-Mail-Servern (Logging), Stammdaten registrierter Nutzer in den Datenbanken der Anbie- ter, Selbstdarstellungen von Teilnehmern an Sozialen Netzwer- ken und Standortdaten. Die personenbezogenen Daten werden aus ihren unterschied- lichen Bereichen zusammengeführt und im Sinne der Daten- sammler ausgewertet. Während das vorliegende Schwerpunktheft die ganze Band- breite der Bildungsaufgabe zum Datenschutz abdeckt, geht es in diesem Artikel um die Aufklärung über die technischen Mög- lichkeiten zur Datensammlung und -auswertung. Es werden ver- schiedene Formen personenbezogener Daten im Internet vorge- stellt und ihre semantischen Auswertungsmöglichkeiten beispiel- haft erklärt. 2 Datenspuren und ihr Anwendungskontext Jede Art von technisch unterstützter Kommunikation oder passi- ver Nutzung des Internet, sei es mit festen PCs oder mobilen End- geräten, hinterlässt spezifische Datenspuren, die darüber Aus- kunft geben, von wo aus, mit welchem Gerät, zu welchem Zeit- punkt, mit welchem Dienst oder Kommunikationspartner wel- che Inhalte für wie lange ausgetauscht wurden. Und zwar entste- hen die Spuren beim lesenden Surfen im Web, beim aktiven Nutzen von Webanwendungen wie Online-Ein- kauf oder Homebanking, beim Arbeiten mit E-Mail, sei es von einem lokalen Mail-Client aus (etwa Thunderbird) oder mit einem Web-Mailer (etwa Yahoo oder GMX), beim passiven Lesen oder bei aktiven Beiträgen in Sozialen Netzwerken, wie etwa Facebook oder Wer-kennt-wen, beim Nutzen mobiler Geräte, wie etwa Mobiltelefone oder Smartphones. Dabei werden Daten verschiedenen Typs erfasst, und zwar Kommunikationsdaten des Clients (Loggingdaten), Stammdaten (Accountingdaten), die ein Client bei einem An- wender oder Dienstanbieter zur Anmeldung eingibt und fort- an pflegt, Nutzerinformationen als Ergebnis von Selbstdarstellung im Netz, etwa in Blogs und Sozialen Netzwerken, geographische Lokalisierungsdaten. In Tabelle 1 werden die personenbezogenen Datentypen den Ak- tionstypen im Netz zugeordnet, die diese typischerweise erzeugen. Die Mobilität von Daten und Nutzern spielt eine besondere Rolle zur Kontextbildung. Es ist wichtig, sich klar zu machen, dass sich sowohl die Daten im Netz bewegen (das wird durch das Logging bei den Dienstanbietern festgehalten), als auch die Nut- zer in der geographischen Welt. Die Datenbewegung zeigt, wer mit wem über was und wie lange redet, welche Inhalte ausge- tauscht werden, und davon abgeleitet Gedanken, Vorlieben, In- formationsbedürfnisse und Kaufinteressen (und das ist nur eine Auswahl). Die Bewegung der Nutzer zeigt auf, wo sich einer ge- rade aufhält, wenn er kommuniziert, aber auch, woher er kommt, und davon abgeleitet, wo sich einer zu welchen Zeiten bei welchen Kommunikationsinhalten aufhält. Ort, Zeit, Kommunikationsinhalte und Kommunikationspart- ner bilden einen Kommunikationskontext, den Nutzer aktiv auf- bauen und mit ihren Datenspuren sichtbar machen. Außerdem gibt es passive Datenspuren, die ohne Zutun der betroffenen Nut- Rüdiger Grimm Spuren im Netz Die hohe Nachfrage nach personenbezogenen Daten kann aus einer überwältigenden Menge von Datenspuren, die Nutzer im Netz hinterlassen, bedient werden. Dabei stehen den Datensammlern zunehmend technische Möglichkeiten, diese inhaltlich auszuwerten, zur Verfügung. Dieser Artikel gibt einen Überblick über die Arten von Datenspuren, die Nutzer besonders in den Anwendungen des World-Wide-Web hinterlassen. Exemplarisch wird aufgezeigt, wie diese ausgewertet werden können. Prof. Dr. Rüdiger Grimm Lehrstuhl für IT-Risk-Management im Fachbereich Informatik Universität Koblenz-Landau [email protected] Tab. 1 | Typische Datenspuren

Spuren im Netz

Embed Size (px)

Citation preview

Page 1: Spuren im Netz

88 DuD Datenschutz und Datensicherheit 2 | 2012

SCHWERPUNKT

1 Datensammlung und ihre Auswertung

Personenbezogene Daten liegen in mehreren Formen massen-weise im Internet vor. Die wichtigsten Formen sind technische Kommunikationsspuren in Web- und E-Mail-Servern (Logging), Stammdaten registrierter Nutzer in den Datenbanken der Anbie-ter, Selbstdarstellungen von Teilnehmern an Sozialen Netzwer-ken und Standortdaten.

Die personenbezogenen Daten werden aus ihren unterschied-lichen Bereichen zusammengeführt und im Sinne der Daten-sammler ausgewertet.

Während das vorliegende Schwerpunktheft die ganze Band-breite der Bildungsaufgabe zum Datenschutz abdeckt, geht es in diesem Artikel um die Aufklärung über die technischen Mög-lichkeiten zur Datensammlung und -auswertung. Es werden ver-schiedene Formen personenbezogener Daten im Internet vorge-stellt und ihre semantischen Auswertungsmöglichkeiten beispiel-haft erklärt.

2 Datenspuren und ihr Anwendungskontext

Jede Art von technisch unterstützter Kommunikation oder passi-ver Nutzung des Internet, sei es mit festen PCs oder mobilen End-geräten, hinterlässt spezifische Datenspuren, die darüber Aus-kunft geben, von wo aus, mit welchem Gerät, zu welchem Zeit-punkt, mit welchem Dienst oder Kommunikationspartner wel-che Inhalte für wie lange ausgetauscht wurden. Und zwar entste-hen die Spuren

� beim lesenden Surfen im Web, � beim aktiven Nutzen von Webanwendungen wie Online-Ein-kauf oder Homebanking,

� beim Arbeiten mit E-Mail, sei es von einem lokalen Mail-Client aus (etwa Thunderbird) oder mit einem Web-Mailer (etwa Yahoo oder GMX),

� beim passiven Lesen oder bei aktiven Beiträgen in Sozialen Netzwerken, wie etwa Facebook oder Wer-kennt-wen,

� beim Nutzen mobiler Geräte, wie etwa Mobiltelefone oder Smartphones.

Dabei werden Daten verschiedenen Typs erfasst, und zwar � Kommunikationsdaten des Clients (Loggingdaten), � Stammdaten (Accountingdaten), die ein Client bei einem An-wender oder Dienstanbieter zur Anmeldung eingibt und fort-an pflegt,

� Nutzerinformationen als Ergebnis von Selbstdarstellung im Netz, etwa in Blogs und Sozialen Netzwerken,

� geographische Lokalisierungsdaten.In Tabelle 1 werden die personenbezogenen Datentypen den Ak-tionstypen im Netz zugeordnet, die diese typischerweise erzeugen.

Die Mobilität von Daten und Nutzern spielt eine besondere Rolle zur Kontextbildung. Es ist wichtig, sich klar zu machen, dass sich sowohl die Daten im Netz bewegen (das wird durch das Logging bei den Dienstanbietern festgehalten), als auch die Nut-zer in der geographischen Welt. Die Datenbewegung zeigt, wer mit wem über was und wie lange redet, welche Inhalte ausge-tauscht werden, und davon abgeleitet Gedanken, Vorlieben, In-formationsbedürfnisse und Kaufinteressen (und das ist nur eine Auswahl). Die Bewegung der Nutzer zeigt auf, wo sich einer ge-rade aufhält, wenn er kommuniziert, aber auch, woher er kommt, und davon abgeleitet, wo sich einer zu welchen Zeiten bei welchen Kommunikationsinhalten aufhält.

Ort, Zeit, Kommunikationsinhalte und Kommunikationspart-ner bilden einen Kommunikationskontext, den Nutzer aktiv auf-bauen und mit ihren Datenspuren sichtbar machen. Außerdem gibt es passive Datenspuren, die ohne Zutun der betroffenen Nut-

Rüdiger Grimm

Spuren im NetzDie hohe Nachfrage nach personenbezogenen Daten kann aus einer überwältigenden Menge von Datenspuren, die Nutzer im Netz hinterlassen, bedient werden. Dabei stehen den Datensammlern zunehmend technische Möglichkeiten, diese inhaltlich auszuwerten, zur Verfügung. Dieser Artikel gibt einen Überblick über die Arten von Datenspuren, die Nutzer besonders in den Anwendungen des World-Wide-Web hinterlassen. Exemplarisch wird aufgezeigt, wie diese ausgewertet werden können.

Prof. Dr. Rüdiger Grimm

Lehrstuhl für IT-Risk-Management im Fachbereich Informatik Universität Koblenz-Landau

[email protected]

Tab. 1 | Typische Datenspuren

Page 2: Spuren im Netz

DuD Datenschutz und Datensicherheit 2 | 2012 89

SCHWERPUNKT

zer entstehen. Dazu gehört die Wohnumgebung mittels Street-View, die Homepages von Firmen, Sportvereinen und Schulen, in denen die Mitarbeiter, Mitglieder, Schüler und Absolventen ge-führt werden. Dazu gehören weiterhin Aussagen von Freunden und Bekannten über jemand anderes im Netz, etwa in Blog-Ein-trägen, in Facebook und Twitter-Mitteilungen („wo bin ich gera-de mit wem“), oft noch mit Bildern angereichert.

Die geschickte Kombination aller Datenspuren und die folge-richtige Ableitung inhaltlicher Zusammenhänge aus ihnen ist eine eigene Wissenschaft. Ihrer automatischen Unterstützung etwa widmet sich das Data Mining mit dem Ziel, bisher noch nicht entdeckte Zusammenhänge zu finden.1 Aber es gibt auch programmatische Auswertungen direkter Fragen, wie etwa die, welche Webseiten ein Nutzer zuvor besucht hat (Nutzungspro-fil), welche Waren jemand gekauft hat (Kundenprofil) oder wel-che anderen Waren andere gekauft haben, die auch die eben er-standene Ware gekauft hatten (Kaufempfehlung).

Im Folgenden werden einige Basistechniken der Datensamm-lung erläutert und anschließend zwei Beispiele zu überraschen-den inhaltlichen Auswertungen geliefert.

3 Techniken der Datensammlung

3.1 Umgebungsvariable und Logfiles

Um mit einem Web-Server kommunizieren zu können, muss ein Web-Client diesem gewisse Informationen über sich liefern, etwa die Netzadresse, an die der Server die Antworten an den Client zurückschicken soll.

Die Netzadresse ist einem Domainnamen des Internet-Provi-ders zugeordnet, sowie in guter Näherung einem geographischen Ort des Client-Anschlusses. Weiterhin liefert der Client auch eine Information über die genutzte Client-Software, in der Regel ein Browser, damit der Server seine Antwort den spezifischen Fähig-keiten des Browsers anpassen kann.

Außerdem übermittelt der Client die Adresse der Webseite, die er vom Server zurückgeschickt haben möchte. Die Aufrufadres-se enthält oft Zusätze, in der etwa Abfragewörter an den Server übermittelt werden. Aber nicht nur die aktuelle aufgerufene Ad-resse, sondern im so genannten Referer-Feld wird auch die Ad-resse der vorherigen Seite mitgeteilt, die der Nutzer besucht hat-te, sofern die aktuelle Adresse einem Link der vorherigen Seite entnommen wurde.

Und schließlich sendet der Server die aufgerufene Seite an den Client zurück. Diese liefert, zusammen mit den Abfrageparame-tern, den Kommunikationsinhalt.

Damit weiß der Server, wer, zu welchem Zeitpunkt, von wel-cher aktuellen und ggf. vorherigen Seite aus, mit welchem Brow-ser welche Kommunikationsinhalte erfragt und erhalten hat. Die-se Informationen merkt sich der Browser in so genannten Umge-bungsvariablen, auf die seine Dienstprogramme zur Diensterfül-lung gegenüber dem aufrufenden Nutzer zugreifen können. Au-ßerdem werden diese Informationen in einem so genannten Log-File abgelegt und für spätere Analysezwecke aufgehoben.2

1 Petersohn, Data Mining: Verfahren, Prozesse, Anwendungsarchitektur, Ol-denbourg Verlag, München 2005.

2 Köhntopp/Köhntopp, Datenspuren im Internet, CR 2000, S. 248-257.

3.2 Cookies und Web-Bugs

Das World Wide Web ist in seiner Grundauslegung zustands-los, das heißt Web-Client und Web-Server kommunizieren mit Abfrage-Antwort-Paaren, die untereinander unverbunden sind. Web-Services vergessen jeden Abfrage-Antwort-Zyklus unmittel-bar nach seiner Abarbeitung – bis auf die Log-Files, die zur Be-arbeitung von Client-Anfragen aber nicht ausgewertet werden.

Das ist lästig, denn mit einem derart kurzen Gedächtnis könnte eine Fahrplanauskunft keine Antwort auf „bitte eine spätere Ver-bindung“ geben, da er die eben erteilte Auskunft ja bereits ver-gessen hat. Ebenso wenig könnten E-Commerce-Server virtuel-le Einkaufswagen führen oder Homebanking Server Überwei-sungen ausführen. Überhaupt sind zusammenhängende Sitzun-gen nur zu organisieren, indem die Abfrage-Antwort-Paare ex-plizit einer Sitzung zugeordnet werden. Zum Sitzungsmanage-ment werden oft Cookies verwendet, die bereits in der Anfangs-zeit des World-Wide-Web erfunden und so standardisiert wur-den, dass heute alle Browser und Server damit umgehen können.3

Ein Cookie ist ein Datensatz, den ein Web-Server bei einem Aufruf durch einen Client erzeugt und diesem in seiner Antwort mit zurückschickt. Das Cookie enthält zum Sitzungsmanagement eine Sitzungsnummer, die sich der Server merkt. Der Browser wiederum speichert das erhaltene Cookie ab und merkt sich, von welchem Server es stammt. Mit der nächsten Anfrage an densel-ben Server schickt der Browser diesen Cookie dem Server wieder zu, und nun kann der Server die erneute Anfrage der vorherigen zuordnen und dadurch kann der Server Fragen und Antworten aus vorherigen Anfragen in seine neue Antwort mit einbeziehen. Der Server hat somit ein Gedächtnis über den bisherigen Verlauf der Kommunikation aufgebaut.

Der Cookie-Standard, an den sich alle Browser halten, schreibt vor, dass Cookies nur an den Domain des ausstellenden Servers zurückgeschickt werden können. Das erlaubt dem Server zu-nächst einmal nur, ein Profil des Nutzers über die Nutzung sei-nes Services zu erstellen. Das erscheint als eine harmlose oder gar gewünschte Fähigkeit eines Web-Servers zur Kundenpflege.

Es gibt nun einen Trick, wie man Cookies ganz im Rahmen der Standardregel auch über Domaingrenzen hinweg austau-schen kann, so dass Nutzungsprofile über verschiedene Server, d.h. also über verschiedene Dienste hinweg erstellt werden kön-nen. Somit kann beispielsweise festgehalten werden, dass ein Nut-zer ein bestimmtes Hotel gebucht hat, nachdem er zuvor nach Ski-ausrüstungen und Sonnencremes gesurft und sich für bestimm-te entschieden hatte, sowie welche Kulturprogramme am Hotel-ort oder zu Hause sein Interesse gefunden haben, vor oder nach der Hotelbuchung.

Dieser Trick, der im Folgenden beschrieben wird, wird als Web-Bug bezeichnet.4 Web-Bugs werden von Anbietern von Web-Sei-ten freiwillig in ihre Webseiten integriert. Der Web-Bug ist ein transparentes Bild von der Größe eines einzelnen Pixels und in derselben Farbe wie der Hintergrund der Webseite, die das Web-Bug enthält. Dadurch ist es dem surfenden Client unsichtbar.

Allerdings ist das Bild nicht als statisches Bild integriert, son-dern als Link von einem dritten Server, nennen wir ihn „dritter.com“. Das zwingt den aufrufenden Browser dazu, beim Herunter-laden der aufgerufenen Webseite zur Vervollständigung der Web-

3 Wichert, Web-Cookies – Mythos und Wirklichkeit, DuD 1998, S. 273-276.4 Köhntopp/Köhntopp, Datenspuren im Internet, CR 2000, S. 248-257.

Page 3: Spuren im Netz

90 DuD Datenschutz und Datensicherheit 2 | 2012

SCHWERPUNKT

Seite den Link zu „dritter.com“ zu verfolgen und diesen aufzuru-fen. Daraufhin kann „dritter.com“ ein Cookie an den aufrufen-den Browser setzen. Durch das Referer-Feld weiß „dritter.com“ auch gleich, von welcher Web-Seite der Browser den Web-Bug erhalten hatte, und merkt sich das in einer internen Datenbank.

Nun wird der Web-Bug erst dadurch lebendig, dass „dritter.com“ seinen Web-Bug nicht nur bei einem Server untergebracht hat, sondern bei ganz vielen verschiedenen. Das Geschäftsmodell des Cookies und Daten sammelnden „dritter.com“ hat zwei Ein-nahmequellen: zum einen liefert ein Web-Server, der seinen Web-Bug bei sich einbaut, ja Informationen über seinen Nutzer, und erhält dafür, gegen Bezahlung, im Tages- oder Wochenrhythmus die Auswertung über die Wanderung seiner Kunden durch alle angeschlossenen Web-Server. Zum anderen kann „dritter.com“ mithilfe des Nutzungsprofils online individualisierte Werbeban-ner schalten, die von den beworbenen Firmen bezahlt werden.

3.3 E-Mail und Webmailer

E-Mails werden von Mailserver zu Mailserver („Store and For-ward“) von ihrem Ausgangsort zu ihrem Zielort transportiert. E-Mail besteht aus Kopfzeilen und einem Briefkörper, der den Brieftext enthält. Die Kopfzeilen enthalten Absender- und Emp-fängeradressen, Absendezeit, Betreff, sowie Vermerke der Mail-server. Jeder Mailserver vermerkt den Durchgang einer E-Mail in einer „Received“-Kopfzeile, die er der E-Mail hinzufügt. Da-her trägt jede E-Mail ihre Wegspur durch das Mailserver-Netz des Internet in der Liste ihrer „Received“-Kopfzeilen mit sich bis zum Empfänger.5

Die unterste (d.h. früheste) „Received“-Kopfzeile trägt der ers-te Mailserver ein, bei dem der Nutzer die E-Mail aufgegeben hat. Dabei vermerkt der Mailserver im „Received: from“-Feld die Inter-net-Adresse des Clients, mit dem der Nutzer zu dem Mailserver Kontakt aufgenommen hat, sei es ein Thunderbird-Client oder ein Browser, mit dem er den Webmailer aufgerufen hat, sowie das Kommunikationsprotokoll, mit dem der Client ihn aufgerufen hat. Die hier vermerkte Internet-Adresse gehört dem Gerät, auf dem der Nutzer die E-Mail abgesendet hat und kann geographisch oft gut zugeordnet werden. Sie ist daher neben der E-Mail-Adresse des Ab-senders die erste Adresse, die ein Rechercheur analysiert, um den Aufenthaltsort des Absenders festzustellen.

5 Grimm/Pähler, E-Mail-Forensik, DuD 2010, S. 86-89.

Hier ein Beispiel aus einer E-Mail, die von einem Salzburger Hotel aus an den Mail-Server der Universität in Koblenz aufge-geben worden war:Received: from (85-127-57-249.dynamic.xdsl-line.inode.at [85.127.57.249]) (using TLSv1 with ci-pher DHE-RSA-AES256-SHA (256/256 bits)) (No client certificate requested) by deliver.uni-koblenz.de [141.26.64.15] (Postfix) with ESMTP id 254897811252; Thu, 10 Dec 2009 19:00:05 +0100 (CET)

Wenn ein Absender einen Web-Mailer verwendet, in den er sich einloggt, um eine E-Mail zu erzeugen und zu versenden, dann hinterlässt die E-Mail eine weitere Spur in den Login-Daten des Webmailers, in denen Login-Zeit und Geräteadresse des ein-loggenden Nutzers vermerkt werden. Da Webmailer außerdem Namen und Adresse des registrierten Nutzers dem Login-Na-men des Nutzers zuordnen können, verweist die Internetadresse des Gerätes, von dem aus der Sender sich eingeloggt hat, direkt auf den Namen des Senders, sofern dieser bei der Registrierung korrekt eingegeben wurde.

3.4 Stammdaten und Nutzungsprofile

Viele Web-Dienste stehen Nutzern erst dann zur Verfügung, wenn sie sich zuvor mit Namen und Adresse registriert und eine User-Id mit Passwort zugewiesen bekommen haben. Sie nutzen einen Dienst, nachdem sie sich dann über ihre User-Id eingeloggt haben. Das gilt für das Homebanking, für zahlreiche E-Com-merce-Server wie Amazon, für Buchungsdienste für Flug und Bahn u.v.a.m.

Jedes Einloggen, sowie die nachfolgenden Kommunikations-schritte werden von diesen Web-Servern in einem Logfile gespei-chert. Die Daten der Logfiles lassen sich mit den Inhaltsdaten (Kontozugriffe beim Homebanking, erworbene Waren beim E-Commerce, gebuchte Tickets bei Reisediensten, jedes Surfen beim Dienstanbieter) zu Nutzungsprofilen kombinieren und die-se den registrierten Benutzern zuordnen. Hierbei handelt es sich um personenbezogene Daten, die von ihren Sammlern zur indivi-duellen Kundenpflege ausgewertet werden. Sie dürfen nicht ohne Zustimmung des Nutzers an andere Dienste weitergegeben wer-den. Bevor also ein Nutzer einer Weitergabe seiner personenbe-zogenen Daten an andere Dienste zustimmt, sollte er sich darüber im Klaren sein, dass sich Kundenprofile verschiedener Dienstan-bieter zu reichhaltigeren Profilen kombinieren lassen.

Abb. 1 | Web-Bug von „dritter.com“

Page 4: Spuren im Netz

DuD Datenschutz und Datensicherheit 2 | 2012 91

SCHWERPUNKT

4 Zwei Beispiele

4.1 Wer bist du?

In einer Forschungsarbeit hat eine Arbeitsgruppe der TU Wien, der Eurocom Sophia Antipolis und der University of California in Santa Barbara eine Webseite entworfen, die den aufrufenden Nutzer im Handumdrehen mit Namen und einer Reihe persönli-cher Informationen wie Freundeskreis, Hobby, „Das gefällt mir“-Aussagen und „Wo bin ich gerade“ identifiziert.6 Diese Informa-tion holt sich dieser Web-Server aus den Sozialen Netzwerken wie Facebook, aber wie kommt er da dran?

In ihrem Artikel decken die Autoren ihre Tricks auf: sie bieten auf ihrer Webseite die Adressen verschiedener Gruppen in So-zialen Netzwerken wie Facebook, LinedIn und Xing an und er-kennen aufgrund der veränderten Farbeinstellung des Browsers für diejenigen Adressen, die der Browser schon einmal aufgeru-fen hatte, zu welchen Gruppen der aufrufende Nutzer gehört. Die Betreiber dieser Webseite sind ihrerseits Mitglied in allen mögli-chen Gruppen von Facebook und können daher die Namenslis-ten dieser Gruppen einsehen. Sie bilden nun den Durchschnitt der Namenslisten derjenigen Gruppen, zu denen ein aufrufender Nutzer gehört. Und verblüffender Weise bestehen solche Durch-schnitte aus ganz wenigen, oft nur einem einzigen Namen. Nun stehen den Betreibern dieser Webseite alle persönlichen Informa-tionen dieses Mitglieds der Gruppe zur Verfügung.

Hierbei hilft natürlich erstens das oben skizzierte Verfahren, wie eine Browser-Chronik ausgelesen werden kann, und zwei-tens hilft es, dass die meisten Teilnehmer an Sozialen Netzwerken ganz freiwillig überreichlich mitteilsam über sich sind.

Die Web-Seite „http://whattheinternetknowsaboutyou.com“ erläutert weitere technische Möglichkeiten, Nutzer des World-Wide Web beim Surfen zu de-anonymisieren.

4.2 Was hast du bisher getan?

Der oben geschilderte Trick zum Auslesen der Browser-Chronik ist eine der Techniken, das bisherige Verhalten von Nutzern im Netz in dem Moment zu erfahren, in dem der Nutzer eine ent-sprechend präparierte Web-Seite aufruft. Wie sich dieses Wis-sen auswerten lässt, ist Gegenstand schöpferischer Einfälle pfif-figer Forscher (die solche Lücken veröffentlichen) oder auch bös-williger Angreifer.

Eine pikante Auswertung (pfiffiger Forscher) ist das Checken einer Browser-Chronik gegenüber bekannten Pornoseiten. Eine entsprechend präparierte Web-Seite, http://didyouwatchporn.com, liefert dem aufrufenden Nutzer die Information darüber zurück, ob eine bekannte Pornoseite in seiner Browser-Chro-nik verzeichnet ist. Soweit, so gut. Dieselbe Web-Seite bietet aber auch den Dienst an, sie jemand anderem, sagen wir einem guten Freund, zuzusenden und diesen anzuregen, die Seite aufzurufen: dann wird die Information, welche Pornoseiten der Freund auf-gerufen hatte, auch dem Absender mitgeteilt. So wenig bedeut-sam dieses Beispiel für die Realität ist, so zeigt es doch drastisch auf, wie reichhaltig die Möglichkeiten sind, personenbezogene Informationen im Web, die einer nicht freiwillig hergeben wür-de, zu stehlen.

6 Wondracek/Holz/Kirda/Kruegel, A Practical Attack to De-Anonymize Social Network Users, Technical Report 2010 TR-iSecLab-0110-001.

4.3 Was wirst Du in Zukunft tun?

Die ZEIT berichtet in einem Artikel am 11.3.20107 von einer For-schungsarbeit der Firma Google, Aufenthaltsprofile von Men-schen herzustellen, indem sie Gesichter aus Straßenfotos erken-nen und diese mit Personaldaten aus einer Firmendatenbank kombinieren. Eine Anwendung daraus, an der eine Personalab-teilung durchaus Interesse haben könnte, wäre die Berechnung einer Prognose, ob ein auf verschiedenen Straßenfotos identifi-zierter Mitarbeiter durch sein Bewegungsprofil ein wahrschein-licher Kündigungskandidat ist oder nicht. Das Erschreckende einer solchen Prognose ist, dass eine Firma eine Wahrscheinlich-keitsaussage über die Kündigungsbereitschaft eines Mitarbeiters hat, von der dieser selbst noch gar nichts weiß. Hierbei handelt es sich dann um die Auswertung von Datenspuren, an deren Erzeu-gung die Betroffenen nicht den geringsten Anteil haben.

5 Fazit

Nutzer hinterlassen im Internet, insbesondere im World-Wide-Web mit seinen Anwendungen, zahlreiche Spuren. Es gibt eine Reihe von Verfahren, aus Kommunikationsspuren Rückschlüs-se über Personen und ihren Kommunikationskontext zu ziehen. Wichtigster Hebel für die Kontextinterpretation ist die Herstel-lung von Querbezügen zwischen technischen Informationen (Logging) und inhaltlichen Informationen, wie Kundenstamm-daten und Selbstdarstellungen von Nutzern.

Während die technischen Server solche Logging-Daten in erster Linie zur technischen Pflege ihrer Dienste nutzen, sind Dienstanbieter an den Handlungsprofilen ihrer Kunden interes-siert. Personenbezogene Kontextdaten im Internet bilden daher eine begehrte Ware für Dienstanbieter und ihre Zubringer. Die Nachfrage nach diesen Daten beschränkt sich aber nicht auf die Dienstanbieter allein, sondern letztlich sind es die Nutzer selbst, die das Internet als billiges Reiseland beanspruchen. Sie sind nicht nur bereit, dafür ihre personenbezogenen Daten anzubieten, son-dern auch, personalisierte Reklame als Begleitung zu den kosten-losen Diensten in Kauf zu nehmen. Allerdings liegen diesem Ver-halten kaum bewusste Auswahlentscheidungen zugrunde.

Literatur[GP 2010] R. Grimm/D. Pähler: E-Mail-Forensik, DuD 2010, S. 86-89.[Koe 2000] Marit Köhntopp/Kristian Köhntopp: Datenspuren im Internet; Com-

puter und Recht (CR) 2000, S. 248-257.[Pet 2005] Helge Petersohn: Data Mining: Verfahren, Prozesse, Anwendungs-

architektur, Oldenbourg Verlag, München 2005.[Wef 2010] ZEIT Politik. Heinrich Wefing: Ich sehe was, was Du nicht siehst. Darf

Google mehr wissen als der Staat? DIE ZEIT Nr. 11, 11.3.2010, Politik, S. 3.[WHKK 2010] G. Wondracek/T. Holz/E. Kirda/C. Kruegel: A Practical At-

tack to De-Anonymize Social Network Users, Technical Report TR-iSe-cLab-0110-001.

[Wich 1998] M. Wichert: Web-Cookies – Mythos und Wirklichkeit, DuD 1998, S 273-276.

7 Wefing, Ich sehe was, was Du nicht siehst. Darf Google mehr wissen als der Staat? DIE ZEIT Nr. 11, 11.3.2010, Politik, S. 3.