Weitere Studie belegt Lüge „anonymer“ Daten

Anonyme Daten sind oft gar nicht wirklich anonym, in vielen Datensätzen können Einzelne auch ohne Namen eindeutig identifiziert werden. Mit welcher erstaunlicher Präzision das geht, verdeutlicht eine neue Studie. Viele Firmen und Datenbanken unterlaufen die Datenschutzgrundverordnung.

Menschenmenge
Auch in der Masse ist man nicht anonym. – Gemeinfrei-ähnlich freigegeben durch unsplash.com chuttersnap

Nicht überall, wo anonym drauf steht, ist auch anonym drin. Das verdeutlicht eine Studie in der Wissenschaftlichen Fachzeitschrift „Nature“. Die Forscher können 99,98 Prozent der US-Amerikaner in jedem Datensatz identifizieren, mit nur 15 Merkmalen wie Alter, Wohnort oder Nationalität.

Das Beispiel der Wissenschaftler: Ein günstige Krankenkasse verkauft Kundendaten, aber nur „anonym“ und nur von einem Bruchteil der Datenbank. Die Studie stellt klar: Das ist keine echte Anonymität, die Daten sind nicht sicher. Menschen sind einfach zu einzigartig, um sich in Datenbanken zu verstecken. Eine Entfernen von Namen macht Datensätze nur pseudonym, nicht anonym. Mit einem Online-Tool kann jede selbst die De-Anonymisierung nachvollziehen.

Die Autoren schreiben, „dass selbst stark zerlegte anonymisierte Datensätze den modernen Anonymisierungsstandards der Datenschutzgrundverordnung nicht gerecht werden“. Ihre Ergebnisse hinterfragen „die technische und rechtliche Angemessenheit“, einfach nur unmittelbar identifizierende Datentypen zu streichen und sich über eine Identifizierbarkeit anhand anderer Datentypen keine Gedanken zu machen.

Daten sind nie vollständig anonym

„Die Studie zeigt einmal mehr sehr schön, was wir schon lange wissen“, sagt der Datenschutzforscher Wolfie Christl zu netzpolitik.org. „Solange Datensätze verarbeitet werden, die sich auf Einzelpersonen beziehen, kann keine Art der Anonymisierung mit vollständiger Sicherheit verhindern, dass Einzelpersonen reidentifiziert werden können.“

Es gibt zwar fortgeschrittene Methoden der Anonymisierung, die ein Erkennen von Einzelpersonen erschweren. Vollständige Sicherheit kann es aber nie geben. „Individualisierte ‚digitale Selbstverteidigung‘ oder rein technischer Datenschutz helfen deshalb nur sehr begrenzt“, so Christl. Stattdessen müsste die Datenschutzgrundverordnung als Ausgangsbasis dienen, um Rechte und Freiheiten zu schützen.

Dort liegt aber auch das Problem: Die DSGVO unterscheidet, ob Daten personenbezogen sind oder nicht. Die aktuelle Forschung zeigt erneut, dass genau diese Unterscheidung oft willkürlich ist. Christl fordert, die DSGVO endlich konsequent durchzusetzen und die Verarbeitung personenbezogener Daten im kommerziellen Massen-Datenmissbrauch zu stoppen: „Unternehmen sprechen etwa oft komplett irreführend von ‚anonymisierten‘ Daten, wo in Wirklichkeit pseudonymisierte – und damit eindeutig personenbezogene – Daten verarbeitet werden.“

Kein Massenleak, sondern öffentliche Daten

Das ist aber auch bei staatlichen oder universitären Datensätzen oft der Fall, auch in der aktuellen Studie. Neben einem Leak der nationalen türkischen Identifikationsnummer (eine Datenschutz-Katastrophe) benutzten die Forscher einen US-Zensus und frei zugängliche Umfragen von Universitäten, die angeblich anonym waren. Und immer mehr Daten werden öffentlich.

Schon als Großbritannien vor sieben Jahren 52 Millionen Krankenakten zusammenlegte, wurden Bedenken laut. Eine Studie der Royal Society kam schon damals zu dem Schluss, „dass die Sicherheit von persönlichen Daten in Datenbanken durch Anonymisierung nicht garantiert werden kann, wenn aktiv nach Identitäten gesucht wird.“ Und 2015 reichten in einer Studie zu anonymisierten Transaktionen mit Kreditkarten vier Transaktionen, um 90 Prozent der Personen wiederzuerkennen.

Eine Lösung wäre zum Beispiel, derartige Datensätze zu aggregieren, also Personen zu Gruppen zusammenzufassen. Durch diese Unschärfe wird die Wiedererkennung von Individuen so gut wie unmöglich gemacht. Die Langzeitstudie der „Nationalen Kohorte“, an der 200.000 Deutsche teilnehmen, wendet dieses Verfahren bereits an: Dort werden Adressen nur so angegeben, dass sie mindestens 50 Personen umfassen.

Bis solche Verfahren aber umfassend angewendet werden, sind angeblich anonyme Datensätze, Umfragen und Studien ein Datenschutzrisiko. Und dieses Risiko wird mit steigender Rechenkapazität und genaueren Algorithmen nur noch größer werden.

Deine Spende für digitale Freiheitsrechte

Wir berichten über aktuelle netzpolitische Entwicklungen, decken Skandale auf und stoßen Debatten an. Dabei sind wir vollkommen unabhängig. Denn unser Kampf für digitale Freiheitsrechte finanziert sich zu fast 100 Prozent aus den Spenden unserer Leser:innen.

7 Ergänzungen

  1. Danke für den Artikel. Ich habe eine Verständnisfrage. Wieso sind personenbezogene Daten nicht eindeutig? ES heisst: “ Die DSGVO unterscheidet, ob Daten personenbezogen sind oder nicht. Die aktuelle Forschung zeit erneut, dass genau diese Unterscheidung oft willkürlich ist.“
    Wie kann ich mich als VerbraucherIn dagegen wehren, gibt es eine Art Musterschreiben, um z.B. Kreditkartenfirmen damit zu konfrontieren?

    1. Bei vielen Daten ist es aus Sicht eines einzelnen Menschen schwierig, ad hoc einen Personenbezug herzustellen.

      Aber das ist ja das Problem, dass ein wirres Gekritzele auf weißem Hintergrund zunächst keinen Sinn für einen menschlichen Betrachter ergibt, aber auf alle Straßenkarten der Welt mittels Algorithmen gematcht, hat man plötzlich eine klare oder zumindest mehrere wahrscheinliche örtliche Zuordnungen. Gibt es weitere Daten, die den so gewonnenen Örtlichkeiten vielleicht eine zeitliche oder andere Dimensionen hinzufügen könnten?

      So ähnlich läuft es dann auch abstrakter mit irgendwelchen Daten, die eine Art von Abfolge oder auch nur irgendeine Beziehung untereinander aufweisen. Vielelicht gibt es dort noch keine Straßenkarten, aber zumindest Orientierungspunkte – und letztlich sind diejenigen, die die Datenhosen auf haben auch diejenigen, die die Straßenkarten bauen helfen, zum (mindestens denkbaren) Schaden aller.

      1. Kurz: Ob ein Datum personenbezogen ist, ergibt sich immer individuell aus dem Kontext des Datensatz.

        1. Genauer noch: Jede form von Datum, die überhaupt eine Verbidung zu Personen zulässt, kann zur Deanonymisierung beitragen.

          Aggregation muss im Grunde Nichtssagende Daten ergeben, damit Deanonymisierung nicht funktionieren kann.

          Wo wählen unsere Gesetzgeber und unsere Gerichte jetzt die Balance?
          – Geht nicht in akzeptabler Zeit mit einem C64 und 4 Kassetten.
          – Die NASA kann es nicht.
          – Alphabet kriegt es nicht gewuppt.
          – Mathematisch ausgeschlossen.

        2. Interessant!
          Und was ist rechtlich als „personenbezogen“ anzusehen, also derzeit laut der DS-GVO?

          1. Kein Anwalt, keine Rechtsberatung:

            im Prinzip definiert die DSGVO personenbezogene Daten ziemlich allgemein als Daten, die einen Rückschluss auf die Person zulassen. Allerdings liest man schnell etwas wie „sind die Daten anonymisiert, gelten sie nicht mehr als personenbezogen“.

            Anonymisierung und Aggregation können unter Umständen eben nicht verhindern, dass eben diese Daten mitgenutzt werden, um Personen zu identifizieren – zumindest gibt es immer wieder „Überraschungen“, was nun doch wieder eine Zuordnung zulässt. Hinzu kommt, wenn man andere „ebenso wenig zuordnebare“ Datensätze mit Vorhandenen kombiniert, dass man auf diese Weise eben doch wieder deanonymisieren kann, will sagen, dass es wirklich schwierig ist, eine korrekte Zuordnung im Sinne des Schutzes von Daten zu treffen, wenn man dennoch Industrie- oder Überwachungsfreundlich sein will. Hier kann auch die Kombination mit illegal erstellten Daten erfolgen, wer Lust hat das einem spezifischen Datenhändler nachzuweisen…

            Der Vorgang der Anonymisierung ist vielleicht dann der Knackpunkt. Dort werden nicht nur Fehler gemacht, sondern Gerichte könnten wiederholt versucht sein, dieses oder jenes als Stand der Zeit zu akzeptieren, um Rechtssicherheit für Unternehmen zu schaffen, was dann oft bis immer wieder ausgehebelt werden kann.

  2. „Eine Lösung wäre zum Beispiel, derartige Datensätze zu aggregieren, also Personen zu Gruppen zusammenzufassen.“ Warum 50? Außerdem – eine Disaggregation und damit De-Anonymisierung und Re-Identifikation ist mit Software jederzeit möglich, insofern man weiß, ob in 2 oder mehr anonymisierte/ aggregierte Datensätze Informationen identischer Personen enthalten sind. Man muss nur die „richtigen“ Disaggregationskriterien finden und entsprechend fusionieren.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.