Zurück zum Blog

Datenschutz im maschinellen Lernen

Datenschutz - eine der größten Herausforderungen des maschinellen Lernens und wie man sie angeht.

25. April 2019

AI

Industry

Industry

a row of CCTV cameras
a row of CCTV cameras
a row of CCTV cameras

Unbestritten könnte das Jahr 2018 als das bedeutsamste Jahr für den Datenschutz seit den Snowden-Enthüllungen 2013 angesehen werden.

Die DSGVO trat im Mai in Kraft und stellte die erste umfangreiche Überarbeitung des Datenschutzrechts in Europa dar. Dies war die Folge einer atemberaubenden Serie von Skandalen: Cambridge Analytica hatte Facebook-Nutzerdaten gesammelt und ausgebeutet; Schwachstellen in Google+ hatten Daten von einer halben Million Nutzern offengelegt; 25 Millionen einzigartige Reisepassnummern waren bei einem Datenleck von Marriott International gestohlen worden.

Der Wert der Datensammlung ist seither sprunghaft gestiegen, und fragwürdige Partnerschaften, wie GlaxoSmithKline, die Zugang zu genetischen Daten von 23andMe erhalten, sind als Folge daraus weiterhin entstanden.

Verstöße gegen die Privatsphäre haben natürlich Gegenstrategien provoziert, sowohl rechtliche wie die DSGVO als auch technologische. Um zu verhindern, dass persönliche Informationen von vornherein verwundbar sind, werden Identitäten oft im Prozess der Datenanonymisierung maskiert. Das Entfernen vertraulicher Informationen von ihren Identifikatoren scheint im Prinzip einfach – Felder, die Namen oder Sozialversicherungsnummern enthalten, können leicht aus einer Datenbank entfernt werden.

Wie ist es dann weiterhin möglich, die Identität einer Person aus anonymisierten Daten zu rekonstruieren, und warum ist das Thema Datenschutz im Kontext von KI besonders relevant?

Zuerst werden wir kurz die Dimensionen von Datensätzen betrachten, die relevant sind, um die Problematik der De- und Re-Identifikation zu verstehen. Dann werden wir erörtern, warum die Problematik des Datenschutzes in der maschinellen Lernumgebung besonders herausfordernd ist und die neuesten Entwicklungen im Bereich der datenschutzfreundlichen KI präsentieren. Maschinelles Lernen und seine Unterkategorien (d.h. Deep Learning) stellen mächtige statistische Techniken dar. Genau ihre Fähigkeit, aus großen mehrdimensionalen Datensätzen umsetzbare Erkenntnisse abzuleiten, stellt jedoch eine unerwartete Herausforderung im Bereich der Datensicherheit dar.

Die Struktur eines Datensatzes

Innerhalb einer Datenbank können die verschiedenen Datenpunkte, die mit einer Person assoziiert sind, aus einem Datenschutzstandpunkt unterschieden werden, durch welche Art von Informationen sie enthalten. Ein Datensatz ist eine Tabelle mit n Zeilen und m Spalten. Jede Zeile repräsentiert Informationen, die sich auf ein bestimmtes Mitglied einer Bevölkerung beziehen; die Werte in den m Spalten sind die Werte der Attribute, die mit den Mitgliedern der Bevölkerung assoziiert sind (z.B. im Fall von medizinischen Aufzeichnungen könnten das Name – Alter – Geschlecht – Staat – Religion – Krankheit sein). Die erste Art von Information stellt persönlich identifizierbare Informationen (PII) dar, die eine Person eindeutig identifizieren, z.B. ihr vollständiger Name oder ihre Sozialversicherungsnummer. Die zweite Art von Informationen ist als Quasi-Identifikatoren (QI) bezeichnet, die Kategorien wie Alter oder Geschlecht darstellen, die mehr als einer Person zugeordnet werden können. Daher reichen diese Informationen alleine nicht aus, um eine Identifizierung zu ermöglichen. Wenn sie jedoch mit anderen QIs, Abfrageergebnissen und externen Informationen kombiniert werden, ist es manchmal möglich, eine Person wieder zu identifizieren – mehr darüber später. Der dritte Untertyp sind sensible Spalten, die geschützte Attribute enthalten, die nicht auf die Identität der Person zurückführbar sein sollten, z.B. eine HIV-Diagnose.

Das Problem der De- & Re-Identifikation

Ein berühmter Fall der De-Anonymisierung, der erstmals auf Schwächen im Datenschutz aufmerksam machte, betraf den damaligen Gouverneur von Massachusetts, William Weld. 1997 veröffentlichte die Massachusetts Group Insurance Commission (GIC) anonymisierte Krankenhausdaten an Forscher, die von PIIs befreit waren. Gouverneur William Weld selbst hatte der Öffentlichkeit versichert, dass die GIC die Patientendaten ausreichend geschützt hatte, indem sie Identifikatoren gelöscht hatte. Zu dieser Zeit war Latanya Sweeney eine Doktorandin an der MIT im Bereich Informatik, die an der computergestützten Zugriffskontrolle arbeitete. Durch die Kombination von QIs aus den Wählerverzeichnissen mit den anonymisierten Versicherungsunterlagen identifizierte Sweeney die Gesundheitsdaten des Gouverneurs, einschließlich Diagnosen und Verschreibungen.

Es wurde argumentiert, dass dieser Fall insofern besonders war, als dass die identifizierte Person eine bekannte Figur war, die eine sehr öffentlich bekannt gewordene Krankenhausaufenthalt erlebt hatte. Das Konzept wurde jedoch wiederholt bewiesen: Öffentlich zugängliche Datenbanken zu querverweisen und Übereinstimmungen einzugrenzen, um letztlich sensible Informationen einer Person zuzuordnen, kann die Veröffentlichung von Datensätzen gefährden, selbst wenn sie von Identifikatoren befreit wurden. Im 2008 re-identifizierten Narayanan und Shmatikov erfolgreich einen von Netflix veröffentlichten Datensatz mit anonymisierten Bewertungen von 500.000 Nutzern, indem sie ihn mit der Internet Movie Database (IMDb) verlinkten. Zehn Jahre später de-anonymisierte eine Gruppe am MIT erneut den Netflix Prize-Datensatz, diesmal unter Verwendung öffentlich zugänglicher Amazon-Rezensionsdaten. 2006 veröffentlichte AOL Suchanfragen an die Öffentlichkeit, und spezifische Nutzer wurden identifiziert. Am berühmtesten ist Nutzer Nr. 4417749, mit einer Suchhistorie, die Anfragen wie „60 alleinstehende Männer“ oder „Hund, der auf alles uriniert“ enthielt und als 62-jährige Thelma Arnold aus Lilburn, Georgia, identifiziert wurde. Mehrere Artikel haben Beispiele erfolgreicher Re-Identifikationsangriffe auf Gesundheitsdaten gezeigt; abschließend kann man sagen, dass der Fall von Weld nicht als isolierter Vorfall steht.

Warum das Thema Datenschutz im maschinellen Lernen verschärft wird

Maschinelles Lernen ist ein Teilbereich der KI, der es einem Computer ermöglicht, in Daten gefundene Konzepte zu verinnerlichen, um Vorhersagen für neue Situationen zu treffen. Um zuverlässige Genauigkeitsstufen zu erreichen, benötigen Modelle große Datensätze, aus denen sie „lernen“ können. Um die Privatsphäre der Einzelnen im Kontext großer Daten zu schützen, wurden konventionell unterschiedliche Anonymisierungstechniken eingesetzt. Die drei relevantesten sind k-Anonymität, l-vielfalt und t-Nähe. Bei der k-Anonymität werden bestimmte Spalten von QIs (z.B., Name, Religion) entfernt oder angepasst (z.B., Ersetzen eines bestimmten Alters durch ein Altersintervall), sodass innerhalb des Datensatzes immer mindestens 2 Zeilen mit exakt den gleichen Attributen vorhanden sind (dies wäre dann „2-Anonymität“). L-Vielfalt und t-Nähe sind Erweiterungen dieses Konzepts, die hier ausführlicher beschrieben werden. Diese Modifikationen werden angewandt, bevor Daten geteilt werden; dies wird als datenschutzfreundliches Data Publishing bezeichnet. Mit dem Aufstieg der KI könnte dieser Schutz jedoch nicht mehr ausreichend sein.

Welche Herausforderungen in Sachen Datensicherheit sind spezifisch für KI? Viele der im Rahmen großer Daten angeführten Datenschutzherausforderungen sind auch für KI relevant, z.B., die Möglichkeit, persönliche Informationen mit minimalen personenbezogenen Daten zu re-identifizieren oder zu klären, wie Verbraucherdaten verwendet werden. Der Aufstieg der KI ist jedoch quantitativ unterschiedlich in Bezug auf die enormen Datenmengen, die einerseits beteiligt sind, z.B., Baidu verwendet jahrzehntelange Audiodaten, um ihren Spracherkennungsalgorithmus zu trainieren. Auf der anderen Seite gibt es die hohe Dimensionalität der Daten, die von Modellen berücksichtigt wird.

Konventionelle statistische Techniken würden eine begrenzte Anzahl sorgfältig ausgewählter Variablen berücksichtigen. Durch neue Regularisierungstechniken und sinkende Berechnungskosten (auch durch Cloud-Dienste von Google oder AWS) hat sich der mögliche Feature-Raum drastisch erweitert, sodass ML-Modelle nun Tausende von Variablen berücksichtigen können, um eine einzige Prognose zu erstellen. Ein bemerkenswertes Beispiel ist Googles Einsatz von neuronalen Netzwerken, um ihre Kühlkosten um 40 % zu reduzieren. Der Abbau unstrukturierter Daten durch Deep-Learning-Techniken und die Fähigkeit, all diese Daten in ein Modell zu integrieren, hat zu einem unabsehbaren Überfluss an Informationen geführt. Mit Algorithmen, die Rückschlüsse aus so großen und komplexen Datensätzen ziehen können, treten drei neue konzeptionelle Probleme auf.

Erstens besteht bei der hinzugefügten Dimensionalität in ML-Trainingssets implizit eine höhere Wahrscheinlichkeit, dass sensible Informationen enthalten sind. Zweitens sind diese leistungsstarken neuen Modelle eher in der Lage, diese sensiblen Informationen zu erfassen. Schließlich ist die Herausforderung, diese riesigen Datenmengen, die in ein ML-Modell einfließen können, zu de-identifizieren und abzusichern, viel schwieriger, und der Schutz in komplexe mehrschichtige Architekturen einzubauen, stellt eine große Herausforderung dar.

Was könnten einige praktische Beispiele für Bedrohungen der Datensicherheit sein, die speziell für KI-Systeme sind?

ML-spezifische Herausforderungen des Datenschutzes

Traditionell bedeutete das Entfernen der Spalte, die sensible Informationen in einem Datensatz enthält, dass diese speziellen Informationen nicht aus dem Datensatz selbst herausgelesen werden konnten, sondern nur durch sorgfältiges Kombinieren und Abfragen externer Informationen. KI jedoch kann Identitäten auch dann rekonstruieren, wenn der Identitätsindikator entfernt wurde. Aus einem Satz eingereichter Lebensläufe könnte z.B. das Geschlecht entfernt werden, um Geschlechterdiskriminierung beim Bewertungsprozess zu verhindern. Obwohl die Lebensläufe in diesem Sinne de-identifiziert wurden, könnte ein ML-Tool subtile Nuancen in der Sprachverwendung aufgreifen und daraus das Geschlecht des Kandidaten ableiten. Hier reicht es nicht aus, die Spalte zu entfernen, um sensible Informationen sicher zu entfernen, und Techniken wie k-Nähe sind nicht ohne stark eingreifende Änderungen anwendbar.

Informationen, die in der Struktur von NN-Modellen selbst enthalten sind, stellen eine weitere Bedrohung dar. Ein trainiertes Modell enthält wesentliche Informationen über sein Trainingsset, und es wurde argumentiert, dass es relativ einfach ist, sensible Informationen aus maschinellen Lernklassifikatoren zu extrahieren. Im Transfer-Learning werden KI-Modelle zunächst auf einem Datensatz trainiert, der lokal gespeichert wird. Um zu verhindern, dass diese Daten geteilt werden, werden die Modellparameter an einen anderen Benutzer übertragen, der dann die diskriminierenden Fähigkeiten des Modells zur Vorhersage nutzen kann, ohne Zugriff auf die persönlichen Informationen zu haben, aus denen es gelernt hat. Bestimmte Merkmale des Datensatzes können jedoch in einigen Fällen aus den gemeinsam genutzten Parametern des Modells abgeleitet und dann zurückverfolgt werden, um sensible Informationen zu enthüllen. Die Informationen, die von NNs aus Datensätzen gespeichert werden, können durch statistische Inferenz auf verschiedene Weise extrahiert werden, wie es von der Harvard-Computerwissenschaftlerin Cynthia Dwork beschrieben wird.

Aufbauend auf dem Konzept des Transfer-Learnings gibt es ausgefeiltere Formen des kollaborativen Lernens, die ebenfalls auf der Idee basieren, Parameter zu sammeln und auszutauschen, wodurch die Notwendigkeit des Datenteilers entfällt. Eine neue Bedrohung wird durch generative gegnerische Netzwerke (GANs) geschaffen, die, anstatt Bilder in Kategorien zu klassifizieren, darauf trainiert werden, ähnlich aussehende Proben zu den Trainingssätzen zu generieren, ohne tatsächlich Zugang zu den Originalproben zu haben. Das GAN interagiert mit dem diskriminierenden tiefen neuronalen Netzwerk, um die Verteilung der Daten zu erlernen; in gewisser Weise stellt dies eine Erweiterung des zuvor beschriebenen Angriffs dar.

Zusammenfassend lässt sich sagen, dass KI bestehende Datenschutzprobleme verstärkt und völlig neue Bedenken schafft, die angegangen werden müssen. Angesichts dessen, unter Berücksichtigung der bemerkenswerten Bedeutung von ML-Systemen, scheinen neue Ansätze bei der Implementierung von datenschutzfreundlichem maschinellem Lernen mehr denn je erforderlich.

Aktuelle Trends im datenschutzfreundlichen maschinellen Lernen

Erste Ansätze zur Erhöhung des Datenschutzes konzentrierten sich hauptsächlich auf die Nutzung von Transfer-Learning, also die Verwendung eines vortrainierten Modells für ein neues Problem. Indem der Zugriff auf die Originaldaten entfernt wird, sollten Datenschutzbedenken verringert werden. Wie die obigen Beispiele zeigen, fehlt jedoch dem herkömmlichen Transfer-Learning eine Datenschutzgarantie in Bezug auf sensible Daten. Dezentralisierte, kollaborative Ansätze wie föderiertes maschinelles Lernen (FL) werden weit verbreitet eingesetzt, z.B. von Google, die vorschlagen, dezentrale Daten, die sich auf Endgeräten wie Mobiltelefonen befinden, zu verwenden, um ihre maschinellen Lernmodelle zu trainieren. Jedoch stellen GANs eine grundlegende Bedrohung für diese Systeme dar. In einem 2017 Papier argumentieren Forscher des Stevens Institute of Technology, dass jeder verteilte, föderierte oder dezentralisierte Deep Learning-Ansatz anfällig für Angriffe ist, die Informationen über Teilnehmerdaten des Trainingssatzes enthüllen. Der von ihnen entwickelte Angriff nutzte die Echtzeit-Natur des Modelllernens aus, was es dem Angreifer ermöglicht, ein GAN zu trainieren, das prototypische Beispiele des privaten Trainingssatzes erstellt. Auf diese Weise wird auch in das kollaborative Lernen, das als datenschutzfreundlich betrachtet wurde, die Idee der Täuschung eingeführt.

Centralized learning vs collaborative learning in deep learning

Verteiltes Deep Learning kann (a) zentralisiert sein, in diesem Fall kann der Server die Privatsphäre der Daten gefährden, oder (b) verteilt sein, in diesem Fall könnte ein bösartiger Benutzer mit einem GAN ein Opfergerät dazu bringen, private Informationen preiszugeben (Bildquelle)

Einführung... Differential Privacy

Eine der vielversprechendsten Ansätze im Bereich des datenschutzfreundlichen maschinellen Lernens ist die Differential Privacy (DP). Das Konzept ist nicht neu in der Debatte um den Datenschutz. Erstmals von Dwork im 2006 formuliert, stellt DP einen stringenten Datenschutzansatz dar, der garantiert, dass keine individuellen Patientendaten bedeutenden Einfluss auf die bereitgestellten Informationen über den Datensatz haben. Dies bedeutet nicht, dass nichts über einen Einzelnen aus den bereitgestellten Informationen erlernt werden kann - das Veröffentlichen von Daten, die eine starke Korrelation zwischen Rauchen und Lungenkrebs zeigen, enthüllt sensible Informationen über eine Einzelperson, von der bekannt ist, dass sie raucht. Vielmehr ist das ultimative Datenschutzziel sicherzustellen, dass alles, was über eine Person aus den veröffentlichten Informationen erlernt werden kann, auch ohne die Einbeziehung der Daten dieser Person erlernt werden kann. Im Allgemeinen ist ein Algorithmus differentially privacy-konform, wenn ein Beobachter, der das Ergebnis untersucht, nicht in der Lage ist, festzustellen, ob Informationen einer bestimmten Person für die Berechnung verwendet wurden. Für einen Server, der sensible Informationen enthält, wird eine Abfragefunktion echte Antworten aus der Datenbank abrufen. Um die Privatsphäre einzelner zu schützen, wird gemäß einer sorgfältig gewählten Verteilung ein zufälliges Rauschen generiert, das zu einer Verzerrung der echten Antwort führt. Die wahre Antwort plus Rauschen wird an den Nutzer zurückgegeben. Das Ausmaß der Verzerrung kann so berechnet werden, dass die Gesamtgenauigkeit nicht erheblich abnimmt, während es für individuelle Daten immer „plausible Verleugnung“ aufgrund der Zufälligkeit des Rauschens gibt.

Differential privacy requires outcome to be formally indistinguishable when run with and without any particular record in dataset

Die Differential Privacy erfordert, dass das Ergebnis formal nicht unterscheidbar ist, wenn es mit und ohne einen bestimmten Datensatz (in diesem Fall Bobs) in der Datenbank ausgeführt wird (Bildquelle)

Eine überraschende Eigenschaft von Differential Privacy ist, dass sie größtenteils mit sinnvoller Datenanalyse kompatibel ist oder sogar von ihr profitiert, trotz ihrer schützenden Stärke. In der empirischen Wissenschaft besteht die Gefahr, dass Daten überanpasst werden, um letztlich zu Ergebnissen zu führen, die spezifisch für den Datensatz sind, und an Genauigkeit verlieren, wenn Vorhersagen auf die größere Bevölkerung verallgemeinert werden. Differential Privacy bietet auch Schutz vor solcher Überanpassung, ihre Vorteile gehen somit über die Datensicherheit hinaus. Diese Stärken von DP sind für einige Datentypen ausgeprägter als für andere; im Allgemeinen funktioniert DP gut für Abfragen mit geringer Sensitivität mit gaußschen Verteilungen. Einschränkungen ergeben sich bei der Arbeit mit kleineren Datensätzen mit ungleichmäßigen Verteilungen, z.B. Datensätzen von Einkommen mit extremen Ausreißern, wobei mehr Rauschen hinzugefügt werden muss, oder bei adaptiver Abfrage. Wenn Sie eine Reihe von differentially privaten Abfragen stellen können, könnten statistische Inferenzangriffe allmählich die Form der zugrunde liegenden Rauschverteilung ableiten. Auch müssen wir in einer Reihe von k Abfragen, die differentially privatisiert sind, k-mal das Rauschen injizieren; wenn k groß ist, zerstört dies letztendlich die Nützlichkeit des Outputs. Zusammenfassend lässt sich sagen, dass Differential Privacy eine sehr vielversprechende Forschungsrichtung ist, die einen starken Schutz bieten kann, aber noch nicht in allen Situationen anwendbar ist und derzeit schwer in komplexe Systeme zu integrieren ist. Ein Versuch, eine Methodik für den praktischen Gebrauch vorzuschlagen, wurde 2018 von Forschern der Harvard Medical School formuliert. Das Papier präsentiert eine Methode, um neuronale Netzwerke auf klinischen Daten in verteilter Form unter Differential Privacy zu trainieren.

Praktische Implikationen

Im Bereich des Datenschutzes gibt es eine Diskrepanz zwischen beschriebenen Bedrohungen, die von der akademischen Welt untersucht werden, um die bloße Möglichkeit einer Verletzlichkeit zu eliminieren, und praktikablen Angriffsszenarien. Während theoretische Probleme zu berücksichtigen sind, muss man realistisch über die tatsächlichen Risiken sein, die sie darstellen. Alle oben beschriebenen Re-Identifikations- und Datenrekonstruktionsbemühungen stammen von Forschungsteams mit dem Ziel, aktuelle Methoden zu verbessern; und es ist sicher zu sagen, dass diese Bemühungen konstant zeitraubend und arbeitsintensiv waren, mit dem Ergebnis, zufällig eine ältere Frau aus Tausenden zu identifizieren, ohne klaren Motiv. Diese Bemühungen, an denen mehrere hochqualifizierte Informatiker Hunderte von Stunden arbeiten, würden sich im Falle einer bösartigen Absicht kaum auszahlen. Nichtsdestotrotz sollten unsere Modelle theoretisch fundiert sein, insbesondere im Hinblick auf den Datenschutz. Pragmatisch muss man nicht nur beim Teilen von Daten vorsichtig sein, sondern auch bei der Weitergabe von Architekturen und den Aufbau interner Systeme mit Hilfe von Experten in Betracht ziehen, die hauptsächlich auf eigenen Daten beruhen. Dies mag zunächst schwer zu erreichen sein, insbesondere für kleine bis mittlere Unternehmen, wo ein hybrider Ansatz aus Mensch und KI praktisch wird. Die Idee hier ist, dass anfangs eine vortrainierte Standardarchitektur für die jeweilige Aufgabe, z.B. Objekterkennung, eingesetzt wird, um Standardfälle zu klassifizieren, während in Grenzfällen auf den menschlichen Experten zurückgegriffen wird. Durch Rückmeldungen ermöglicht ein solches kontinuierlich verbessertes Modell einen frühen praktischen Einsatz von KI, der auch langfristig nachhaltig ist. Wenn man den theoretischen Stand des gesamten Bereichs der datenschutzschützenden KI untersucht, können wir drei Hauptkonzepte identifizieren: die Eignung von Transfer-Learning für Daten, bei denen Datenschutz zweitrangig ist, das Bewusstsein für die Schwachstellen, die kollaborative Modelle noch haben, und die Bedeutung der differenziellen Privatsphäre für zukünftige Anwendungen.


Meme on how adversarial network steals private data from collaborative deep learning model via statistical inference attack



Sebastian Schaal
Inga Schwarz
Patrick Perner

Kostenfreie Demo buchen

Lassen Sie sich von unseren Produktspezialisten durch die Plattform führen, alle für Ihren individuellen Anwendungsfall relevanten Funktionalitäten ansprechen und alle Ihre Fragen direkt beantworten. Oder sehen Sie sich ein 5-minütiges Video der wichtigsten Funktionen an.