zurück zum Blog
Datenschutz beim maschinellen Lernen
Datenschutz - eine der größten Herausforderungen des maschinellen Lernens und wie man sie bewältigen kann.
April 25, 2019
2018 war wohl das wichtigste Jahr für den Datenschutz seit den Snowden-Leaks im Jahr 2013. DSGVO trat im Mai in Kraft und stellte die erste umfassende Neufassung des Datenschutzrechts in Europa dar. Es war die Folge einer atemberaubenden Reihe von Skandalen: Cambridge Analytica hatte Daten von Facebook-Nutzern gesammelt und ausgebeutet; Schwachstellen in Google+ hatten Daten von einer halben Million Nutzern offengelegt; 25 Millionen eindeutige Passnummern waren bei einem Datenbruch von Marriott International gestohlen worden. Der Wert des Sammelns von Daten ist seitdem in die Höhe geschnellt, und fragwürdige Partnerschaften wie der Zugang von GlaxoSmithKline zu genetischen Daten von 23andMe sind eine Folge davon. Verletzungen der Privatsphäre haben natürlich Gegenstrategien hervorgerufen, sowohl rechtlicher Art, wie DSGVO, als auch technischer Art. Um zu verhindern, dass personenbezogene Daten überhaupt angreifbar werden, werden die Identitäten häufig im Rahmen der Anonymisierung von Daten verschleiert. Das Entfernen vertraulicher Informationen von ihren Identifikatoren scheint im Prinzip einfach zu sein - Felder mit Namen oder Sozialversicherungsnummern können leicht aus einer Datenbank entfernt werden. Wie ist es dann noch möglich, die Identität einer Person aus anonymisierten Daten zu rekonstruieren, und warum ist die Frage des Datenschutzes im Kontext von KI besonders relevant?
Zunächst werden wir kurz auf die Dimensionen von Datensätzen eingehen, die für das Verständnis des Problems der De- und Re-Identifizierung relevant sind. Anschließend werden wir erörtern, warum der Datenschutz beim maschinellen Lernen eine besondere Herausforderung darstellt, und die neuesten Entwicklungen auf dem Gebiet der Wahrung der Privatsphäre vorstellen KI. Maschinelles Lernen und seine Unterkategorien (z. B. Deep Learning) stellen leistungsstarke statistische Techniken dar. Doch gerade ihre Fähigkeit, aus großen multidimensionalen Datensätzen verwertbare Erkenntnisse abzuleiten, stellt eine ungeahnte Herausforderung für den Bereich Datensicherheit dar.
Die Struktur eines Datensatzes
In einer Datenbank können die verschiedenen Datenpunkte, die mit einer Person verbunden sind, unter dem Gesichtspunkt des Datenschutzes danach unterschieden werden, welche Klasse von Informationen sie enthalten. Ein Datensatz ist eine Tabelle mit n Zeilen und m Spalten. Jede Zeile steht für Informationen über ein bestimmtes Mitglied einer Population; die Werte in den m Spalten sind die Werte von Attributen, die mit den Mitgliedern der Population assoziiert werden (z. B. im Fall von medizinischen Aufzeichnungen könnten das Name - Alter - Geschlecht - Staat - Religion - Krankheit sein). Die erste Spalte steht für personenbezogene Daten (PII), die eine Person eindeutig identifizieren, z. B. ihr vollständiger Name oder ihre Sozialversicherungsnummer. Die zweite Art der enthaltenen Informationen wird als Quasi-Indentifikatoren (QI) bezeichnet, bei denen es sich um Kategorien wie Alter oder Geschlecht handelt, die möglicherweise mehr als einer Person zugeordnet werden können. Daher sind diese Informationen für sich genommen nicht ausreichend für eine Identifizierung. Kombiniert man sie jedoch mit anderen QI, Abfrageergebnissen und externen Informationen, ist es manchmal möglich, eine Person zu reidentifizieren - dazu später mehr. Der dritte Subtyp sind sensible Spalten, die geschützte Attribute enthalten, die nicht auf die Identität der Person zurückgeführt werden sollten, z. B. die HIV-Diagnose.
Das Problem der De- und Re-Identifizierung
Ein berühmter Fall von Anonymisierung, der erstmals die Aufmerksamkeit auf Schwächen im Datenschutz lenkte, betraf den damaligen Gouverneur von Massachusetts, William Weld. Im Jahr 1997 gab die Group Insurance Commission (GIC) von Massachusetts de-identifizierte Krankenhausdaten an Forscher frei, denen die personenbezogenen Daten entzogen worden waren. Der Gouverneur William Weld selbst hatte der Öffentlichkeit versichert, dass die GIC die Privatsphäre der Patienten durch die Löschung der Identifikatoren ausreichend geschützt hatte. Zu dieser Zeit war Latanya Sweeney Doktorandin der Computerwissenschaften am MIT und arbeitete an der computergestützten Offenlegungskontrolle. Durch die Kombination der in den Wahlakten enthaltenen QI mit den anonymisierten Versicherungsdaten identifizierte Sweeney die Gesundheitsdaten des Gouverneurs, einschließlich Diagnosen und Verschreibungen. Es wurde argumentiert, dass dieser Fall insofern eine Ausnahme darstellte, als es sich bei der identifizierten Person um eine bekannte Persönlichkeit handelte, die einen öffentlichkeitswirksamen Krankenhausaufenthalt hinter sich hatte. Das Konzept hat sich jedoch wiederholt bewährt: Der Querverweis auf öffentlich zugängliche Datenbanken und die Eingrenzung von Übereinstimmungen, um schließlich sensible Informationen einer Person zuzuordnen, kann die Veröffentlichung von Datensätzen gefährden, selbst wenn die Identifikatoren entfernt wurden. Im Jahr 2008 gelang es Narayanan und Shmatikov, einen von Netflix veröffentlichten Datensatz mit anonymisierten Bewertungen von 500 000 Nutzern zu reidentifizieren, indem sie ihn mit der Internet Movie Database (IMDb) verknüpften. Zehn Jahre später de-anonymisierte eine Gruppe am MIT den Netflix-Preis-Datensatz erneut, diesmal unter Verwendung öffentlich zugänglicher Amazon-Bewertungsdaten. Im Jahr 2006 gab AOL Suchanfragen an die Öffentlichkeit frei, und bestimmte Nutzer wurden identifiziert. Am bekanntesten ist der Nutzer Nr. 4417749 mit Suchanfragen wie “60 Single-Männer“ oder “Hund, der auf alles uriniert“ wurde als die 62-jährige Thelma Arnold aus Lilburn, Georgia, identifiziert. In mehreren Veröffentlichungen wurden Beispiele für erfolgreiche Re-Identifizierungsangriffe auf Gesundheitsdaten aufgezeigt; abschließend lässt sich sagen, dass der Fall Weld kein Einzelfall ist.
Warum die Frage des Datenschutzes beim maschinellen Lernen immer wichtiger wird
Maschinelles Lernen ist ein Teilbereich des KI, der es einem Computer ermöglicht, in Daten gefundene Konzepte zu verinnerlichen, um Vorhersagen für neue Situationen zu treffen. Um ein verlässliches Maß an Genauigkeit zu erreichen, benötigen Modelle große Datensätze, aus denen sie “lernen“ können. Um die Privatsphäre des Einzelnen im Kontext von Big Data zu schützen, werden üblicherweise verschiedene Anonymisierungstechniken verwendet. Die drei wichtigsten sind k-Anonymität, l-Diversity und t-Closeess. Bei der k-Anonymität werden bestimmte Spalten von QI's (z.B. Name, Religion) entfernt oder verändert (z.B. Ersetzen eines bestimmten Alters durch eine Altersspanne), so dass es innerhalb des Datensatzes nun immer mindestens 2 Zeilen mit genau denselben Attributen gibt (dies wäre dann “2-Anonymität“). L-Diversity und t-closeness sind Erweiterungen dieses Konzepts, die hier ausführlicher beschrieben werden. Diese Änderungen werden vor der Freigabe von Daten vorgenommen; dies wird als “Privacy-Preserving Data Publishing“ bezeichnet. Mit dem Aufkommen von KI ist diese Form des Schutzes jedoch möglicherweise nicht mehr ausreichend.
Welche Herausforderungen in Bezug auf die Datensicherheit sind spezifisch für KI? Viele der Herausforderungen für den Datenschutz, die im Zusammenhang mit Big Data genannt werden, sind auch für KI relevant, z. B. die Möglichkeit der Re-Identifizierung personenbezogener Daten anhand großer Datensätze, die Verwendung nur minimaler Mengen personenbezogener Daten oder die mangelnde Transparenz bei der Verwendung von Verbraucherdaten. Der Anstieg von KI ist quantitativ unterschiedlich, einerseits im Hinblick auf die enormen Datenmengen, z. B. wenn Baidu jahrzehntelange Audiodaten verwendet, um seinen Spracherkennungsalgorithmus zu trainieren. Zum anderen ist da die hohe Dimensionalität der Daten, die von den Modellen berücksichtigt wird. Konventionelle statistische Verfahren würden eine begrenzte Anzahl sorgfältig ausgewählter Variablen berücksichtigen. Dank neuartiger Regularisierungstechniken und sinkender Rechenkosten (auch aufgrund der von Google oder AWS angebotenen Cloud-Dienste) hat sich der mögliche Merkmalsraum drastisch erweitert, so dass ML-Modelle jetzt Tausende von Variablen berücksichtigen können, um eine einzige Vorhersage zu treffen. Ein bemerkenswertes Beispiel ist der Einsatz von neuronalen Netzen durch Google, um die Kühlkosten um 40 % zu senken. Die Auswertung unstrukturierter Daten mit Hilfe von Deep-Learning-Techniken und die Fähigkeit, all diese Daten in ein Modell einzubeziehen, hat zu einer ungeahnten Fülle von Informationen geführt. Mit Algorithmen, die Rückschlüsse aus so großen und komplexen Datensätzen ziehen können, ergeben sich drei neue konzeptionelle Fragen.
Zum einen besteht mit der zusätzlichen Dimensionalität der ML-Trainingssätze implizit eine höhere Wahrscheinlichkeit, dass sensible Informationen enthalten sind. Außerdem sind diese leistungsstarken neuen Modelle mit größerer Wahrscheinlichkeit in der Lage, diese sensiblen Informationen zu erkennen. Schließlich ist es viel schwieriger, diese riesigen Datenmengen, die in ein ML-Modell einfließen können, zu de-identifizieren und zu sichern, und die Integration des Schutzes in komplexe mehrschichtige Architekturen stellt eine große Herausforderung dar.
Welche praktischen Beispiele für Bedrohungen des Datenschutzes gibt es, die speziell für KI gelten?
ML-spezifische Herausforderungen für den Datenschutz
Traditionell bedeutete das Entfernen der Spalte mit den sensiblen Informationen in einem Datensatz, dass diese spezifischen Informationen nicht aus dem Datensatz selbst wiederhergestellt werden konnten, sondern nur durch sorgfältiges Kombinieren und Abfragen von externen Informationen. KI Das Programm “Identitätsmanagement“ kann jedoch Identitäten auch dann wiederherstellen, wenn der Identitätsindikator entfernt wurde. Aus einer Reihe von eingereichten Lebensläufen könnte das Geschlecht entfernt werden, um eine geschlechtsspezifische Diskriminierung während des Bewertungsprozesses zu verhindern. Obwohl die Lebensläufe in diesem Sinne de-identifiziert wurden, könnte ein ML-Tool in der Lage sein, subtile Nuancen im Sprachgebrauch zu erkennen und daraus auf das Geschlecht des Bewerbers zu schließen. Hier reicht das Entfernen der Spalte nicht aus, um sensible Informationen sicher zu entfernen, und Techniken wie k-closeness sind nicht anwendbar, ohne stark eingreifende Änderungen vorzunehmen.
Die in der Struktur der NN-Modelle selbst enthaltenen Informationen stellen eine weitere Bedrohung dar. Ein trainiertes Modell enthält wesentliche Informationen über seinen Trainingssatz, und es wurde argumentiert, dass es relativ einfach ist, sensible Informationen aus Klassifikatoren des maschinellen Lernens zu extrahieren. Beim Transfer-Lernen werden die Modelle von KI zunächst auf einem Datensatz trainiert, der lokal gespeichert ist. Um zu vermeiden, dass diese Daten weitergegeben werden, werden die Modellparameter an einen anderen Benutzer übertragen, der dann die Unterscheidungsfähigkeiten des Modells für Vorhersagen nutzen kann, ohne auf die persönlichen Informationen zuzugreifen, aus denen es gelernt hat. In einigen Fällen können jedoch spezifische Merkmale des Datensatzes aus den gemeinsam genutzten Parametern des Modells abgeleitet und dann zurückverfolgt werden, um sensible Informationen aufzudecken. Die von NNs aus Datensätzen gespeicherten Informationen können durch statistische Schlussfolgerungen auf verschiedene Weise extrahiert werden, wie von der Harvard-Informatikerin Cynthia Dwork beschrieben.
Aufbauend auf dem Konzept des Transfer-Lernens gibt es ausgefeiltere Formen des kollaborativen Lernens, die ebenfalls auf der Idee der Sammlung und des Austauschs von Parametern beruhen, wodurch die Notwendigkeit der gemeinsamen Nutzung von Daten entfällt. Eine neue Bedrohung stellen Generative Adversarial Networks (GANs) dar, die Bilder nicht in Kategorien klassifizieren, sondern so trainiert werden, dass sie ähnlich aussehende Muster wie die Trainingsmenge erzeugen, ohne dass sie Zugang zu den Originalmustern haben. Das GAN interagiert mit dem diskriminierenden tiefen neuronalen Netz, um die Verteilung der Daten zu lernen; dies stellt in gewisser Weise eine Erweiterung des zuvor beschriebenen Angriffs dar.
Zusammenfassend lässt sich sagen, dass KI die bestehenden Datenschutzprobleme verstärkt und völlig neue Probleme schafft, die angegangen werden müssen. In Anbetracht dieser Tatsache und des bemerkenswerten Wertes von ML-Systemen scheinen neue Ansätze für die Implementierung von datenschutzfreundlichem maschinellem Lernen notwendiger denn je.
Aktuelle Trends beim datenschutzfreundlichen maschinellen Lernen
Erste Ansätze zur Verbesserung des Datenschutzes konzentrierten sich meist auf die Verwendung von Transfer-Lernen, d. h. die Verwendung eines vorab trainierten Modells für ein neues Problem. Durch den Wegfall des Zugriffs auf die Originaldaten sollten sich die Bedenken hinsichtlich des Datenschutzes verringern. Wie die oben genannten Beispiele jedoch zeigen, bietet das herkömmliche Transfer-Lernen keine Garantie für den Schutz der Privatsphäre, wenn es um sensible Daten geht. Dezentralisierte, kollaborative Ansätze wie das föderierte maschinelle Lernen (FL) sind weit verbreitet, z. B. von Google, das vorschlägt, dezentralisierte Daten, die sich auf Endgeräten wie Mobiltelefonen befinden, zum Trainieren seiner maschinellen Lernmodelle zu verwenden. GANs stellen jedoch eine grundlegende Bedrohung für diese Systeme dar. In einem Papier aus dem Jahr 2017 argumentieren Forscher des Stevens Institute of Technology, dass jeder verteilte, föderierte oder dezentralisierte Deep-Learning-Ansatz anfällig für Angriffe ist, die Informationen über Teilnehmerinformationen aus dem Trainingssatz preisgeben. Der von ihnen entwickelte Angriff nutzt die Echtzeit-Natur des Modelllernens aus, die es dem Angreifer ermöglicht, ein GAN zu trainieren, das prototypische Proben des privaten Trainingssatzes erzeugt. So wird der Begriff der Täuschung auch in das kollaborative Lernen eingeführt, das als datenschutzfreundlich angesehen wird.
Verteiltes Deep Learning kann a) zentralisiert sein, wobei der Server die Privatsphäre der Daten gefährden kann, oder b) verteilt sein, wobei ein böswilliger Nutzer, der ein GAN einsetzt, ein Opfergerät dazu verleiten könnte, private Informationen preiszugeben(Bildquelle)
Eingabe ... Differenzieller Datenschutz
Einer der vielversprechendsten Ansätze zur Wahrung der Privatsphäre beim maschinellen Lernen ist die differentielle Privatsphäre (DP). Das Konzept ist in der Debatte um den Schutz der Privatsphäre nicht neu. Erstmals von Dwork im Jahr 2006 formuliert, stellt DP einen strengen Begriff des Datenschutzes dar, der garantiert, dass die Daten eines einzelnen Patienten keinen signifikanten Einfluss auf die über den Datensatz freigegebenen Informationen haben. Dies bedeutet nicht, dass aus den freigegebenen Informationen nichts über eine Person zu erfahren ist - die Veröffentlichung von Daten, die eine starke Korrelation zwischen Rauchen und Lungenkrebs zeigen, enthüllt sensible Informationen über eine Person , von der bekannt ist, dass sie raucht. Das ultimative Ziel für den Schutz der Privatsphäre besteht vielmehr darin, sicherzustellen, dass alles, was aus den freigegebenen Informationen über eine Person in Erfahrung gebracht werden kann, auch ohne die Daten dieser Person in Erfahrung gebracht werden kann. Allgemein ausgedrückt ist ein Algorithmus differentiell privat, wenn ein Beobachter, der die Ausgabe untersucht, nicht in der Lage ist festzustellen, ob die Daten einer bestimmten Person in der Berechnung verwendet wurden. Bei einem Server, der sensible Informationen enthält, wird eine Abfragefunktion wahre Antworten aus der Datenbank abrufen. Um die Privatsphäre des Einzelnen zu schützen, wird ein Zufallsrauschen nach einer sorgfältig ausgewählten Verteilung erzeugt, das zu einer Störung der wahren Antwort führt. Die wahre Antwort plus Rauschen wird an den Nutzer zurückgegeben. Der Grad der Störung kann berücksichtigt werden, so dass die Gesamtgenauigkeit nicht wesentlich abnimmt, während für einzelne Daten aufgrund der Zufälligkeit des Rauschens stets eine “plausible Bestreitbarkeit“ gegeben ist.
Differenzieller Datenschutz erfordert, dass das Ergebnis formal nicht unterscheidbar ist, wenn es mit und ohne einen bestimmten Datensatz (in diesem Fall Bobs) im Datensatz ausgeführt wird(Bildquelle)
Eine überraschende Eigenschaft des differenziellen Datenschutzes ist, dass er trotz seiner Schutzwirkung meist mit einer aussagekräftigen Datenanalyse vereinbar ist oder ihr sogar zugute kommt. In der empirischen Wissenschaft besteht die Gefahr der Überanpassung von Daten, um letztlich zu Schlussfolgerungen zu gelangen, die spezifisch für den Datensatz sind und an Genauigkeit verlieren, wenn die Vorhersagen auf die größere Population verallgemeinert werden. Differentieller Datenschutz bietet ebenfalls Schutz vor einer solchen Überanpassung, so dass seine Vorteile sogar über die Datensicherheit hinausgehen. Diese Stärken von DP sind bei einigen Datentypen ausgeprägter als bei anderen; im Allgemeinen funktioniert DP gut bei Abfragen mit geringer Empfindlichkeit und Gaußverteilungen. Einschränkungen ergeben sich bei der Arbeit mit kleineren Datensätzen mit ungleichmäßiger Verteilung, z. B. bei Datensätzen mit Einkommen, die extreme Ausreißer enthalten, wo mehr Rauschen hinzugefügt werden muss, oder bei adaptiven Abfragen. Wenn Sie eine Reihe von unterschiedlich privaten Abfragen stellen können, könnten statistische Inferenzangriffe allmählich die Form der zugrunde liegenden Rauschverteilung ableiten. Außerdem müssen wir bei einer Reihe von k Abfragen, die differentiell privatisiert sind, das k-fache des Rauschens einfügen; wenn k groß ist, zerstört dies schließlich den Nutzen der Ausgabe. Zusammenfassend lässt sich sagen, dass die differenzielle Privatsphäre ein vielversprechender Forschungszweig ist, der einen wirksamen Schutz bieten kann, aber noch nicht an alle Situationen angepasst werden kann und derzeit nur schwer in komplexe Systeme integriert werden kann. Einen Versuch, eine Methodik für den praktischen Einsatz zu skizzieren, haben Forscher der Harvard Medical School im Jahr 2018 formuliert. Das Papier stellt eine Methode vor, um neuronale Netze auf klinische Daten in einer verteilten Art und Weise unter differentieller Privatsphäre zu trainieren.
Praktische Implikationen
Im Bereich des Datenschutzes gibt es eine Diskrepanz zwischen den beschriebenen Bedrohungen, die von der Wissenschaft mit dem Ziel erforscht werden, die bloße Möglichkeit einer Schwachstelle zu beseitigen, und den realisierbaren Angriffsszenarien. Theoretische Probleme sind zwar wichtig, aber man muss das tatsächliche Risiko, das sie darstellen, realistisch einschätzen. Alle oben beschriebenen Bemühungen zur Re-Identifizierung und Datenrekonstruktion gehen auf Forschungsgruppen zurück, die sich zum Ziel gesetzt haben, die derzeitigen Methoden zu verbessern; und man kann mit Sicherheit sagen, dass diese Bemühungen durchweg zeit- und arbeitsintensiv waren, mit dem Ergebnis, dass eine ältere Frau unter Tausenden zufällig identifiziert wurde, ohne dass ein klares Motiv vorlag. Diese Bemühungen, an denen mehrere hochqualifizierte Informatiker Hunderte von Stunden beteiligt sind, scheinen sich im Falle einer böswilligen Absicht kaum auszuzahlen. Dennoch sollten wir uns bemühen, dass alle unsere Modelle theoretisch fundiert sind, insbesondere im Zusammenhang mit dem Datenschutz. Pragmatisch gesehen muss man nicht nur bei der gemeinsamen Nutzung von Daten, sondern auch bei der gemeinsamen Nutzung von Architekturen vorsichtig sein und den Aufbau interner, von Experten unterstützter Systeme in Betracht ziehen, die sich hauptsächlich auf eigene Daten stützen. Dies kann anfangs schwer zu erreichen sein, insbesondere für kleine und mittlere Unternehmen, so dass sich ein hybrider Ansatz zwischen Mensch undKI anbietet. Die Idee dabei ist, dass zunächst eine vortrainierte Standardarchitektur für die jeweilige Aufgabe, z. B. die Objekterkennung, eingesetzt wird, um Standardfälle zu klassifizieren, während man sich in Grenzfällen auf den menschlichen Experten verlässt. Durch Feedback ermöglicht ein solches, sich ständig verbesserndes Modell einen frühen praktischen Einsatz von KI , der auch langfristig tragfähig ist. Aus der Untersuchung des theoretischen Stands des Bereichs des Schutzes der Privatsphäre KI als Ganzes lassen sich drei Hauptkonzepte ableiten: die Eignung des Transferlernens für Daten, bei denen der Schutz der Privatsphäre zweitrangig ist, das Bewusstsein für die Schwachstellen, die kollaborative Modelle noch aufweisen, und die Bedeutung des differenzierten Schutzes der Privatsphäre für zukünftige Anwendungen.
Kostenlose Demo buchen
Lassen Sie sich von unseren Produktspezialisten durch die Plattform führen, gehen Sie auf alle Funktionen ein, die für Ihren individuellen Anwendungsfall relevant sind, und lassen Sie alle Ihre Fragen direkt beantworten. Oder sehen Sie sich ein 5-minütiges Video zu den wichtigsten Funktionen an.