Zurück zum Blog

KI und die Frage der Erklärbarkeit

Müssen wir unsere Modelle verstehen, um ihnen vertrauen zu können?

10. Juni 2019

AI

Industry

Industry

image of a laptop with code on the screen
image of a laptop with code on the screen
image of a laptop with code on the screen

Die Entwicklung von künstlicher Intelligenz und neuronalen Netzen hat einerseits das Fachgebiet der Informatik stark beeinflusst, aber auch bedeutendes Interesse im Bereich der Neurowissenschaften geweckt. Das Konzept der künstlichen neuronalen Netze ist durch die Biologie der Neuronen inspiriert, insofern als dass künstliche Neuronen entworfen wurden, um rudimentär nachzuahmen, wie Neuronen Informationen aufnehmen und umwandeln.

Als Student der Neurowissenschaften wurde ich anfänglich von neuronalen Netzen aus der Perspektive angezogen, unser eigenes Kognition besser über Computermodelle zu verstehen. Allerdings machen die grundlegenden qualitativen Unterschiede zwischen menschlicher und künstlicher Intelligenz es uns sehr schwer, den Entscheidungsprozess eines Modells in menschlichen Begriffen zu verstehen.

KI, die derzeit im Einsatz ist, operiert als „Black Box“ - wir können Genauigkeitsniveaus an einem Testset testen und dann unser Modell mit einer gewissen Zuversicht in seinen Ausgaben auf neue Daten anwenden, aber wenn herausgefordert, würden wir Mühe haben, die Entscheidung eines Modells in einzelnen Fällen tatsächlich zu erklären. Als Antwort darauf hat sich das Forschungsfeld der erklärlichen KI (XAI) entwickelt, das darauf abzielt, Techniken zu entwickeln, bei denen der Prozess, der zu einem Modellausgang führt, von Menschen verstanden werden kann. Dies ist eine herausfordernde Aufgabe mit vielen zu überwindenden Hürden, was zu der Frage führt, ob Interpretierbarkeit aus praktischer Sicht wirklich notwendig ist. Diese Frage wird dringlicher angesichts der zunehmenden Beliebtheit von ausgeklügelten Machine-Learning-Systemen, die nicht mehr nur auf Technologiegiganten wie Google oder Facebook beschränkt sind. Klein- bis mittelständische Unternehmen automatisieren bestimmte Verfahren innerhalb ihrer Systeme, was zu einer größeren Automatisierung von Entscheidungen, die erheblich mehr Gewicht haben, bis hin zur autonomen Kontrolle fortschreiten wird. Technologietrends in Unternehmen geben in der Regel eine gute Vorschau auf bevorstehende Änderungen in Institutionen und Regierungen, wo die Einführung zunehmend folgen wird. Mit dieser Aussicht wird die Diskussion über konzeptionelle Fragen wie Erklärbarkeit zunehmend dringlich.

Wir werden zunächst drei Beispiele für akademische Ansätze betrachten, die sich aus unterschiedlichen Blickwinkeln mit Interpretierbarkeit befassen. Dann werden wir das Thema konzeptionell betrachten und diskutieren, ob Interpretierbarkeit in der Praxis tatsächlich notwendig ist. (Spoiler-Alarm: es kommt darauf an)

Meme of explaining AI conceptually

Akademische Arbeiten zur Interpretierbarkeit

Transparente/erklärliche KI bezieht sich auf Techniken in KI, bei denen der Prozess, der zu einem Ausgang führt, von Menschen verstanden werden kann. Dies steht im Gegensatz zu den „Black Box“-Implementierungen, bei denen man nicht erklären kann, warum das Modell zu einer bestimmten Entscheidung gelangt. Einfach ausgedrückt:

DARPA image on Machine Learning System and XAI Explanation

Die Idee, Modelle zu erstellen, die in menschlichen Begriffen verstanden werden können, ist fast so alt wie künstliche Intelligenz selbst. Mycin, ein Forschungsprototyp, der erklären konnte, welche seiner handkodierten Regeln zu einer Diagnose in einem spezifischen Fall beigetragen haben, stammt aus den 1970er Jahren. Dieses KI-basierte Expertensystem wurde an der Stanford University entwickelt, um bakterienauslösende Infektionen zu identifizieren und Antibiotika in einer dosis angepasst an das individuelle Gewicht zu empfehlen. Mycin arbeitete auf einer Wissensbasis von etwa 600 Regeln, und die Leistungsfähigkeit dieses frühen Prototyps war im Vergleich zur hohen Vorhersagekraft moderner Deep-Learning-Systeme in diagnostischen Kontexten ziemlich begrenzt. Welche Ansätze wurden seitdem verfolgt?

Machen Sie neuronale Netze wieder biologisch

Ein klassisches Beispiel für biologisch inspirierte KI ist das Convolutional Neural Network (CNN). Die Merkmale von CNNs sind nach der grundlegenden Organisation unseres Sehsystems modelliert. In 1962 entdeckten Torsten Wiesel und David Hubel, dass unser primärer visueller Cortex aus zwei Arten von Neuronen besteht. Simple (S-) Zellen können als Kanten-Detektoren an einem spezifischen Netzhautort betrachtet werden. Wenn die Kante an einem anderen Ort in Ihrem Gesichtsfeld erscheint, reagieren sie nicht. Komplexe (C-) Zellen haben eine größere räumliche Invarianz, was bedeutet, dass sie auf Kanten ihrer bevorzugten Orientierung innerhalb eines großen rezeptiven Feldes reagieren. Komplexe Zellen erreichen dies, indem sie Eingaben von mehreren einfachen Zellen mit der gleichen Orientierung poolen. Dies wurde im Vorläufer des CNN, dem Neocognitron, nachgeahmt, das ebenfalls aus „S-Zellen“ und „C-Zellen“ besteht, die einfache Bilder über unbeaufsichtigtes Lernen erkennen.

Figure from Fukushima showing how neocognition is made up of modules

Je weiter unsere Deep-Learning-Modelle jedoch fortschreiten, desto weiter entfernen wir uns von den ursprünglichen biologischen Parallelen. Betrachten Sie, wie unser ventraler visueller Pfad, bestehend aus dem Lateralen Kniehöcker (6 Neuronenschichten) und dem ventralen Strom (3 Neuronenschichten V1, V2, V4), es uns ermöglicht, zwischen verschiedenen Tieren mit einer Präzision zu unterscheiden, die mit einigen tiefen CNNs vergleichbar oder überlegen ist, die aus 100 Schichten bestehen. Neurowissenschaftler haben die Bedeutung einzelner neuronaler Schichten in der visuellen Verarbeitung entwirrt, aber zu verstehen, was jede Schicht eines KI-Modells in menschlichen Begriffen kodiert, ist eine völlig neue Herausforderung. Ein Weg, dies zu bewältigen, besteht darin, vergleichend zu studieren, warum das Gehirn in scheinbar weniger Berechnungsschritten so genau leisten kann (und daraus versuchen, Effizienzkonzepte in unsere KI-Modelle zu übersetzen).

James Di Carlos Labor am MIT arbeitet an der Schnittstelle zwischen Neurowissenschaft und Informatik und erforscht Möglichkeiten, neuronale Netzwerke gehirnähnlicher zu machen. Letztes Jahr demonstrierte seine Forschungsgruppe die Bedeutung von rekurrenten Schaltkreisen für unsere Fähigkeit, Objekte zu erkennen. Sie verglichen tiefe feedforward-CNNs mit Primaten (die wie wir rekurrente Rückkopplungsschaltkreise verwenden) bei Objekterkennungsaufgaben. Die starke Leistung von nicht-rekurrenten CNNs bei Objekterkennungsaufgaben würde darauf hindeuten, dass solche Rückkopplungsprozesse nicht unbedingt für die Objekterkennung notwendig sind. Durch den Vergleich von CNNs mit der visuellen Verarbeitung von Primaten identifizierte DiCarlo bestimmte „kritische“ Bilder, die der Primat ohne weiteres identifizieren kann, während das CNN scheitert. Bei derselben Gruppe von Bildern leisten tiefere CNNs bessere Arbeit. Was sagt uns das? a) Rekurrente Rückkopplungsschaltkreise könnten ein Teil des Grundes sein, warum unser ventraler Strom signifikant weniger neuronale Schichten als hochmoderne CNNs benötigt, also sind sie eine Anpassung für Recheneffizienz, und b) Während für die meisten Objekterkennungsaufgaben diese rekurrenten Operationen nicht notwendig sind, könnte es einen geringen Prozentsatz von kritischen Situationen geben, für die vollständig vorwärtsversorgende Systeme weiterhin versagen werden. Während diese Bemühungen für diejenigen, die sich für Neurowissenschaften interessieren, faszinierend sind, ist das Ziel dieser Anstrengungen, neuronale Netze zu nutzen, um uns zu helfen, das Gehirn zu verstehen und nicht das Gehirn zu nutzen, um praktischere oder effizientere Modelle zu entwickeln.

Dicarlo image showing how ventral stream in contrast to feedforward deep CNNs, uses recurrent feedback to enhance processing

Visualisierung von neuronalen Netzen

Ein anderer Ansatz umfasst Bestrebungen, Visualisierungstechniken zu entwickeln, die einen gewissen Einblick in die Funktionsweise der derzeit verwendeten Deep-Learning-Systeme ermöglichen. Ich finde dies besonders faszinierend, wenn es auf Generative Adversarial Networks (GANs) angewendet wird. GANs haben sowohl in der Forschung als auch in den Massenmedien für Aufregung gesorgt, wo viele von DeepFakes gehört haben, die realistische Bilder oder Videosequenzen von Menschen erstellen, oder von AI-generierter Kunst, die für über 400.000 Dollar verkauft wurde. Früher wurde KI verwendet, um zu analysieren, zu verinnerlichen und vorherzusagen, aber mit dem Aufstieg von GANs kann KI erschaffen. Diese Technologie ist sehr mächtig, jedoch fehlt uns ein Verständnis davon, wie ein GAN unsere visuelle Welt intern darstellt und was genau bestimmte Ergebnisse festlegt. Antonia Torralbas Gruppe am MIT arbeitet daran, diese Fragen zu beantworten. GANs scheinen Fakten über Objekte und Beziehungen zwischen Merkmalen zu lernen. Um ein Beispiel von Torralba zu zitieren, wird ein GAN lernen, dass eine Tür an einem Gebäude, aber nicht an einem Baum erscheinen kann. Wir wissen wenig darüber, wie ein GAN eine solche Struktur darstellt und wie Beziehungen zwischen Objekten dargestellt sein könnten. Um zu beginnen, den „Entscheidungsprozess“ eines GAN in menschlichen Begriffen zu verstehen, schlägt Torralba folgende Methode als allgemeinen Rahmen vor:

Zuerst identifizieren Sie Gruppen von interpretierbaren Einheiten, die mit Objektkonzepten zusammenhängen (z.B. identifizieren von GAN-Einheiten, die Bäume entsprechen). Zweitens identifizieren Sie die Menge an Einheiten, die dazu führt, dass eine Art von Objekt (z.B. Bäume) verschwindet. Drittens, versuchen Sie die Objektkonzepte in neuen Bildern einzufügen und zu beobachten, wie diese Intervention mit anderen Objekten im Bild interagiert. Lassen Sie uns dies anhand von GAN-generierten Bildern von Kirchen betrachten. Wir versuchen zu identifizieren, welcher Teil des Modells die Objektklasse der Bäume erzeugt:

Example image of identifying GAN units that match objects

Um es zusammenzufassen, indem wir Einheiten identifizieren, die für eine Objektklasse erzeugt werden müssen, können wir Teilen unseres GAN-Modells eine Bedeutung zuschreiben. Praktisch ist dies nützlich, wenn wir unser GAN auf kontrollierte Weise verbessern möchten (d.h. nicht nur durch Versuch und Irrtum oder langwieriges Training). Im folgenden Beispiel haben wir unvollkommene GAN-generierte Bilder von Schlafzimmern mit Artefakten, die das Bild stören. Indem wir die Einheiten identifizieren und abtrennen, die den Artefakt verursachen, sehen wir verbesserte Ergebnisse im Ausgang.

GAN-generated images of artefacts

Quantifizierung der Merkmalswichtigkeit

Im Bereich der Modellvisualisierung konzentrieren sich die meisten Bemühungen auf die Visualisierung spezifischer Bildmerkmale, die einzelne CNN-Schichten lernen zu erkennen. Diese mühsame Aufgabe wird noch erschreckender, wenn man sich der Aufgabe stellen müsste, ein solches Interpretierbarkeitssystem für jedes neue Modell neu aufzubauen. Ein Weg, dieses Problem anzugehen, besteht darin, die Entwicklung von einheitlichen Ansätzen zu verfolgen (d.h. generische Interpretierbarkeitswerkzeuge, die auf verschiedene ML-Modelle angewendet werden können). Ein solcher einheitlicher Rahmen für die Interpretation von Modellvorhersagen wurde 2017 von Lundberg und Lee an der University of Washington erstellt. Ihr Modell, SHAP¹, basiert auf Shapley-Werten, einer Technik aus der Spieltheorie, um zu bestimmen, wie viel jeder Spieler in einem kooperativen Spiel zum Erfolg beigetragen hat. In unserem Fall misst jeder SHAP-Wert, wie bedeutend jedes Merkmal in unserem Modell zum vorhergesagten Ausgang unseres Modells beiträgt. Dies weicht von konkreten Erklärungen der „Rolle“ einer Schicht ab (z.B. das Kodieren von Kanten an einem bestimmten räumlichen Ort) zu einem abstrakteren Konzept der Interpretierbarkeit, bei dem die Entscheidung per se nicht verstanden wird, aber das Gewicht einzelner Komponenten, die zum Ausgang beitragen, entwirrt werden können. SHAP bietet derzeit das beste Maß für Merkmalswichtigkeit, jedoch zu enormen Rechenkosten, die exponentiell mit der Anzahl der Eingabemerkmale wachsen. Für die überwiegende Mehrheit der Probleme macht dies die Aussicht auf eine vollständige Implementierung unpraktisch.

Sowohl die Forscher, die dieses Modell vorschlugen, entwickelten im selben Jahr ein ML-System mit dem Namen „Prescience“, das verspricht, das Risiko von Hypoxämie (abnorm niedriger Blutsauerstoff) in Echtzeit vorherzusagen und gleichzeitig eine Erklärung der Faktoren zu präsentieren, die zum bewerteten Risiko beitragen (z.B. BMI, Alter, Puls usw). Dies könnte während einer Operation unter Anästhesie äußerst nützlich sein, wo viele schwankende Variablen überwacht werden müssen. Während die Gruppe zu den ersten gehörte, die ein hochgenaues Modell von beträchtlicher Komplexität mit interpretierbaren Erklärungen kombinierten, erkannten die Autoren auch, dass ihr Vorschlag ein erster Versuch weit entfernt von praktischer Implementierung ist aufgrund mehrerer Schwächen, die sie beschreiben. Die Herausforderung, genaue und komplexe KI-Systeme zu schaffen, die auch intuitive Erklärungen ihres Entscheidungsprozesses bieten, wird in der absehbaren Zukunft eine Herausforderung bleiben, wobei viele vielversprechende Ansätze derzeit in der Forschung vorgeschlagen werden.

Image of prescience prototype for real-time hypoxemia prediction

Der Kompromiss zwischen Vorhersagekraft und Interpretierbarkeit ist schwerer zu überwinden, als man denken könnte: Bedenken Sie, dass manchmal der eigentliche Zweck des Aufbaus komplexer Modelle darin besteht, dass sie komplexe Hypothesen ausdrücken können, die über menschliches Verständnis hinausgehen. Wenn wir auf Systeme abzielen, die die Fähigkeit erwerben, aus einer größeren Anzahl von Merkmalen zu lernen und Vorhersagen zu ziehen, als jeder Mensch berücksichtigen könnte, müssen wir uns mit der Möglichkeit abfinden, dass es konzeptionell nicht möglich sein könnte, diese hochdimensionalen Vorhersagen in menschlichen Begriffen zu berücksichtigen. Das „Prescience“-Modell, das oben beschrieben wurde, visualisiert etwa 15 Variablen, die die Entscheidung des Modells beeinflusst haben, aber was, wenn das Krankheitsvorhersagemodell eine Million Merkmale hat und die Beweise für eine diagnostische Entscheidung unter diesen Merkmalen verteilt sind? Mit einem Interpretierbarkeitsrahmen, der einige prominente Merkmale erklärt, müsste das Modell selbst entweder auf nur diese Merkmale beschränkt sein oder unsere Visualisierung würde das Verhalten des Modells nicht treu beschreiben, und somit seinen Anspruch auf „Transparenz“ zunichtemachen.

Praktische Bewertung

Inwiew

Sebastian Schaal
Inga Schwarz
Patrick Perner

Kostenfreie Demo buchen

Lassen Sie sich von unseren Produktspezialisten durch die Plattform führen, alle für Ihren individuellen Anwendungsfall relevanten Funktionalitäten ansprechen und alle Ihre Fragen direkt beantworten. Oder sehen Sie sich ein 5-minütiges Video der wichtigsten Funktionen an.