zurück zum Blog
Verarbeitung unmarkierter Daten im maschinellen Lernen - Strukturierung von ML-Konzepten
In diesem Beitrag habe ich endlich einen persönlichen Abschluss zu dem Thema gefunden, wie sich AL auf einige reale Szenarien übertragen lässt, und stelle Hybrid Processing als ein neues Paradigma vor.
Mai 25, 2020
Hinweis: Dieser Artikel wurde zuerst auf Towards Data Science Medium veröffentlicht.
In der Rubrik “Strukturierung von Machine Learning-Konzepten“versuche ich, Konzepte aus dem Bereich des maschinellen Lernens (ML) in einen neuen, möglicherweise ungewöhnlichen Rahmen zu stellen, um neue Perspektiven zu eröffnen. Der Inhalt richtet sich an Personen aus der Data-Science-Community sowie an technisch versierte Personen, die sich für den Bereich des maschinellen Lernens interessieren.
Einführung
Die letzte Folge von “Structuring Machine Learning Concepts“ war der Vorstellung eines neuen Rahmens gewidmet, der überwachtes, selbstüberwachtes, unüberwachtes und verstärkendes Lernen abbildet. Ich behaupte, dass dies die eigentlichen “reinen“ Lernstile sind, die wir bei ML berücksichtigen sollten.
Der Auslöser für das Schreiben dieses Artikels war die Arbeit meines Unternehmens an der Automatisierung menschlicher Beschriftungsaufgaben in realen Szenarien. Ich war immer bestrebt, das, was wir zu tun versuchen, mit dem Fachjargon der Forschung abzugleichen, war aber nie wirklich zufrieden mit den dort vorgestellten Konzepten. Lassen Sie uns das weiter ausführen.
Hybride Verarbeitung, aktives Lernen und transduktives und induktives halbüberwachtes Lernen
Das Konzept der Hybridverarbeitung
Wenn ich von “Human Labeling\u201D-Aufgaben spreche, beziehe ich mich auf Geschäftsprozesse, bei denen Menschen ein SL-Problem lösen. Dies kann die Inhaltsmoderation von Bildern in Medienunternehmen sein (z. B. die Entscheidung zwischen “sicher für die Veröffentlichung“ und “nicht sicher für die Veröffentlichung\u201D), die Weiterleitung eingehender E-Mails und Dokumente durch die Organisation (“Abteilung 1\u201D, “Abteilung 2\u201D, ...) oder die Extraktion von Informationen aus eingehenden PDF-Bestellungen (“Name\u201D, “IBAN\u201D, ...). Bei vielen dieser Aufgaben gibt es heute oft einen rein menschlichen Prozess, der von einer Automatisierung profitieren könnte.
Im Idealfall versucht man nicht, einen 1:1-Ersatz anzustreben, sondern man beginnt mit der Automatisierung der offensichtlichen Fälle mithilfe von Algorithmen und überlässt den Rest dem Menschen. In meinem Unternehmen Luminovo haben wir viel darüber nachgedacht, wie wir ein ML-System strukturieren können, das dem Versprechen des kontinuierlichen Lernens gerecht wird, wenn es dazu verwendet wird, einen rein menschlichen SL-Prozess Schritt für Schritt zu automatisieren. Wir haben es “Hybrid Processing“ genannt, da wir eine Mischung aus Mensch undKI einsetzen, um das Ziel der Datenverarbeitung zu verfolgen.
Normalerweise beginnen wir entweder mit null Wissen oder mit einem vortrainierten Basismodell. Zu Beginn ist unser Modell nicht sicher genug, um irgendetwas zu automatisieren, also werden alle eingehenden Datenpunkte vom Menschen beschriftet. Dabei erledigt er nicht nur die Aufgabe, sondern gibt dem Modell auch Feedback in Form eines neuen Eingabe-Ausgabe-Paares, das für ein erneutes Training verwendet werden kann.
Die Geschichte mit zwei Datensätzen und einem “Human-in-the-Loop
Wenn ich dieses Konzept Freunden aus der ML-Gemeinschaft erkläre, wird es oft mit Active Learning (AL) verglichen. Abgesehen von der “Online-Natur“ der meisten Automatisierungsaufgaben (im Gegensatz zur stapelweisen Verarbeitung von Daten in einem normalen AL-Setup) konnte ich mich für diesen Vergleich nie so recht erwärmen, da das übergreifende Ziel von AL darin besteht, mit so wenig Daten wie möglich ein möglichst gutes Modell zu erstellen. Bei der hybriden Verarbeitung hingegen geht es nicht um die Qualität des Modells, zumindest nicht als Hauptziel. Das Ziel ist vielmehr, so viele Datenpunkte wie möglich selbst zu kennzeichnen und nur die unsicheren an den Menschen zu senden.
Bei dem Versuch, dies zu verallgemeinern, wurde mir klar, dass das gesamte Konzept des Semi-Supervised Learning (SemiSL), das im letzten Teil der Reihe “Strukturierung von Konzepten des maschinellen Lernens“ erläutert wurde, recht gut zu diesen Überlegungen passt. Denken Sie daran, dass wir bei SemiSL versuchen, eine (oft kleine) Menge an gekennzeichneten Daten mit einer großen Menge an nicht gekennzeichneten Daten während des Trainings zu kombinieren. Dies ähnelt dem, was wir bei AL und Hybrid Processing erreichen wollen, allerdings fehlt uns ein wichtiges Element: der Mensch in der Schleife. Bei SemiSL haben wir keinen Zugang zu einem “Orakel“, sondern sind auf die beschrifteten Daten angewiesen, die wir erhalten. Außerdem ist dieser Prozess nicht “online“, d. h. das Konzept der Zeit ist kein wichtiger Faktor.
Als ich mich mit der SemiSL-Theorie beschäftigte, fand ich genau die Aufteilung, nach der ich gesucht hatte: SemiSL kann entweder transduktiv oder induktiv sein. Bei der transduktiven SemiSL besteht das Ziel darin, die richtigen Bezeichnungen für die unbeschrifteten Daten abzuleiten; bei der induktiven SemiSL wollen wir die richtige Zuordnung von X zu Y ableiten, oder anders ausgedrückt: das bestmögliche Modell erstellen.
Leichtgewichtige Definitionen
Hybride Verarbeitung: Ein ML-Modell wird kontinuierlich auf den von Menschen beschafften Daten trainiert, wobei deren normale Beschriftungsroutine befolgt wird. Mit jeder verbesserten Version des Modells werden seine Konfidenzschwellen neu kalibriert, so dass mit der Zeit immer mehr Datenpunkte automatisch verarbeitet werden können.
AL: Wir versuchen, ein zugrundeliegendes ML-Modell zu verbessern, indem wir fortlaufend entscheiden, wie wir unser “Kennzeichnungsbudget“ mit dem “Human-in-the-Loop“ verwenden, z. B. indem wir einen ausgebildeten Arzt für die Diagnose/Klassifizierung einiger Röntgenaufnahmen bezahlen. Es gibt verschiedene Formen von AL, die sich darin unterscheiden, auf welche Teile der nicht beschrifteten Daten wir zu einem bestimmten Zeitpunkt zugreifen können (Szenarien) und wie wir entscheiden, welche Instanzen wir beschriften (Abfragestrategie).
Transduktives SemiSL: Unser Ziel ist es, den unbeschrifteten Datensatz mit Hilfe der wenigen Beschriftungen, die wir im ersten Datensatz haben, zu beschriften. Außerdem erwarten wir, dass mindestens eine der folgenden drei Annahmen zutrifft: Kontinuität (nahe beieinander liegende Punkte haben ein gemeinsames Etikett), Cluster (geclusterte Punkte haben ein gemeinsames Etikett) und Mannigfaltigkeit (Punkte, die auf einer niedrigdimensionalen Ebene liegen, haben ein gemeinsames Etikett).
Induktives SemiSL: Die allgemeinen Annahmen von SemiSL, die ich soeben erläutert habe, gelten nach wie vor, aber wir versuchen nun, die wahre Input-Output-Beziehung der Daten und der Beschriftungen abzuleiten, ohne uns um die Zuordnung von Beschriftungen zu bestimmten, potenziell verrauschten Datenpunkten zu kümmern. Dabei kümmert sich unser Modell nicht nur um die aktuellen, nicht beschrifteten Beispiele, sondern auch um die neuen, die noch kommen werden.
Die 2x2-Matrix
2x2-Matrix für Hybridverarbeitung, AL und transduktives & induktives SemiSL. Erstellt vom Autor.
Auch hier schlage ich eine einfache 2x2-Matrix mit den folgenden Dimensionen vor:
Ziel: Daten verarbeiten oder das Modell verbessern?
Daten verarbeiten
Ist es das ultimative Ziel, Daten zu verarbeiten, d. h. eine Umwandlung durchzuführen und allen nicht beschrifteten Punkten Etiketten zuzuweisen?
Verbesserung des Modells
Oder geht es uns nur um die Verbesserung des Modells, d. h. darum, die richtige Zuordnung zwischen Eingabe und Ausgabe zu finden?
Gibt es einen Menschen in der Schleife?
Ja
Haben wir Zugang zu einem “Orakel“, das uns mit Etiketten versorgen kann?
Nein
Oder bleiben wir bei den Informationen, die wir bereits gesammelt haben?
Es gibt noch viel mehr, was man über all diese Quadranten schreiben könnte, insbesondere über AL und seine Szenarien und Abfragestrategien. Ich werde dies für einen anderen Blogbeitrag aufheben.
Schließen
In diesem Beitrag habe ich endlich einen persönlichen Schlussstrich unter das Thema gezogen, wie sich AL auf einige reale Szenarien übertragen lässt. Ich habe Hybrid Processing als ein neues Paradigma vorgestellt, bei dem es unser Ziel ist, menschliche Beschriftungsaufgaben so effizient wie möglich zu lösen. Zusammen mit den bekannten Konzepten der AL und der transduktiven und induktiven SemiSL konnten wir eine 2x2-Matrix aufstellen, deren Dimensionen die Frage aufwerfen, ob wir das zugrundeliegende Modell verbessern wollen und ob wir Zugang zu einem Human-in-the-Loop haben.
Wenn Sie andere unkonventionelle Zuordnungen haben, sich Gedanken zu diesem Thema machen oder an unserer Arbeit bei Luminovo interessiert sind, würde ich mich freuen, von Ihnen zu hören. Sie können einen Kommentar hinterlassen oder mich auf Linkedin erreichen.
Bleiben Sie dran für den nächsten Artikel.
Dank an Timon Ruban, Pranay Modukuru, Lukas Krumholz und Aljoscha von Bismarck.
Kostenlose Demo buchen
Lassen Sie sich von unseren Produktspezialisten durch die Plattform führen, gehen Sie auf alle Funktionen ein, die für Ihren individuellen Anwendungsfall relevant sind, und lassen Sie alle Ihre Fragen direkt beantworten. Oder sehen Sie sich ein 5-minütiges Video zu den wichtigsten Funktionen an.