Zurück zum Blog
Verarbeitung unlabeled Daten in Machine Learning - Strukturierung von ML-Konzepten
In diesem Beitrag habe ich endlich persönlichen Abschluss zum Thema, wie AL auf einige reale Szenarien übertragbar ist, gefunden und führe Hybrid Processing als neues Paradigma ein.
25. Mai 2020
Hinweis: Dieser Artikel wurde zuerst auf Towards Data Science Medium veröffentlicht.
In der Kolumne „Strukturierung von Machine Learning Konzepten“ versuche ich, Konzepte aus dem Machine Learning (ML) Bereich zu nehmen und sie in neue, potenziell ungewöhnliche Rahmen zu übertragen, um neuartige Perspektiven zu bieten. Der Inhalt richtet sich an Menschen in der Data-Science-Community sowie an technikaffine Personen, die sich für das Feld des ML interessieren.
Einführung
Die letzte Folge von „Strukturierung von Machine Learning Konzepten“ widmete sich der Vorstellung eines neuen Frameworks zur Kartierung von Supervised, Self-Supervised, Unsupervised und Reinforcement Learning. Ich behaupte, dass dies die tatsächlichen „reinen“ Lernstile sind, die wir im ML berücksichtigen sollten.
Den Anstoß für diesen Beitrag gab die Arbeit meines Unternehmens bei der Automatisierung von Aufgaben zur menschlichen Kennzeichnung in realen Szenarien. Ich war immer bestrebt, das, was wir tun, mit der Sprache der Forschung in Einklang zu bringen, war jedoch nie wirklich zufrieden mit den dort vorgestellten Konzepten. Lassen Sie uns darauf näher eingehen.
Hybride Verarbeitung, Aktives Lernen und Transduktives & Induktives Semi-Supervised Learning
Das Konzept der Hybriden Verarbeitung
Wenn ich von Aufgaben zur menschlichen Kennzeichnung spreche, beziehe ich mich auf Geschäftsprozesse, bei denen Menschen ein SL-Problem lösen. Dies kann die Inhaltsmoderation von Bildern bei Medienunternehmen sein (z. B. Entscheidung zwischen „sicher für die Veröffentlichung“ und „nicht sicher für die Veröffentlichung“), das Routing eingehender E-Mails und Dokumente durch die Organisation („Abteilung 1“, „Abteilung 2“, …) oder das Extrahieren von Informationen aus eingehenden PDF-Bestellungen („Name“, „IBAN“, ...). Bei vielen von ihnen gibt es heute oft einen ausschließlich menschlichen Prozess, der von der Automatisierung profitieren könnte.
Idealerweise versucht man nicht, einen 1:1-Ersatz zu erreichen, sondern beginnt mit der Automatisierung der offensichtlichen Fälle mithilfe von Algorithmen und überlässt den Rest dem Menschen. In meinem Unternehmen Luminovo haben wir viel darüber nachgedacht, wie man ein ML-System strukturiert, das dem Versprechen des kontinuierlichen Lernens gerecht wird, wenn es verwendet wird, um einen ausschließlich menschlichen SL-Prozess Schritt für Schritt zu automatisieren. Wir nannten es Hybride Verarbeitung, da wir eine Mensch-KI-Hybridlösung verwenden, um das Ziel der Datenverarbeitung zu verfolgen.
Wir starten normalerweise entweder mit null Wissen oder mit einem vortrainierten Basismodell. Zu Beginn ist unser Modell nicht zuversichtlich genug, um irgendetwas zu automatisieren, daher werden alle eingehenden Datenpunkte vom Menschen gekennzeichnet. Dabei erledigt sie nicht nur die Aufgabe, sondern liefert dem Modell auch Feedback in Form eines neuen Eingabe-Ausgabe-Paares, das für das erneute Training verwendet werden kann.
Die Geschichte mit zwei Datensätzen & einem Mensch-im-Loop
Beim Erklären dieses Konzepts mit Freunden in der ML-Community wird es oft mit Aktivem Lernen (AL) verglichen. Abgesehen von der „Online-Natur“ der meisten Automatisierungsaufgaben (im Gegensatz zum Verarbeiten von Daten in Batches in einem normalen AL-Setup) habe ich mich nie ganz mit dem Vergleich angefreundet, da das übergeordnete Ziel von AL darin besteht, „ein so gutes Modell wie möglich“ mit „so wenig Daten wie möglich“ zu erstellen. Hybride Verarbeitung hingegen kümmert sich nicht um die Qualität des Modells, zumindest nicht als primäres Ziel. Das Ziel ist stattdessen, so viele Datenpunkte wie möglich selbst zu kennzeichnen und nur die unsicheren an den Menschen zu senden.
Als ich versuchte, dies zu verallgemeinern, stellte ich fest, dass das gesamte Konzept des Semi-Supervised Learning (SemiSL), wie im letzten Teil der „Strukturierung von Machine Learning Konzepten“-Serie erklärt, recht gut zu diesen Überlegungen passt. Denken Sie daran, dass wir bei SemiSL versuchen, eine (oftmals kleine) Menge an gekennzeichneten Daten mit einer großen Menge an ungekennzeichneten Daten während des Trainings zu kombinieren. Dies ähnelt dem, was wir in AL und hybrider Verarbeitung erreichen wollen, jedoch fehlt ein wichtiges Element: der Mensch-im-Loop. Für SemiSL haben wir keinen Zugang zu einem „Orakel“, sondern sind auf die gekennzeichneten Daten angewiesen, die wir erhalten. Außerdem ist dieser Prozess nicht „online“, das bedeutet, dass das Konzept der Zeit kein entscheidender Treiber ist.
Beim Blick in die SemiSL-Theorie fand ich genau die Aufteilung, die ich suchte: SemiSL kann entweder transduktiv oder induktiv sein. Für Transduktives SemiSL ist das Ziel, die richtigen Labels für die nicht gelabelten Daten abzuleiten; für Induktives SemiSL möchten wir die korrekte Zuordnung von X zu Y ableiten oder anders ausgedrückt: das bestmögliche Modell bauen.
Leichtgewichtige Definitionen
Hybride Verarbeitung: Ein ML-Modell wird kontinuierlich auf den von Menschen beschafften Daten trainiert und folgt deren normalen Kennzeichnungsroutine. Mit jeder verbesserten Version des Modells werden seine Vertrauensthresholds neu kalibriert, was es ermöglicht, im Laufe der Zeit immer mehr Datenpunkte automatisch zu verarbeiten.
AL: Wir versuchen, ein zugrunde liegendes ML-Modell zu verbessern, indem wir kontinuierlich entscheiden, wie wir unser „Kennzeichnungsbudget“ mit dem Mensch-im-Loop verwenden sollten, z. B. indem wir einen ausgebildeten Arzt bezahlen, um einige Röntgenaufnahmen zu diagnostizieren/klassifizieren. Es gibt verschiedene Formen von AL, die sich darin unterscheiden, auf welche Teile der ungekennzeichneten Daten wir zu einem bestimmten Zeitpunkt zugreifen können (Szenarien) und wie wir entscheiden, welche Instanzen gekennzeichnet werden sollen (Abfragestrategie).
Transduktives SemiSL: Unser Ziel ist, Labels für das ungekennzeichnete Dataset mithilfe der wenigen Labels, die wir im ersten Dataset haben, bereitzustellen. Außerdem erwarten wir, dass mindestens eine der drei Annahmen zutrifft: Kontinuität (nahe Punkte teilen ein Label), Cluster (geclusterten Punkte teilen ein Label) und Mannigfaltigkeit (Punkte, die auf einer niedrigdimensionalen Ebene liegen, teilen ein Label).
Induktives SemiSL: Die allgemeinen Annahmen des SemiSL, die ich gerade erklärt habe, gelten weiterhin, aber jetzt versuchen wir, die wahre Eingabe-Ausgabe-Beziehung der Daten und der Labels ohne Rücksicht darauf abzuleiten, Labels spezifischen, potenziell rauschhaften Datenpunkten zuzuordnen. Dabei kümmert sich unser Modell nicht nur um die vorliegenden unbeschrifteten Beispiele, sondern auch um die neu hinzukommenden.
Die 2x2 Matrix
2x2 Matrix für Hybride Verarbeitung, AL und Transduktives & Induktives SemiSL. Erstellt vom Autor.

Erneut schlage ich eine einfache 2x2 Matrix mit den folgenden Dimensionen vor:
Ziel: Daten verarbeiten oder Modell verbessern?
Daten verarbeiten
Ist es das ultimative Ziel, Daten zu verarbeiten, d.h. Transduktion durchzuführen und allen meine nicht gelabelten Punkte Labels zuzuweisen?
Modell verbessern
Oder kümmern wir uns nur darum, das Modell zu verbessern, d.h. die wahre Zuordnung von Eingabe zu Ausgabe zu finden?
Gibt es einen Mensch-im-Loop?
Ja
Haben wir Zugang zu einem „Orakel“, das uns mit Labels versorgen kann?
Nein
Oder bleiben wir bei den Informationen, die wir bereits gesammelt haben?
Man kann viel mehr über all diese Quadranten schreiben, insbesondere über AL und seine Szenarien und Abfragestrategien. Ich werde dies für einen weiteren Blogbeitrag belassen.
Schlusswort
In diesem Beitrag habe ich endlich persönliche Klarheit über das Thema gewonnen, wie AL auf einige reale Szenarien übertragbar ist. Ich habe die Hybride Verarbeitung als neues Paradigma eingeführt, bei dem es unser Ziel ist, menschliche Kennzeichnungsaufgaben so effizient wie möglich zu lösen. Zusammen mit den bekannten Konzepten von AL und Transduktivem & Induktivem SemiSL konnten wir eine 2x2 Matrix aufstellen, die die Dimensionen berücksichtigt, ob wir das zugrunde liegende Modell verbessern wollen und ob wir Zugang zu einem Mensch-im-Loop haben.
Wenn Sie andere unkonventionelle Zuordnungen, Gedanken zu diesem Thema oder Interesse an unserer Arbeit bei Luminovo haben, würde ich mich freuen, von Ihnen zu hören. Sie können einen Kommentar hinterlassen oder mich auf Linkedin erreichen.
Bleiben Sie dran für den nächsten Artikel.
Danke an Timon Ruban, Pranay Modukuru, Lukas Krumholz und Aljoscha von Bismarck.



Kostenfreie Demo buchen
Lassen Sie sich von unseren Produktspezialisten durch die Plattform führen, alle für Ihren individuellen Anwendungsfall relevanten Funktionalitäten ansprechen und alle Ihre Fragen direkt beantworten. Oder sehen Sie sich ein 5-minütiges Video der wichtigsten Funktionen an.