zurück zum Blog

Die vier “reinen“ Lernstile im maschinellen Lernen - Strukturierung von ML-Konzepten

Die Menschen beginnen zu erkennen, dass einige Techniken, die früher als unüberwachtes Lernen bezeichnet wurden, besser als selbstüberwachtes Lernen bezeichnet werden sollten. Lassen Sie uns das weiter ausführen.

Mai 20, 2020

KI

Industrie

Industrie

Blogartikel mit Bildmotiv
Blogartikel mit Bildmotiv
Blogartikel mit Bildmotiv

Hinweis: Dieser Artikel wurde zuerst auf Towards Data Science Medium veröffentlicht.

In der Rubrik “Strukturierung von Machine Learning-Konzepten“versuche ich, Konzepte aus dem Bereich des maschinellen Lernens (ML) in einen neuen, möglicherweise ungewöhnlichen Rahmen zu stellen, um neue Perspektiven zu eröffnen. Der Inhalt richtet sich an Personen aus der Data-Science-Community sowie an technisch versierte Personen, die sich für den Bereich des maschinellen Lernens interessieren.

Einführung

Als ich 2015 in Stanford anfing, mich mit ML zu beschäftigen, waren die Konzepte und Definitionen in diesem Bereich ziemlich strukturiert und leicht zu erfassen. Mit dem rasanten Wachstum von Deep Learning in den letzten Jahren hat die Vielfalt der verwendeten Begriffe und Konzepte immens zugenommen. Dies kann dazu führen, dass Neulinge auf diesem Gebiet, die mehr über das Thema erfahren möchten, frustriert und verwirrt sind.

Der Auslöser für das Verfassen dieser Folge von “Strukturierung von Konzepten des maschinellen Lernens“ war die Begriffsverwirrung, die die jüngsten Durchbrüche in der Verarbeitung natürlicher Sprache (NLP) und der Computer Vision mit sich gebracht haben. Die Menschen beginnen zu erkennen, dass einige Techniken, die früher als unüberwachtes Lernen betrachtet wurden, besser als selbstüberwachtes Lernen bezeichnet werden sollten. Lassen Sie uns das näher erläutern.

Überwachtes, selbstüberwachtes und unüberwachtes Lernen sowie Verstärkungslernen

Wenn von den verschiedenen Formen des maschinellen Lernens die Rede ist, werden in der Regel das überwachte Lernen (SL), das unüberwachte Lernen (UnSL) und das Verstärkungslernen (RL) als die drei Lernstile genannt. Manchmal wird auch Semi-Supervised Learning (SemiSL) dazugezählt, das Elemente von SL und UnSL kombiniert. Im Jahr 2018 begann eine neue Art von NLP-Algorithmen an Popularität zu gewinnen, was dazu führte, dass der berühmte Forscher Yann LeCun 2019 das Konzept des Self-Supervised Learning (SelfSL) prägte.

Leichte Definitionen - die vier ursprünglichen Lernstile

  • SL: Wir verwenden einen Datensatz, bei dem wir ein bestimmtes Ziel anhand anderer Merkmale (z. B. einer Tabelle) oder einer Rohdateneingabe (z. B. eines Bildes) vorhersagen wollen. Dies könnte in Form einer Klassifizierung (Vorhersage eines kategorischen Wertes - “Ist dies eine Katze oder ein Hund?“) oder einer Regression (Vorhersage eines numerischen Wertes - “Wie katzenartig ist dieses Bild?“) erfolgen.

  • UnSL: Nehmen wir an, wir haben nur den rohen Input (z. B. nur einige Benutzerdaten in Tabellen ohne Ziel oder eine Menge Bilder, denen keine Informationen zugeordnet sind). Unser Ziel ist es, nach bisher unentdeckten Mustern, z. B. Clustern oder Strukturen, zu suchen, die neue Erkenntnisse liefern und unsere Entscheidungsfindung leiten können.

  • RL: Normalerweise hebt sich der Agent von der Masse ab, da er nicht mit einem vorher gesammelten Datensatz arbeitet, sondern versucht, eine Aufgabe in einer Umgebung zu bewältigen, indem er Aktionen ausführt und die Belohnung beobachtet. Solange wir nicht explizit eine Belohnungsfunktion angeben, um dem Agenten einen Anreiz zu geben, sich entsprechend zu verhalten, hat er keine Ahnung, was er in der gegebenen Umgebung tun soll. Videospiele sind ein perfektes Beispiel: Der Spieler (Agent) versucht, seine Punktzahl (Belohnung) durch Interaktion mit dem Videospiel (Umgebung) zu maximieren.

  • SemiSL: Wird oft als vierte Lernform hinzugefügt, die auf einem Datensatz mit bestimmten Zielen und auf einem anderen, oft größeren, ohne Ziele arbeitet. Das Ziel besteht darin, die Beschriftungen der nicht beschrifteten Datenpunkte mit Hilfe des Wissens aus den beschrifteten Datenpunkten abzuleiten und so das bestmögliche Modell zu erstellen, um die Eingaben den Zielen zuzuordnen. Stellen Sie sich vor, Sie haben Zugang zu Datenpunkten einer Produktionsmaschine, die sich in zwei Cluster gruppieren lassen. Aus dem beschrifteten Datensatz wissen Sie, dass alle unbekannten Datenpunkte, die mit einem Fehler verbunden sind, in Cluster “A“ fallen und alle normalen Zustände in Cluster “B“ landen; daher die Annahme, dass alle Punkte in “A“ kritisch sind und die in “B“ nicht.

Verzicht auf SemiSL für SelfSL

Zu diesen vier Lernstilen sind zwei Dinge erwähnenswert:

Wie bereits angedeutet, ist der Großteil des UnSL, das in letzter Zeit in den Bereichen Computer Vision und NLP betrieben wird, besser als SelfSL zu bezeichnen. Diese neue Art des Lernens ist nicht überwacht und verwendet eine vorgegebene Grundwahrheit, sondern nutzt die in den Trainingsdaten selbst enthaltenen Informationen. Es gibt jedoch immer noch Teile der “alten Familie“ von UnSL-Algorithmen, die wirklich unbeaufsichtigt sind und eine Metrik der Nähe zwischen Datenpunkten verwenden, um zu entscheiden, was eine gute Anpassung ist (und unsere Verlustfunktion zu steuern).

Wenn man darüber nachdenkt, sollte SemiSL nicht zu diesen “reinen“ Lernstilen gehören. Erstens ist es eher eine Mischung aus zwei “reinen“ Lernstilen und zweitens beinhaltet sein grundlegender Aufbau zwei verschiedene Datensätze, einen beschrifteten und einen unbeschrifteten. Daher heben wir uns SemiSL für den nächsten Beitrag der Reihe “Strukturierung von Konzepten des maschinellen Lernens“ auf, in dem wir ausführlicher über die Verarbeitung von nicht beschrifteten Daten sprechen werden.

Leichtgewichtige Definitionen - eine neue Aufteilung

  • SelfSL: Wir haben nur rohen Input (z. B. Bilder oder viel Text) und wollen die darin enthaltenen impliziten Informationen erfassen. Wir tun dies, indem wir (Teile) des rohen Inputs als Ziel verwenden. In einem Autoencoder verwenden wir den “Rekonstruktionsverlust“, d. h. wir vergleichen das dekodierte Bild mit der ursprünglichen Eingabe. Bei groß angelegten Sprachmodellen “verstecken“ wir Teile des Satzes, um sie dann als Vorhersageziel zu verwenden, wobei wir nur die umgebenden Wörter verwenden (z. B. Marry ____ her husband → [loves]).

  • UnSL (überarbeitet): Im Gegensatz zu SelfSL messen wir nicht die “Passung“ unseres Modells auf der Grundlage einer “versteckten“ Grundwahrheit, sondern die implizite Nähe des “transformierten Inputs“, d. h. den Abstand der Datenpunkte im Merkmalsraum. Wir können beeinflussen, wie diese Anpassung definiert wird, z. B. wenn wir erwarten, dass die Cluster dicht sind oder kontinuierlich miteinander verbunden sind, aber das Ziel der Nähe bleibt unangetastet. Ein Beispiel wäre das Clustern von Nutzern nach ihrem Verhalten auf einer bestimmten Plattform und die Verwendung der zugewiesenen Cluster zur Steuerung Ihrer Marketingstrategien.

Die 2x2-Matrix

Ich schlage eine einfache 2x2-Matrix vor, die SL, UnSL, SelfSL, & RL auf zwei Achsen abbildet und die folgenden Fragen beantwortet:

Gibt es die Grundwahrheit?

Ja
Für SL und SelfSL gibt es eine Grundwahrheit, die wir zum Aufbau unserer Verlustfunktionen und Metriken verwenden. Sei es das “Katzen“-Label auf einem Bild für SL, das den “kategorischen Cross-Entropie-Verlust “ und die “Genauigkeit“ bestimmt, oder das “versteckte“ Wort in einem Satz (Marry [liebt] ihren Mann) für SelfSL, wo wir die “negative Log-Likelihood“ als Verlust verwenden und die “Perplexität“ messen.

Nein
Für UnSL und RL gibt es keine solche Grundwahrheit. Wir haben Maße, die eine “gute Übereinstimmung“ oder ein “gewünschtes Verhalten“ beschreiben, aber nichts, was mit “Genauigkeit“ vergleichbar wäre. Beim “k-means clustering“ von UnSL zum Beispiel können wir den “durchschnittlichen Abstand zum Mittelwert des Clusters“ messen, und in RL versuchen wir, die “kumulative Belohnung“ zu maximieren, die wir von der Umgebung erhalten.

Ist das Ziel explizit oder implizit vorgegeben?

Explizit
In SL und RL haben wir eine explizite Wahl, was wir aus den Daten oder unserem Agenten herausholen wollen. Bei SL ist es unsere Wahl, ein “Katzen- und Hunde-Rassen-Klassifizierungs“-Problem in ein einfaches “Katzen- und Hunde-Klassifizierungs“-Problem zu verwandeln, indem wir die Etiketten neu zuordnen. Bei der Verwendung von RL zur Bewältigung von Computerspielen mit mehreren Spielern können wir wählen, ob wir unseren Agenten dazu anregen wollen, als Teamplayer zu agieren, indem wir die zum Nutzen der Gruppe durchgeführten Aktionen belohnen, oder ob wir als Egoist agieren wollen, indem wir ausschließlich individuelle Aktionen belohnen.

Implizit
Wir können jedoch die Art eines Bildes oder einer Sprache in SelfSL nicht von außen vorgeben. Wir können sicherlich einige Details ändern, aber der “Rekonstruktionsverlust“ wird immer zwei Bilder vergleichen, und für Sprachmodelle werden wir immer Lernaufgaben finden, die sich mit den Sätzen selbst beschäftigen. Mit klassischem UnSL sind wir implizit darauf festgelegt, Datenpunkte zu finden, die nahe beieinander liegen, z. B. zwei Nutzer, die ähnliche Verhaltensdaten auf Social-Media-Plattformen hinterlassen.

Schließen

In diesem Beitrag haben wir die “reinen“ Lernstile in ML neu definiert, indem wir UnSL und SelfSL getrennt haben und SemiSL aus der Gleichung herausgelassen haben. Dies bringt uns zu den vier Konzepten SL, UnSL, SelfSL und RL, die wir in einem einfachen Rahmen anordnen können (um ganz ehrlich zu sein: Ich habe eine Zeit lang in der Beratung gearbeitet). Die 2x2-Matrix strukturiert sie danach, ob eine Grundwahrheit existiert und ob das Ziel explizit oder implizit gegeben ist.

Wenn Sie andere unkonventionelle Zuordnungen haben, sich Gedanken zu diesem Thema machen oder an unserer Arbeit bei Luminovo interessiert sind, würde ich mich freuen, von Ihnen zu hören. Sie können einen Kommentar hinterlassen oder mich auf Linkedin erreichen.

Bleiben Sie dran für die nächsten Artikel.

sebastian schaal
inga schwarz
patrick perner

Kostenlose Demo buchen

Lassen Sie sich von unseren Produktspezialisten durch die Plattform führen, gehen Sie auf alle Funktionen ein, die für Ihren individuellen Anwendungsfall relevant sind, und lassen Sie alle Ihre Fragen direkt beantworten. Oder sehen Sie sich ein 5-minütiges Video zu den wichtigsten Funktionen an.