Zurück zum Blog
Neue Perspektiven auf Transferlernen: Strukturierung von ML-Konzepten
Diese letzte Folge führt die hybride Verarbeitung ein und verknüpft sie in einem neuartigen Rahmen mit aktivem Lernen sowie transduktiven und induktiven semi-supervisierten Lernen.
2. Juni 2020
Hinweis: Dieser Artikel wurde zuerst auf Towards Data Science Medium veröffentlicht.
In der Kolumne „Strukturierung von Machine Learning Konzepten“ versuche ich, Konzepte aus dem Machine Learning (ML)-Bereich zu nehmen und in neue, potenziell ungewöhnliche Rahmen zu bringen, um neuartige Perspektiven zu bieten. Der Inhalt richtet sich an Menschen in der Data-Science-Community sowie an Technikbegeisterte, die am Bereich des ML interessiert sind.
Einführung
Die letzte Ausgabe von „Strukturierung von Machine Learning Konzepten“ war der Einführung von Hybrid Processing gewidmet und integrierte es zusammen mit Active Learning und transduktivem & induktivem semi-supervised Learning in ein neues Rahmenwerk.
Der Auslöser für diesen Beitrag war die allgegenwärtige Nutzung von Transfer Learning in heutiger Zeit, die sich in viele Richtungen verzweigt. Es kommt in verschiedenen Formen und Farben, doch die Methodik fehlt an einer übergeordneten Strukturierung. Lassen Sie uns das weiter ausbauen.
Das Rahmenwerk: Acht Wege des Transfer Learning
Transfer Learning (TL) war wahrscheinlich eine der wichtigsten Entwicklungen im Deep Learning, um es für reale Anwendungen nutzbar zu machen. Viele erinnern sich vielleicht an den „ImageNet-Moment“, als AlexNet die ImageNet-Wettbewerb dominierte und neuronale Netze zum Standard für Herausforderungen der Bildverarbeitung machte.
Allerdings gab es ein Problem — man brauchte viele Daten, damit dies funktionierte, die oft nicht verfügbar waren.
Die Lösung für dieses Problem kam mit der Einführung von TL. Dies erlaubte es uns, ein auf ImageNet vortrainiertes Convolutional Neural Network (CNN) zu nehmen, die ersten Schichten einzufrieren und nur dessen Kopf auf einem kleineren Datensatz neu zu trainieren, was CNNs in der industriellen Massenanwendung verankerte.
Im Jahr 2018 erreichte dieser „ImageNet-Moment“ schließlich die Natürliche Sprachverarbeitung (NLP). Zum ersten Mal bewegten wir uns vom erneuten Verwenden statischer Wort-Embedding hin zum Teilen vollständiger Sprachmodelle, die ein bemerkenswertes Potenzial zur Erfassung einer Vielzahl sprachlicher Informationen gezeigt haben. Im Rahmen dieser Entwicklung veröffentlichte Sebastian Ruder seine Dissertation über neuronales TL für NLP, die bereits einen Baum der vier unterschiedlichen Konzepte in TL kartierte.
Abbildungsdimensionen
Das hat mich zum Nachdenken gebracht: welche unterschiedlichen Mittel gibt es, um Einsichten aus ein oder zwei Datensätzen zu nutzen, um eine oder mehrere Aufgaben zu erlernen. Dies sind die Dimensionen, die mir eingefallen sind:
Aufgabe: Versuchen wir, unserem Netzwerk dieselbe Aufgabe in einem Pre-Training- und Fine-Tuning-Schritt beizubringen oder nutzen wir das Wissen der ersten Aufgabe, um es für eine andere zweite zu nutzen? (z.B. ein „Tierklassifikator“ vortrainieren und das Modell als „Hunderasse-Klassifikator“ feinabstimmen vs. das Rückgrat eines „Tierklassifikations“-Netzes nutzen, um einen „fluffy ears object detector“ zu trainieren)
Domäne: Haben wir Datensätze aus derselben Domäne oder aus unterschiedlichen? (z.B. beide Datensätze sind farbige Bilder „in freier Wildbahn“ versus einer ist grau-skalierte Röntgenbilder)
Reihenfolge: Lernen wir die Aufgaben gleichzeitig oder nacheinander? (z.B. wir berechnen den Verlust für alle Aufgaben gemeinsam und nutzen ihn fürs Training vs. beenden das erste Training, portieren die Netzgewichte und starten dann das zweite Training)
Ich überlegte auch, „Wichtigkeit“ hinzuzufügen, um zusätzliche Aufgaben einzubeziehen, aber lass uns die Dinge nicht zu sehr verkomplizieren. So endete ich mit ähnlichen Dimensionen, die Ruder auch für NLP verwendet hat. Lass uns alle acht Kombinationen kartieren, die sich aus den drei binären Dimensionen ergeben.
Leichtgewichtige Definitionen
Ich werde einige opinionierte Entscheidungen über die Begriffe treffen, die nicht durch umfangreiche Literatur gestützt werden — haben Sie Geduld.
Aufgaben-Feinabstimmung: Dies gilt, wenn wir ein Modell vortrainieren, um es dann in einem anderen Datensatz in derselben Domäne mit demselben, auf unser Problem noch spezialisierteren, Aufgabe feinabzustimmen (z.B. ein vortrainiertes ImageNet-Klassifikationsmodell (INCM) nutzen und es anschließend auf einen Hunderassen-Klassifikator feinabstimmen).
Domänenanpassung: Wir arbeiten an derselben Aufgabe, übertragen unser Modell jedoch in eine neue Domäne, die durch einen anderen vorliegenden Datensatz gegeben ist (z.B. ein vortrainiertes INCM übernehmen und auf die Klassifizierung gesunder und kranker Patienten basierend auf Röntgenaufnahmen feinabstimmen).
Aufgabenanpassung: Das Wissen eines vortrainierten Modells (d.h. seine Zwischenoutputs als Embeddings) nutzen, um es auf eine andere Aufgabe zu trainieren (z.B. das Rückgrat eines INCM als Feature-Extractor verwenden und um ein zweites Netz ergänzen, um Objekterkennung durchzuführen).
Modalitätenübertragung: Es könnte sinnvoll sein, ein auf z.B. Bilder vortrainiertes Netz zu verwenden, auch wenn Domäne und Aufgabe sich unterscheiden. Zumindest hat das Netzwerk bereits die Modalität erfasst (z.B. das Rückgrat des INCM nutzen, um Objekterkennung an Brustkarzinomen in Röntgenbildern durchzuführen).
Datensatzzusammenführung: Wenn Sie auf zwei Datensätzen aus derselben Domäne gleichzeitig auf dieselbe Aufgabe trainieren möchten, können Sie sie zusammenführen (z.B. Bilder, die von Instagram gescraped wurden, zum ImageNet-Datensatz hinzufügen, um einen noch besseren Klassifikator zu trainieren).
Gewichtsteilung: Auch wenn Sie zwei Probleme gleichzeitig trainieren, kann es sinnvoll sein, einige Zwischengewichte zu teilen (z.B. den von OCR generierten Text und das rohe Bild eines PDF-Dokuments verwenden, um eine gemeinsame Zwischenrepräsentation zu füttern, um den Kontext der Seite zu klassifizieren und ob es der Beginn eines neuen Dokuments ist).
Mehrzadiges Lernen: Eine der beliebtesten Anwendungen ist Teslas großes Visionsnetzwerk, bei dem ein gemeinsames Rückgrat gleichzeitig auf mehreren Aufgaben trainiert wird (z.B. das gleiche Videomaterial der Kameras in einem Tesla verwenden, um Objekterkennung und Straßenmarkierungssegmentierung parallel durchzuführen).
Paralleles Training: Und schließlich, wenn Sie zwei unterschiedliche Probleme (Domäne und Aufgabe) haben und diese gleichzeitig trainieren wollen, tun Sie es einfach parallel (z.B. Inhaltsmoderation und E-Mail-Klassifizierung für denselben Kunden durchführen).
Die Erweiterte 2x2x2-Matrix

Unter Verwendung der Dimensionen Aufgabe, Domäne und Reihenfolge gelangen wir zu dieser 2x2x2-Matrix, die die zuvor eingeführten Konzepte abbildet. Für eine 2D-Visualisierung habe ich zwei Dimensionen auf die x-Achse gelegt und die binären Einträge verdoppelt, und endete mit 8 eindeutigen Zellen (z.B. die obere linke wäre dieselbe Domäne, dieselbe Aufgabe und sequentielle Reihenfolge).
Abschluss
In diesem Beitrag haben wir die Dimensionen Aufgabe, Domäne und Reihenfolge verwendet, um die Möglichkeiten der Ausführung von TL zu strukturieren. Ich habe es genossen, mich in meine Beratersvergangenheit durch die Erweiterung dieser zu einer größeren Matrix hineinzuversetzen, was mich dazu brachte, über völlig neue Szenarien nachzudenken, während ich versuchte, die leeren Felder zu füllen. Dies führte von einigen eher offensichtlichen Fällen (z.B. „Datensatzzusammenführung“ und „Paralleles Training“) bis hin zu einigen bekannten Verfahren, die noch keinen häufig genutzten Namen hatten (z.B. „Feinabstimmung der Aufgabe“).
Wenn Sie weitere unkonventionelle Zuordnungen, Gedanken zu dem Thema haben oder an unserer Arbeit bei Luminovo interessiert sind, würde ich mich freuen, von Ihnen zu hören. Sie können einen Kommentar hinterlassen oder mich auf LinkedIn erreichen.
Bleiben Sie dran für die nächsten Artikel.
Danke an Lukas Krumholz und Aljoscha von Bismarck.



Kostenfreie Demo buchen
Lassen Sie sich von unseren Produktspezialisten durch die Plattform führen, alle für Ihren individuellen Anwendungsfall relevanten Funktionalitäten ansprechen und alle Ihre Fragen direkt beantworten. Oder sehen Sie sich ein 5-minütiges Video der wichtigsten Funktionen an.