Neue Podcastfolge: Wie können Machine Learning Prozesse möglichst effizient automatisiert werden?
In der neuen Podcastfolge spreche ich mit Kompetenzsäulenkoordinator Florian Karl über die aktuellen Forschungsmethoden, Herausforderungen und Anwendungsmöglichkeiten der Kompetenzsäule »Automatisches Lernen« (AutoML) im Ada Lovelace Center for Analytics, Data and Applications.
Maschinelles Lernen ist mittlerweile vielen ein Begriff. Dabei geht es nicht darum, Computer zu programmieren, sondern diese aus vorhandenen Daten selbstständig lernen zu lassen. Dazu bedarf es bestimmter Modelle, die für die zur Verfügung stehenden Daten geeignet sind. Die Modellauswahl, die Konfiguration und auch das Testen der Modelle übernehmen bisher Machine Learning-Experten und Data Scientists. Dies ist mit viel manuellem Aufwand verbunden, da z.B. jedes Machine Learning-Modell über eine gewisse Anzahl an Hyperparamatern verfügt, die alle Einfluss auf die Performance haben können. Genau hier versucht AutoML Abhilfe zu schaffen: AutoML ist eine Meta-Methode, die auf sehr viele und unterschiedliche Problemstellungen und Datensituationen angewendet werden kann, um die beschriebenen Machine Learning-Prozessschritte zu automatisieren und damit Wissenschaftler und Data Scientists zu entlasten sowie Machine Learning-Methoden zugänglicher zu machen.
AutoML Systeme müssen aber natürlich so konzipiert werden, dass sie bestimmte Arten von Daten unterstützen können. Unterschiedliche Datentypen erfordern verschiedenste Operationen (z.B. zur Verarbeitung der Daten) und oft auch unterschiedliche Modelle. Gerade spezielle Datentypen wie z.B. Zeitreihendaten, die wir im Interview mit Christopher Mutschler zum sequenzbasierten Lernen erwähnt haben, oder multimodale Daten (also z.B. Text und Bild in Kombination) stellen bestehende AutoML-Lösungen vor große Herausforderungen, da sehr spezielle Methoden erforderlich sind.
Generell ist dies eine grundsätzliche Herausforderung bei der Erstellung eines AutoML-Systems: Zu definieren, was das AutoML-System „ausprobieren“ darf, um eine gute Konfiguration zu finden. Im Prinzip gilt hier: gibt man dem System nur wenige Möglichkeiten zum Ausprobieren, geschieht die Suche effizient und findet schnell eine optimale Lösung, möglicherweise werden aber einige gute Optionen weggelassen. Gibt man dem AutoML-System die Möglichkeit zahlreiche verschiedenen Modelle, Operationen etc. auszuprobieren, ist die Suche langwierig und vielleicht auch nicht so robust.
Wenn Sie also wissen wollen, wie Prozesse effizient automatisiert werden können, ohne dass Experten manuell Modelle auswählen, konfigurieren und testen müssen, hören Sie unbedingt rein!
Automated Adaptive Learning
How can machine learning processes be automated as efficiently as possible?
In this new podcast episode I talk to competence pillar coordinator Florian Karl about the current research methods, challenges and application possibilities of the competence pillar »Automated Adaptive Learning« (AutoML) at the Ada Lovelace Center for Analytics, Data and Applications.
Everyone is now familiar with machine learning. AutoML is not about programming computers, but letting them learn on their own from existing data. This requires certain models that are suitable for the existing data. Until now, machine learning experts and data scientists have been responsible for selecting, configuring and testing the models. This involves a lot of manual effort because, for example, each machine learning model has a certain number of hyperparameters, which can affect the performance. This is exactly where AutoML comes into play: AutoML is a meta-method that can be applied to a very large number and variety of problems and data situations in order to automate the machine learning process steps. The goal is to reduce the workload of experts and data scientists and to make machine learning methods more accessible.
AutoML systems, however, must of course be designed to support specific data types. Different data types require different operations (e.g., to process the data) and often different models. In particular, special data types such as time series data, which we mentioned in our interview with Christopher Mutschler about sequence-based learning, or multimodal data (i.e., text and image in combination) pose major challenges for existing AutoML solutions because they require very specific methods.
In general, this poses a fundamental challenge to building an AutoML system: defining what the AutoML system is allowed to „try“ in order to find a good configuration. If one gives the system only a few options to try, the search is in principle efficient and quickly finds an optimal solution, but some good options may have been be left out. If one allows the AutoML system to try numerous different models, operations, etc., the search will be lengthy and perhaps not as robust.
If you want to know how processes can be automated efficiently without experts having to manually select, configure and test models, listen the new episode.