adalovelacecenter-blog

Few Labels Learning

Tauchen Sie ein in ein Gespräch mit Jann Goschenhofer über das Training von Machine Learning Modellen mit wenigen annotierten Daten.

Willkommen zum zweiten Podcast aus der Reihe »Ada wills wissen«! In dieser Folge spreche ich mit Jann Goschenhofer, Senior Scientist der Gruppe Data Efficient Automated Learning in der Arbeitsgruppe für Supply Chain Services des Fraunhofer IIS und Kompetenzsäulenverantwortlicher für »Few Labels Learning« im ADA Lovelace Center for Analytics, Data and Applications.

Bei Few Labels Learning geht es darum, Machine Learning Modelle zu trainieren, wenn wenig annotierte Daten vorliegen. Im Optimalfall ist der Datensatz für das Training eines Modells groß und es sind annotierte oder gelabelte Daten vorhanden. Annotiert heisst, die Daten sind mit Informationen versehen. Je größer und genauer annotiert der Datensatz ist, desto präziser kann das Modell auch über Domänen hinweg trainiert werden.

Im Industrieumfeld ist es häufig so, dass zwar viele Daten vorliegen, aber die Annotation nur spärlich oder gar nicht gewährleistet ist. Im Medizinbereich muss eine Datenannotation von Experten durchgeführt werden, das kann schnell sehr aufwändig und teuer werden.

In der Kompetenzsäule »Few Labels Learning« werden verschiedene Methoden für das Lernen mit wenig annotierten Daten erforscht, auf die Jann Goschenhofer im Gespräch näher eingeht: Meta-Lernstrategien, Semi-supervised Learning und Datensynthetisierung.

Diese Methoden können in verschiedenen Domänen angewendet werden, von Text über Bild zu Videodaten, im X-Ray-Bereich, bis hin zu Zeitreihenanalysen oder Sensordaten. Wenn Sie einen Einblick in die Methoden und praktischen Anwendungsbeispiele erhalten möchten, hören Sie gerne in den Podcast rein!

Wenn Sie unseren Experten Jann Goschenhofer live erleben wollen, haben Sie im KI-Forum der LOGIMAT Gelegenheit dazu.

 

Listen to a conversation with Jann Goschenhofer about training machine learning models with little annotated data.

Welcome to the second podcast in the „Ada wants to know“ series! In this episode, I talk with Jann Goschenhofer, Senior Scientist in the Data Efficient Automated Learning group in the Fraunhofer IIS Supply Chain Services research group, and Competence Pillar Leader for »Few Labels Learning« in the ADA Lovelace Center for Analytics, Data and Applications.

Few Labels Learning is about training machine learning models when few annotated data is available. The data set for training a model is optimally large and annotated or labeled data is available. Annotated means the data is annotated with information. The larger and more accurately annotated the data set is, the more accurately the model can be trained across domains.

In the industrial environment, it is often the case that there is a lot of data, but no annotation of the data or not provided at all. In the medical field, data annotation must be done by experts, and this can quickly become very time-consuming and expensive.

In the »Few Labels Learning« competence pillar, various methods for learning with few annotated data are being researched, which Jann Goschenhofer discusses in more detail during the podcast: meta-learning strategies, semi-supervised learning and data synthesis.

These methods can be applied in various domains, from text to image to video data, in the X-Ray domain, to time series analysis or sensor data. If you want to get an insight into the methods and practical application examples, feel free to listen to this episode!

If you want to experience our expert Jann Goschenhofer live, you will have the opportunity to do so at the AI Forum at LOGIMAT.

Anikó Enderlein