Unsupervised Machine Learning

Wie KI menschliches Niveau erreicht

30.08.2019
Von 
Martin Heller schreibt als freier Autor für die Schwesterpublikation InfoWorld.
Unüberwachtes maschinelles Lernen hat das Potenzial, Künstliche Intelligenz auf ein völlig neues Level zu heben. Wir sagen Ihnen, wie und warum.

Dem Erfolg von Supervised Machine Learning und Deep Learning zum Trotz - es gibt Experten, die dem Unsupervised Learning noch weitaus größeres Potenzial zuschreiben. Denn die Lernleistung eines Systems für Supervised Learning wird durch das Training, das ihm zukommt, limitiert. Ein solches System kann lediglich Aufgaben erledigen, auf die es vorher trainiert wurde. Ein System für Unsupervised Learning könnte theoretisch den Status der "artificial general intelligence" erreichen - also die Fähigkeit, sich jedes Skillset anzueignen, das auch ein Mensch verinnerlichen könnte. Aber noch ist die Technologie nicht so weit.

Während beim Supervised Learning das Labeling der Trainingsdaten regelmäßig eines der größten Probleme darstellt, hapert es beim Unsupervised Learning (wo Daten grundsätzlich nicht gelabelt werden) noch daran, dass es generell nicht besonders gut funktioniert. Nichtsdestotrotz hat Unsupervised Learning bereits jetzt eine Daseinsberechtigung, denn gerade wenn es darum geht, die Dimension eines Datensets zu reduzieren, Verhaltensmuster und Strukturen in Daten zu erkennen sowie Relationen, Sonderfälle und Fehler zu identifizieren, hat sich die Machine-Learning-Methode als hilfreich erwiesen.

Unüberwachtes maschinelles Lernen hat das Potenzial, die Künstliche Intelligenz der menschlichen ein entscheidendes Stück näher zu bringen.
Unüberwachtes maschinelles Lernen hat das Potenzial, die Künstliche Intelligenz der menschlichen ein entscheidendes Stück näher zu bringen.
Foto: Immersion Imagery - shutterstock.com

Ganz generell kann es sich lohnen, dem Unsupervised-Learning-Ansatz eine Chance zu geben - beispielsweise im Rahmen Ihrer explorativen Datenanalysen, die Muster und Cluster aufdecken sollen. Ob Sie im Anschluss auf Supervised Learning oder vortrainierte Modelle setzen, hängt ganz von Ihren Zielen - und nicht zuletzt auch von Ihren Daten - ab.

Was ist Unsupervised Learning?

Als Elternteil oder auch Lehrer müssen Sie jungen Menschen nicht jede Hunde- oder Katzenrasse im Einzelnen zeigen, damit diese zwischen den beiden unterscheiden können. Einige wenige Beispiele reichen aus, damit Kinder ohne weitere Erklärung zwischen Hund und Katze unterscheiden können. Eventuell kommt es dabei zu initialen Irrtümern - ein Chihuahua könnte beispielsweise auch mal als Katze durchgehen. Allerdings lassen sich solche Fehler relativ einfach korrigieren.

Kinder klassifizieren Dinge völlig intuitiv in Gruppen - dieses Ziel verfolgt auch Unsupervised Learning. Die KI-Experten Alex Graves und Kelly Clancy liefern in ihrem Blog-Post "Unsupervised Learning: the curious pupil" folgende Definition für die Machine-Learning-Methode:

Unsupervised Learning ist ein Paradigma, das über ein Belohnungssystem autonome Intelligenz schaffen will. Dabei lernen die Systeme nicht vor dem Hintergrund eines bestimmten Tasks: Sie lernen um des Lernens Willen.

Das Potenzial eines solchen Systems ist im Vergleich zu konventionellen Systemen, die komplexe Bilder auf eine binäre Entscheidung herunterbrechen, wesentlich höher. Die Erkennung von Datenmustern kann - im Gegensatz zur Ausführung eines vordefinierten Tasks - zu überraschend nützlichen Ergebnissen führen, wie dieses Beispiel aus der Wissenschaft zeigt.

Wie läuft das mit der Clusteranalyse?

Wenn ein System für Unsupervised Learning Gruppen von ähnlichen Datenpunkten ermitteln soll, kommt es zur Bildung von Clustern. Derzeit kommen dazu verschiedene Clustering-Algorithmen zum Einsatz, die unterschiedliche Charakteristika aufweisen. Ganz allgemein analysieren Clustering-Algorithmen die Metriken oder Distanzfunktionen zwischen den Vektoren der Datenpunkte und gruppieren im Anschluss diejenigen, die sich ähneln. Dabei funktionieren diese Algorithmen am besten, wenn ihre Klassifizierungen sich nicht überlappen.

Hierarchische Clusteranalysen (HCA) können agglomerativ oder divisiv berechnet werden. Der Prozess des Clusterings an sich wird für gewöhnlich in einem Baumdiagramm abgebildet. HCA-Algorithmen benötigen im Regelfall eine Menge Rechenleistung und Speicherressourcen - was ihre Anwendbarkeit auf eher kleine Datensets beschränkt.

Eine Clusteranalyse kann auch mit dem k-Means-Algorithmus erledigt werden. Hierbei wird aus einer Menge von (ähnlichen) Beobachtungen eine bestimmte Anzahl von Gruppen gebildet, die sich durch eine geringe Varianz und eine ähnliche Größe auszeichnen. Es handelt sich hierbei ursprünglich um ein Verfahren zur Vektorquantisierung, das auch zur Clusteranalyse zur Anwendung kommt.

Darüber hinaus existieren auch Mischmodelle - der Expectation-Maximization-Algorithmus ist der wohl populärste Vertreter dieser Gattung.

Neuronale Netze "in unsupervised"

Neuronale Netze werden im Regelfall mit strukturierten Daten trainiert - was per Definition Supervised Machine Learning ist. Doch diese Netze lassen sich mit verschiedenen Methoden auch mit unstrukturierten Daten trainieren:

  • Autoencoder sind neuronale Netze, die auf Grundlage ihrer Inputs trainiert werden. Autoencoder eignen sich aufgrund ihrer Funktionsweise besonders für die Dimensionsreduktion, Anomalie-Erkennung und das Erlernen generativer Modelle.

  • Deep-Belief-Netzwerke sind Autoencoder-Stacks oder "Restricted Boltzmann Machines", die erlernen können, ihre Inputs zu rekonstruieren. Solche Netzwerke werden im Regelfall mit der Contrastive-Divergence-Methode trainiert.

  • Generative Adversarial Networks sind in der Lage, zwei Netzwerke zeitgleich zu trainieren. Dabei erfasst ein ein generatives Modell die Datenverteilung, während ein diskriminatives Modell die Wahrscheinlichkeit erfasst, mit der ein Sample aus Trainingsdaten erzeugt wurde. Das Ziel des Trainings ist es, diese Wahrscheinlichkeit zu maximieren.

  • Kohonenkarten sind selbstorganisierende Karten, deren Funktionsweise auf biologischen Grundlagen fußt. (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.