Viele Unternehmen betrachten ML als die geheime Zutat, die ihre Berge von Daten wie von Zauberhand in unglaubliche Intelligenz verwandeln wird. Es existiert der naive Glaube, dass die Anstellung eines intelligenten Wissenschaftlers, der ihre Datenberge in einen superschnellen, mit künstlicher Intelligenz programmierten Computer verschiebt, ihnen ermöglicht, die Konkurrenz wie auf einer Rennstrecke zu überholen.
Die produktive Realität stellt sich jedoch deutlich anders dar: Um nützliche Resultate zu erzielen, kann Machine Learning außerordentlich viel Zeit und Aufwand in Anspruch nehmen, was nicht selten zu Frustration und verschwendeten Bemühungen führen kann. Wie können Unternehmen vor diesem Hintergrund also den Hype um Machine Learning in eine produktive Realität verwandeln? Dieser Artikel beschreibt drei grundlegende Probleme des Machine Learning und wie man sie effektiv lösen kann.
Machine Learning: Die Grundlagen
Ich arbeitete früher für ein reines Machine-Learning-Unternehmen. Dort haben wir extrem schnelle Algorithmen kreiert, die große Menge an Daten sehr schnell verarbeiten konnten. Daneben haben wir über eine Bibliothek verschiedener Machine-Learning-Methoden für echte Ergebnisse gesorgt - darunter z. B. Nearest Neighbor, Support Vector Machine, Random Forest, Decision Tree und weitere.
Eine Machine-Learning-Methode ist eine gut definierte Vorgehensweise zur Analyse von Daten und der Generation von Erkenntnissen in Form von statistischen Wahrscheinlichkeiten. Diese Methoden basieren auf einer Vielzahl von statistischen Formeln, die je nach verfügbaren Daten und der angestrebten Schlussfolgerung variieren. Einige dieser Methoden eignen sich besser für eindimensionale periodische Daten, andere eher für Text und Dokumente und wiederum andere für multidimensionale Daten.
- Facebook-Gesichter
Computer können lernen, menschliche Gesichter zu unterscheiden. Facebook nutzt das für die automatische Gesichtserkennung. - Machine Learning
Anders als das Bild suggeriert ist Machine Learning ein Teilgebiet von Artificial Intelligence – allerdings ein sehr wichtiges. - AlphaGo
Maschine schlägt Mensch: 2016 besiegte Googles Machine Learning System AlphaGo den Weltmeister im Spiel Go. - Grafikprozessoren GPU Nvidia
Die führenden Companies im Machine Learning nutzen für die parallele Verarbeitung der Daten Grafikprozessoren (GPUs) - etwa von Nvidia. - Deep Learning
Deep Learning Verfahren lernen erst Low-Level Elemente wie Helligkeitswerte, dann Elemente auf mittlerer Ebene und schließlich High-Level Elemente wie ganze Gesichter. - IBM Watson
IBM Watson integriert mehrere Artificial Intelligence Methoden: Neben maschinellem Lernen sind das Algorithmen der natürlichen Sprachverarbeitung und des Information Retrieval, der Wissensrepräsentation und der automatischen Inferenz.
Machine Learning: Die Herausforderungen
Es hört sich zunächst einmal sehr eindrucksvoll an, wenn ein Anbieter mit einer Vielzahl von Machine-Learning-Methoden in seiner Bibliothek auftrumpfen kann. Für den Datenwissenschaftler-Veteranen mit fundierter Erfahrung im Kampf mit Daten bietet eine solche Bibliothek eine immense Leistungskraft, mit der die verfügbaren Daten durchkämmt werden können.
Allerdings birgt dieser Ansatz zahlreiche Herausforderungen.
Zunächst einmal müssen die Daten, bevor sie von einer Methode verwendet werden können, entsprechend vorverarbeitet werden. Dies kann eine extrem mühsame und zeitraubende Aufgabe sein, wobei kleinste Änderungen an den geschäftlichen Anforderungen oder den Datenquellen den Datenwissenschaftler dazu zwingen können, den gesamten Datensatz von Grund auf neu zu erstellen.
Zweitens hat jede Methode eine derartig große Anzahl von Einsatzmöglichkeiten und Ergebnissen, dass die Lösung vorab klar definiert werden muss. Dies setzt voraus, dass der Geschäftsanwender die nuancenreichen Unterschiede zwischen den verschiedenen Methoden zu schätzen weiß oder der Datenwissenschaftler wortgewandt genug ist, um diese Unterschiede entsprechend zu erklären. Leider ist genau dies oft nicht der Fall.
Drittens muss der resultierende Datensatz formatiert oder für die Verwendung durch den Endbenutzer umgewandelt werden. Der Endbenutzer ist in der Regel ein Geschäftsanwender oder Prozessbenutzer, der die zum Einsatz gekommenen komplexen statistischen Methoden nicht versteht. Normalerweise benötigt dieser Endbenutzer nur solche Ergebnisse, die sofort genutzt werden können - egal, ob es sich hierbei um eine Webseite handelt, die einem Endnutzer eine bestimmte Seite präsentiert, oder um eine Heatmap, die einen Sicherheitsanalysten bei der Fahndung nach Bedrohungen unterstützt.
Vom Traum zum Zeit- und Ressourcenfresser
Meine persönliche Erfahrung war, dass sich diese drei Herausforderungen ständig und auf unterschiedliche Art und Weise gestellt haben. Allzu oft verwandelte dies den Traum von Machine-Learning-orientierten Lösungen von einer großartigen Idee in einen albtraumhaften Strudel, der wie ein schwarzes Loch Zeit und Ressourcen verschlang. Das Ganze produzierte Ergebnisse auf einer schmalen Basis - und nicht in einer allgemeinen und vor allem wiederholbaren Form.
Ohne erheblichen Aufwand bei der Bewältigung der Herausforderungen in Bezug auf Vorverarbeitung, Lösungsdefinition und Datenpräsentation konnten die Endkunden der Analyse die generierten Daten kaum nutzbringend verwenden. Dies war sehr frustrierend. Wenn es um die Lieferung der erhofften Ergebnisse ging, die Manager und Führungskräfte erwartet hatten, waren hoch-performante und erstklassige Methoden letztendlich unwirksam.