Machine Learning

Vom Hype zur Realität

Kommentar 14.08.2017

Von

Paul Salazar ist Vice President Central EMEA bei Elastic. Er verfügt über 30 Jahre Erfahrung in führenden Positionen in den Bereichen Engineering, Produktmanagement, Marketing und Sales, sowohl bei international tätigen Unternehmen als auch Startups im Silicon Valley. Seit 20 Jahren liegt sein Fokus auf Open Source Software-Management und Open Source-Businessmodellen.

Alle Posts des Autors Connect:

Machine Learning - ein Begriff, der aus der Statistik hervorgekommen und zum modernen Schlagwort geworden ist. Das bloße Flüstern von "ML" erregt heute Aufmerksamkeit. Doch der geheimnisvolle Nimbus des Begriffs wird nur selten richtig verstanden und ist mit allerlei gehypten Erwartungen behaftet.

Viele Unternehmen betrachten ML als die geheime Zutat, die ihre Berge von Daten wie von Zauberhand in unglaubliche Intelligenz verwandeln wird. Es existiert der naive Glaube, dass die Anstellung eines intelligenten Wissenschaftlers, der ihre Datenberge in einen superschnellen, mit künstlicher Intelligenz programmierten Computer verschiebt, ihnen ermöglicht, die Konkurrenz wie auf einer Rennstrecke zu überholen.

Bei Machine Learning gehen Wunsch und Wirklichkeit weit auseinander.
Foto: maxuser - shutterstock.com

Die produktive Realität stellt sich jedoch deutlich anders dar: Um nützliche Resultate zu erzielen, kann Machine Learning außerordentlich viel Zeit und Aufwand in Anspruch nehmen, was nicht selten zu Frustration und verschwendeten Bemühungen führen kann. Wie können Unternehmen vor diesem Hintergrund also den Hype um Machine Learning in eine produktive Realität verwandeln? Dieser Artikel beschreibt drei grundlegende Probleme des Machine Learning und wie man sie effektiv lösen kann.

Machine Learning: Die Grundlagen

Ich arbeitete früher für ein reines Machine-Learning-Unternehmen. Dort haben wir extrem schnelle Algorithmen kreiert, die große Menge an Daten sehr schnell verarbeiten konnten. Daneben haben wir über eine Bibliothek verschiedener Machine-Learning-Methoden für echte Ergebnisse gesorgt - darunter z. B. Nearest Neighbor, Support Vector Machine, Random Forest, Decision Tree und weitere.

Eine Machine-Learning-Methode ist eine gut definierte Vorgehensweise zur Analyse von Daten und der Generation von Erkenntnissen in Form von statistischen Wahrscheinlichkeiten. Diese Methoden basieren auf einer Vielzahl von statistischen Formeln, die je nach verfügbaren Daten und der angestrebten Schlussfolgerung variieren. Einige dieser Methoden eignen sich besser für eindimensionale periodische Daten, andere eher für Text und Dokumente und wiederum andere für multidimensionale Daten.

Facebook-Gesichter
Computer können lernen, menschliche Gesichter zu unterscheiden. Facebook nutzt das für die automatische Gesichtserkennung.
Machine Learning
Anders als das Bild suggeriert ist Machine Learning ein Teilgebiet von Artificial Intelligence – allerdings ein sehr wichtiges.
AlphaGo
Maschine schlägt Mensch: 2016 besiegte Googles Machine Learning System AlphaGo den Weltmeister im Spiel Go.
Grafikprozessoren GPU Nvidia
Die führenden Companies im Machine Learning nutzen für die parallele Verarbeitung der Daten Grafikprozessoren (GPUs) - etwa von Nvidia.
Deep Learning
Deep Learning Verfahren lernen erst Low-Level Elemente wie Helligkeitswerte, dann Elemente auf mittlerer Ebene und schließlich High-Level Elemente wie ganze Gesichter.
IBM Watson
IBM Watson integriert mehrere Artificial Intelligence Methoden: Neben maschinellem Lernen sind das Algorithmen der natürlichen Sprachverarbeitung und des Information Retrieval, der Wissensrepräsentation und der automatischen Inferenz.

Machine Learning: Die Herausforderungen

Es hört sich zunächst einmal sehr eindrucksvoll an, wenn ein Anbieter mit einer Vielzahl von Machine-Learning-Methoden in seiner Bibliothek auftrumpfen kann. Für den Datenwissenschaftler-Veteranen mit fundierter Erfahrung im Kampf mit Daten bietet eine solche Bibliothek eine immense Leistungskraft, mit der die verfügbaren Daten durchkämmt werden können.

Allerdings birgt dieser Ansatz zahlreiche Herausforderungen.

Zunächst einmal müssen die Daten, bevor sie von einer Methode verwendet werden können, entsprechend vorverarbeitet werden. Dies kann eine extrem mühsame und zeitraubende Aufgabe sein, wobei kleinste Änderungen an den geschäftlichen Anforderungen oder den Datenquellen den Datenwissenschaftler dazu zwingen können, den gesamten Datensatz von Grund auf neu zu erstellen.

Zweitens hat jede Methode eine derartig große Anzahl von Einsatzmöglichkeiten und Ergebnissen, dass die Lösung vorab klar definiert werden muss. Dies setzt voraus, dass der Geschäftsanwender die nuancenreichen Unterschiede zwischen den verschiedenen Methoden zu schätzen weiß oder der Datenwissenschaftler wortgewandt genug ist, um diese Unterschiede entsprechend zu erklären. Leider ist genau dies oft nicht der Fall.

Drittens muss der resultierende Datensatz formatiert oder für die Verwendung durch den Endbenutzer umgewandelt werden. Der Endbenutzer ist in der Regel ein Geschäftsanwender oder Prozessbenutzer, der die zum Einsatz gekommenen komplexen statistischen Methoden nicht versteht. Normalerweise benötigt dieser Endbenutzer nur solche Ergebnisse, die sofort genutzt werden können - egal, ob es sich hierbei um eine Webseite handelt, die einem Endnutzer eine bestimmte Seite präsentiert, oder um eine Heatmap, die einen Sicherheitsanalysten bei der Fahndung nach Bedrohungen unterstützt.

Vom Traum zum Zeit- und Ressourcenfresser

Meine persönliche Erfahrung war, dass sich diese drei Herausforderungen ständig und auf unterschiedliche Art und Weise gestellt haben. Allzu oft verwandelte dies den Traum von Machine-Learning-orientierten Lösungen von einer großartigen Idee in einen albtraumhaften Strudel, der wie ein schwarzes Loch Zeit und Ressourcen verschlang. Das Ganze produzierte Ergebnisse auf einer schmalen Basis - und nicht in einer allgemeinen und vor allem wiederholbaren Form.

Ohne erheblichen Aufwand bei der Bewältigung der Herausforderungen in Bezug auf Vorverarbeitung, Lösungsdefinition und Datenpräsentation konnten die Endkunden der Analyse die generierten Daten kaum nutzbringend verwenden. Dies war sehr frustrierend. Wenn es um die Lieferung der erhofften Ergebnisse ging, die Manager und Führungskräfte erwartet hatten, waren hoch-performante und erstklassige Methoden letztendlich unwirksam.

Aktuelle Technologie-Themen:

Aktuelle Artikel im Überblick:

Aktuelle Artikel im Überblick:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Events

Aktuelle Podcasts im Überblick:

Aktuelle Webcasts im Überblick:

Aktuelles aus den Hot Topics auf COMPUTERWOCHE: -Anzeige-

Künstliche Intelligenz (Artificial Intelligence)

Künstliche Intelligenz (Artificial Intelligence)

Machine Learning

Vom Hype zur Realität

Machine Learning: Die Grundlagen

Machine Learning: Die Herausforderungen

Vom Traum zum Zeit- und Ressourcenfresser

Aktuelle Technologie-Themen:

Aktuelle Artikel im Überblick:

Aktuelle Artikel im Überblick:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Events

Aktuelle Podcasts im Überblick:

Aktuelle Webcasts im Überblick:

Aktuelles aus den Hot Topics auf COMPUTERWOCHE: -Anzeige-

Aktuelle Technologie-Themen:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Künstliche Intelligenz (Artificial Intelligence)

Künstliche Intelligenz (Artificial Intelligence)

Machine Learning: Die Grundlagen

Machine Learning: Die Herausforderungen

Vom Traum zum Zeit- und Ressourcenfresser

Per E-Mail versenden

Artikel als PDF kaufen

Über den Autor