Datenstrategien der Zukunft

Die 5 wichtigsten Datentrends 2017

22.12.2016

Von

Björn Böttcher ist Senior Analyst und Data Practice Lead bei Crisp Research mit dem Fokus auf Analytics, BI, datenbasierte Geschäftsmodelle und Künstliche Intelligenz. Mit mehr als 10 Jahren Berufserfahrung in der IT und einem wissenschaftlichen Hintergrund und Fokus stehen moderne Lösungen mit praktischem Nutzen im Fokus seiner Betrachtung.

Alle Posts des Autors Email: Connect:

Die Analyse der vorhanden Unternehmensdaten und der durch neue Produkte und Dienste enstehenden Daten trägt in Zukunft einen entscheidenen Teil zum Erfolg jedes Unternehmens bei. Entscheider sollten sich daher für diese Top-Data-Trends wappnen.

Ohne eine Datenstrategie werden es viele Unternehmen schwer haben, sich in den nächsten Jahren weiterhin am Markt halten zu können. Die folgenden fünf Trends werden dabei eine besondere Rolle spielen:

1. Edge Analytics

Am Ende des Internets beginnt die reale Welt. Und eben dort werden auch viele Daten durch IoT-Endgeräte erfasst. Die Anzahl dieser Sensoren und Geräte vervielfacht sich mit einer steigenden Geschwindigkeit. Mehr Geräte erfassen mehr Daten, die analysiert und für einen Mehrwert aufbereitet werden sollten. Dies kann im Rechenzentrum oder in der Cloud geschehen. Es ist jedoch nicht für alle erhobenen Daten notwendig, eine nachhaltige Speicher- und Archivierungsstrategie zu verfolgen. Von vielen Daten wird lediglich die Information benötigt, die zu einer Entscheidung für einen spezifischen Anwendungsfall beiträgt.

Ohne eine Datenstrategie werden sich viele Unternehmen in den nächsten Jahren nicht mehr am Markt halten zu können.
Foto: kentoh - shutterstock.com

Damit Daten vor Ort möglichst nahe an der realen Welt, also beispielsweise am Sensor direkt, analysiert werden können, muss die Rechenkapazität vor Ort und Stelle zur Verfügung stehen. Diese Aufgabe versuchen zum Teil bereits Produkte von IBM und Cisco rund um das Thema Fog Computing beziehungsweise Edge Computing zu lösen. Dennoch wird sich gerade in dem Umfeld der Digitalisierungsstrategien der Unternehmen mehr und mehr die Notwendigkeit abzeichnen, die Information aus den Datenströmen aufbereitet an das Rechenzentrum zu übermitteln.

Dies lässt sich auch sehr gut mit den neuesten Ansätzen im Cloud-Service-Bereich zum Thema Serverless beziehungsweise Event-basierter Architekturen vereinen. Denn das Event wird bereits frühzeitig in der Nähe des IoT-Gerätes erfasst und dann an die Cloud-Plattform übermittelt. Dort kann dann die hinterlegte Funktion die Transformation dieser Informationen durchführen und auch entsprechend das Event archivieren. Die eingetroffenen Events können dann im Self-Service-Modell weiter analysiert werden.

Für Unternehmen bietet dieser Ansatz auch viele Möglichkeiten von neuen Geschäftsmodellen. Wenn wir unsere Smartphones als solch einen IoT-Endpunkt definieren, dann finden wir heute bereits für viele Anwendungsszenarien genügend Rechenleistung, um die Analyse der Daten vor Ort durchzuführen. Ein Beispiel ist die Synchronisierung von gestreamter Musik mit dem Lauftempo des Nutzers. In diesem Szenario würde die verzögerte oder auch im Nachgang durchgeführte Analyse der Daten keinen Mehrwert bieten und auch kein Geschäftsmodell darstellen. Darum muss die Analytics-Fähigkeit und die Rechenleistung ein Stück weit in Richtung der IoT-Geräte verlagert werden.

2. Machine Learning und Künstliche Intelligenz

Machine Learning und Künstliche Intelligenz haben 2016 den IT-Mainstream und die Gesellschaft erreicht. Die Diskussionen in vielen Medien bringen die Pflicht zur Auseinandersetzung mit diesen Technologien mit sich. Unternehmen müssen hier schnellstens den geeigneten Zugang finden und die Talente entsprechend fördern oder ausbilden.

Apache Spark MLlib
Früher als Teil des Hadoop-Universums bekannt, ist Apache Spark mittlerweile ein bekanntes Machine-Learning-Framework. Sein umfangreiches Angebot an Algorithmen wird ständig überarbeitet und erweitert.
Apache Singa
Singa, seit kurzem Teil des Apache Incubator, ist ein Open-Source-Framework, das Deep-Learning-Mechanismen auf große Datenvolumen hin „trainieren“ soll. Singa stellt ein simples Programmierungsmodell für Deep-Learning-Netzwerke bereit und unterstützt dabei diverse Entwicklungsroutinen.
Caffe
Caffe umfasst ein ganzes Set von frei verfügbaren Referenzmodellen für gängige Klassifizierungsroutinen; die gewachsene Caffe-Community steuert weitere Modelle bei. Caffe unterstützt die Nvidia-Programmiertechnik CUDA, mit der Programmteile wahlweise auch durch den Grafikprozessor (GPU) abgearbeitet werden können.
Microsoft Azure ML Studio
Weil die Cloud also die ideale Umgebung für ML-Anwendungen darstellt, hat Microsoft seine Azure-Cloud mit einem eigenen ML-Service auf der Basis von „pay as you go“ ausgestattet: Mit Azure ML Studio können Nutzer KI-Modelle entwickeln und trainieren und anschließend in APIs umwandeln, um diese wiederum Anderen zur Verfügung zur stellen.
Amazon Machine Learning
Amazon Machine Learning arbeitet mit Daten, die in einer Amazon-Cloud wie S3, Redshift oder RDS liegen und kann mithilfe binärer Klassifizierungen und Multiklassen-Kategorisierung von vorgegebenen Daten neue KI-Modelle bauen.
Microsoft DMTK
Das DMTK (Distributed Machine Learning Toolkit) von Microsoft soll ML-Anwendungen über mehrere Maschinen hinweg skalieren. Es ist eher als "Out of the Box"-Lösung gedacht und weniger als Framework - entsprechend gering ist die Anzahl der unterstützten Algorithmen.
Google TensorFlow
TensorFlow basiert auf sogenannten Data-Flow-Graphen, in denen Bündel von Daten („Tensors“) durch eine Reihe von Algorithmen verarbeitet werden, die durch einen Graph beschrieben sind. Die Bewegungsmuster der Daten innerhalb des Systems heißen „Flows“. Die Graphen lassen sich mittels C++ und Python zusammenbauen und via CPU oder GPU verarbeiten.
Microsoft CNTK
Das Microsoft Computational Network Toolkit funktioniert ähnlich wie Google TensorFlow: Neuronale Netze lassen sich durch gerichtete Graphen erzeugen. Microsofts eigener Beschreibung zufolge lässt sich CNTK außerdem mit Projekten wie Caffe, Theano und Torch vergleichen – sei aber schneller und könne im Gegensatz zu den genannten gar parallel auf Prozessor- und Grafikprozessorleistung zugreifen.
Samsung Veles
Das Samsung-Framework ist dazu gedacht, Datensätze zu analysieren und automatisch zu normalisieren, bevor sie in den Produktivbetrieb übergehen – was wiederum durch eine eigene API namens REST sofort möglich ist – vorausgesetzt, die eingesetzte Hardware hat genügend Power. Der Python-Einsatz in Veles umfasst auch ein eigenes Analyse- und Visualisierungstool namens Jupyter (früher IPython) für die Darstellung einzelner Anwendungs-Cluster.
Brainstorm
Brainstorm setzt auf Python, um zwei Data-Management-APIs („Handers“ genannt) bereitzustellen – eine für CPU-Prozessing durch die Bibliothek „Numpy“ und eine für GPU-Verarbeitung via CUDA. Eine benutzerfreundliche GUI ist in Arbeit.
mlpack 2
Die neue Version der in C++ geschriebenen Machine-Learning-Bibliothek mlpack, die erstmals im Jahr 2011 erschien, bringt eine Menge Neuerungen mit – darunter neue Algorithmen und überarbeitete alte.
Marvin
Der Quellcode von Marvin ist sehr übersichtlich - die enthaltenen vortrainierten Modelle (siehe Bild) ermöglichen aber bereits eine umfangreiche Weiterentwicklung.
Neon
Neon von NervanaSystems ist ein Open-Source-Framework, das auf ein- und abschaltbaren Modulen basiert und KI-Prozesse via CPU, GPU oder Nervanas eigener Hardware ermöglicht.

In vielen Bereichen von Produkten und Dienstleistungen sind bereits Technologien aus dem Bereich des Machine Learning im Einsatz und dies wird sich noch deutlich steigern. Der Wertanteil von Machine Learning an Produkten und Diensten wird sich deutlich erhöhen und zum Teil auch einige Produkte oder Dienste überhaupt erst möglich machen. Während auf der Anwenderseite die Unternehmen die Fragen auf strategischer Ebene schnell beantworten müssen, sind auf Anbieterseite von Big Data, Cloud Computing und Analytics mehr Dienste und Produkte erforderlich, die der Demokratisierung von Machin- Learning-Technologien förderlich sind. Denn nicht jedes Unternehmen wird in der breiten Masse ein Verständnis für Daten und Machine Learning umsetzen können, wie es beispielsweise bei den großen Internetkonzernen oder Softwareherstellern der Fall ist.

3. Data Integration Hubs

Das Thema IoT und auch Internet of Everything scheint schneller und deutlich spürbarer in den Unternehmen und auch in den Privathaushalten anzukommen, als es beispielsweise bei der Cloud der Fall war. Schon jetzt gibt es Ansätze Informationen auf Basis von Ereignissen durch die unterschiedlichsten System zu führen, damit am Ende dann die Lampe eingeschaltet wird oder der Roboter mit dem Schweißen aufhört.

Was im privaten Umfeld noch mit Ereignis-basierten Workflow-Plattformen, wie beispielsweise IFTTT erfolgen kann, bringt im Unternehmensalltag mehr Komplexität und erfordert auch mehr Kontrolle und Management. Die logische Konsequenz ist die Etablierung von Data Integration Hubs.

Dabei handelt es sich um Plattformen auf denen Daten ausgetauscht werden können. Dies kann auf globaler Ebene ein einzelnes Unternehmen betreffen oder auch in Richtung Mittelstand gedacht direkt die Kooperation über die unterschiedlichen Branchen hinweg erst ermöglichen. Dabei kann der Data Integration Hub Teil eines öffentlichen Netzwerkes sein oder aber auch sich einer privaten Verbindung bedienen, damit die Daten sicher und kontrolliert ausgetauscht werden können. In einigen Branchen, beispielsweise der Automobilindustrie, gibt es bereits Ansätze, die in diese Richtung gehen. Jedoch wird der Data Integration Hub aufgrund der Entwicklungen im IoT-Umfeld branchenübergreifend und global benötigt werden. Im nächsten Schritt werden sich dann auf Basis der Data Integration Hubs Marktplätze für Daten etablieren, die dann Lizenzen für die Nutzung von Daten ermöglichen.

Aktuelle Technologie-Themen:

Aktuelle Artikel im Überblick:

Aktuelle Artikel im Überblick:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Events

Aktuelle Podcasts im Überblick:

Aktuelle Webcasts im Überblick:

Aktuelles aus den Hot Topics auf COMPUTERWOCHE: -Anzeige-

Big Data

Big Data

Datenstrategien der Zukunft

Die 5 wichtigsten Datentrends 2017

1. Edge Analytics

2. Machine Learning und Künstliche Intelligenz

3. Data Integration Hubs

Aktuelle Technologie-Themen:

Aktuelle Artikel im Überblick:

Aktuelle Artikel im Überblick:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Events

Aktuelle Podcasts im Überblick:

Aktuelle Webcasts im Überblick:

Aktuelles aus den Hot Topics auf COMPUTERWOCHE: -Anzeige-

Aktuelle Technologie-Themen:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Big Data

Big Data

1. Edge Analytics

2. Machine Learning und Künstliche Intelligenz

3. Data Integration Hubs

Per E-Mail versenden

Artikel als PDF kaufen

Über den Autor