Die aktuellen Entwicklungen in den Bereichen Industrie 4.0 und Internet of Things (IoT) nutzen Daten, um Produktionsabläufe zu optimieren. Besonders interessant sind beispielsweise die Möglichkeiten, die Datenerfassung und -analyse für die Umsetzung von Predictive Maintenance bringen.
Predictive Maintenance für Cloud-Infrastrukturen
Wie lässt sich dieses Konzept auf IT-Infrastrukturen in lokalen Rechenzentren oder Cloud-Umgebungen übertragen? Besonders letztere wollen Flexibilität, Agilität und Hochverfügbarkeit bieten. Die Idee dahinter ist im Prinzip einfach: Jedes außergewöhnliche Ereignis – im Tenor der Maintenance sind hiermit Geräteausfälle, Überbelastungen oder externe Einwirkungen wie etwa Hacker-Angriffe gemeint – erzeugt charakteristische Daten. Zum Beispiel gehen einem Ransomware-Angriff ungewöhnliche Aktivitäten im Netzwerk voraus. Werden verschiedene Telemetrie-Daten der Hardware und der Umgebung in den richtigen Zusammenhang gebracht, sind solche Ereignisse vorhersagbar. Wenn kritische Ereignisse schon vor dem Eintreten erkannt und entsprechende Maßnahmen eingeleitet werden, kann der Impact auf den Betrieb minimiert werden.
Normal oder nicht?
Die Daten sind vorhanden: So bringen die meisten Hardware Devices bereits Sensoren mit, mit denen sich zahlreiche Zustands- und Funktionsdaten erfassen lassen. Solche Telemetrie-Daten sind etwa die Temperatur des Devices und der Umgebung, Latenzzeiten, Anzahl der Schreib- und Lesezugriffe, Logfiles und ähnliches. Ihre Erfassung ist das kleinere Problem. Vielmehr ist die Interpretation der Daten die Herausforderung. Nur weil die I/O-Rate sich kurzzeitig deutlich erhöht, muss dies noch lange kein Hacker-Angriff sein. Vielleicht verursacht ein regulärer Applikationstest völlig zurecht diese Zusatzlast. Und nur weil die Temperatur der Devices ansteigt, steht nicht zwingend deren Ausfall bevor. Möglicherweise arbeitet nur die Klimaanlage im Serverraum nicht richtig.
- Lars Schwabe (Associate Director bei Lufthansa Industry Solutions
„Die Erfolgsquote von Predictive-Analytics-Projekten ist gestiegen, da die Firmen endlich die notwendigen Vorarbeiten geleistet haben, beispielsweise die Schaffung von modernen Datenarchitekturen. Außerdem sind inzwischen sowohl das Personal fachkundiger und die Tools besser geworden." - Daniel Eiduzzis (Solution Architect Analytics bei Datavard)
„Technisch müssen sich die Unternehmen öffnen und sollten sich nicht sklavisch einem Hersteller verpflichten. Heute geht es vielmehr darum, in Abhängigkeit vom jeweiligen Use Case das ideale Instrument zu identifizieren, mit dem die Fragestellungen bestmöglich bedient werden. Daher kann ein Best-of-Breed Ansatz hier sinnvoll sein.“ - Jan Henrik Fischer (Bereichsleiter Business Intelligence & Big Data bei Seven Principles)
„Mit Methoden der Predictive Analytics und der parallel weiter steigenden Digitalisierung werden wir Prozesse besser verstehen. Dies wird ausnahmslos alle Bereiche eines Unternehmens betreffen. Das größte Potenzial liegt dabei sicherlich in der Optimierung der Kundenprozesse. Durch ein tieferes Verständnis für seine Bedürfnisse werden wir in der Lage sein, den Kunden effizienter und besser zu bedienen sowie seine Loyalität zu steigern.“ - Vladislav Malicevic (Vice President Development & Support bei Jedox)
„Viele Unternehmen experimentieren bereits seit längerem mit Predictive Analytics. Bislang mangelte es oft an konkreten Anwendungsfällen mit einem klaren Mehrwert, dem sogenannten Business Case. Aber die nächste Phase im Technologie-Lebenszyklus hat bereits begonnen, und Firmen führen nicht mehr nur rein innovationsgetriebene Experimente durch. Sie verknüpfen Predictive-Analytics- und KI-Projekte zunehmend mit einem bereits im Vorfeld klar definierten Mehrwert für bestimmte Fachbereiche oder Geschäftsprozesse, inklusive der erwarteten Ergebnisse und den möglichen Auswirkungen auf bisherige Prozesse.“
Lesetipp: Im Kopf des Bösen - So denken und handeln Hacker
Das bedeutet, das System muss zunächst lernen, was „normal“ im Sinne des Betriebes ist und was nicht. Denn diese Anomalien einfach vorab zu definieren, ergibt in der Praxis wenig Sinn – zu vielfältig sind die Möglichkeiten und Abhängigkeiten.
Damit der Algorithmus lernen kann, müssen Features gesetzt werden. Das sind die Attribute, die in irgendeiner Weise Einfluss auf den Betrieb der Infrastruktur haben und auf die das Augenmerk gelegt werden soll. In der Realität führt dies zu einer schwierig zu überblickenden Komplexität. Im normalen IT-Betrieb gibt es zumeist Spezialisten für einzelne Softwaresysteme oder IT-Komponenten. Nun ist jedoch eine Definition gefragt, die den Normalbetrieb der ganzen IT-Landschaft beschreibt, die von allen integrierten Systemen – von Mail-Tools bis hin zu Produktionssteuerungs-Anwendungen – beeinflusst wird.
Ein Beispiel: Das System erfasst die zur Verfügung stehenden Metriken, wie etwa Netzwerkauslastung und Latenzzeiten. Weil das ERP-System nur zu bestimmten Zeiten Daten an das Produktionssystem übergibt, ist das zu übertragende Datenvolumen den ganzen Tag über eher gering und steigt am späten Abend plötzlich sprunghaft an. In diesem Fall ist dieser Anstieg ein normales Verhalten, was dem System als positives Ereignis markiert wird. Dazu wird idealerweise ein Wertekorridor definiert, der nicht überschritten werden darf. Das heißt: Der Anstieg des Traffics ist zwar normal, darf aber nicht zur Überlastung führen.
Das System speichert nun nicht nur den Wert der Datenübertragungsmenge als Ereignis ab, sondern auch alle anderen in diesem Moment gemessenen Metriken. Der Algorithmus lernt, welche Daten in welchem Zusammenhang etwas auslösen, das für den Betreiber von Bedeutung ist. Je mehr Features gesetzt und je mehr Ereignisse die Basis für die Dateninterpretation bilden, umso treffsicher sind die Vorhersagen des Algorithmus.
Lesetipp: Wer haftet, wenn die Maschine lernt?