Mess- und Felddaten effizient analysieren

Big Data in der Auto-Entwicklung

30.04.2019
Von 
Valerio Zanetti-Überwasser ist System Architect Technology & Innovation bei T-Systems.

Integrierte Entwicklungs- und Simulationsplattform

Gilt es, Simulationen effizient durchzuführen, ohne Daten und Orchestrierungscode zu duplizieren, ist nicht nur die Überbrückung von Distanzen, sondern auch von Systemgrenzen entscheidend. Die Re-Simulation muss nahtlos von numerischen zu physikalischen Simulationen auf Hardware-in-the-Loop-Verfahren (HILs) und Testbeds erfolgen. Übergreifende Orchestrierung und durchgängige semantische Modelle bilden die Grundlagen für eine solche integrierte Entwicklungs- und Simulationsplattform. Die nahtlose Einbettung von Entwicklungs- und Testpipelines durch die Optimierung von Datenflüssen reduziert Zeit und Kosten, um Ergebnisse zu erzielen.

Technisch gesehen ist auch das Auslesen von Daten eine Herausforderung. Signaldaten lassen sich bis dato nur schlecht komprimieren und effizient interpretieren, da sie sich nicht in handlichere Ausschnitte teilen lassen. Wäre das möglich, könnten viele Rechner parallel die Einzelteile auswerten und am Ende könnte ein Rechner die Ergebnisse einfach zusammenfügen. Mit einem ganzen Rechnerstapel (Cluster) und parallel arbeitender Software läge das Ergebnis nach wenigen Sekunden vor.

Ein solches Verfahren konnte aber in der Automobilentwicklung bislang nicht angewandt werden, da maschinelle Signale variable, situationsabhängige Codierungen verwenden. Klassische Dekodierungsverfahren haben damit Schwierigkeiten und skalieren nicht im benötigten Ausmaß.

Mit dem parallel arbeitenden softwarebasiertenSignalverarbeitungsverfahren (Big Data Signal Processing) können dagegen Logger- und Tracefiles aus den Fahrzeugen normalisiert und dekodiert werden. Die Signalkanäle (etwa Traces, Videos oder Logs) werden dabei rekombiniert, gefiltert und rekodiert - wiederum horizontal skalierbar.

Ein interessanter Nebeneffekt ist die verlustfreie Kompression für Kanäle mit geringer Änderungsrate, beispielsweise Flags. Testdaten können schnell und komprimiert abgespeichert und verarbeitet werden, auch in der Cloud. Das Big Data Signal Processing kann ohne Informationsverlust Daten dekodieren, komprimieren, rekombinieren, verschneiden, filtern, mathematische Operatoren anwenden. Dies ist gleichzeitig auf allen Rechnerkernen eines bereitgestellten Clusters möglich.

Die in der Praxis erzielte Geschwindigkeit ist 40-mal höher als bei bisherigen Verfahren. Die gespeicherte Datenmenge schrumpft dabei je nach gemessenen Kanälen auf bis zu zehn Prozent des ursprünglichen Volumens.

Einfache Datenanalyse, Machine Learning oder KI

Neben der Geschwindigkeit stellt sich im Zusammenhang mit der Analyse von großen Datenmengen auch die Frage nach der Qualität der Auswertung. So bekommen heute selbst einfache Analysealgorithmen gern den KI-Stempel aufgedrückt. Dabei handelt es sich beim maschinellen Lernen, der aktuell am meisten genutzten Form der Datenanalyse, meist ausschließlich um eine Korrelation von Daten. Ein Algorithmus erkennt dabei Muster und Gesetzmäßigkeiten in den Lerndaten. Das sogenannte "Lernen" basiert auf der Errechnung bedingter Wahrscheinlichkeiten. Auch wenn die erzielten Resultate beeindruckend sind, hat das mit "Intelligenz" nichts zu tun.

Für eine wirklich maschinelle Intelligenz sollten Werkzeuge genutzt werden, die kausales Denken ermöglichen. Damit sind Modelle gemeint, die Entscheidungen nachvollziehbar machen. Die Qualität der Analyse lässt sich in drei Schritten verbessern.

Der einfachste Level ruft rein statistische Beziehungen auf. Ein einfaches Beispiel: Die Tatsache, dass ein Kunde ein schwarzes Auto kauft, erhöht die Wahrscheinlichkeit, dass er auch schwarze Ledersitze haben will. Bedingte Wahrscheinlichkeiten lassen sich durch Auswertung großer Datenmengen errechnen und stellen eine Assoziation zwischen zwei Beobachtungen her.

Auf der zweiten Stufe der Intervention geht es darum, nicht nur zu sehen, was ist, sondern auch die Frage nach dem Warum zu beantworten: "Hat der Kunde schwarze Ledersitze gekauft, weil er ein schwarzes Auto gekauft hat?"

die dritte und oberste Ebene ist die kontrafaktische Ebene: "Was passiert, wenn der Preis verdoppelt worden wäre?" Solche Fragen können nicht allein aus den Korrelationen der Verkaufsdaten beantwortet werden, da sie eine Änderung des Kundenverhaltens als Reaktion auf die neue Preisgestaltung mit sich bringen.

Durch Kenntnisse datengenerierender Prozesse oder durch kausale Modelle ließe sich so etwas wie Maschinenintelligenz konstruieren und funktionsfähige Objekte erzeugen, die nachvollziehbare Aktionen auslösen. Sogenannte "Black Box"-Algorithmen, die rein auf Korrelation basieren, entziehen sich einer Kommunikation über deren inneren Entscheidungsvorgang. Erst die Verwendung kausaler Inferenz mit entsprechenden kausalen Modellen ermöglicht Transparenz bei automatisierter Analyse.

Simulation und Absicherung

Ständig wachsende Datenmengen zu analysieren, erfordert einen hohen Automatisierungsgrad. Automatisierung bedeutet hier ohne ständigen Eingriff eines Operators. Aktuelle Standards helfen zudem, manuelle Übersetzungsschritte einzusparen, um den Entwicklungsprozess zu beschleunigen. Ausführbare Modellbeschreibungen lösen dabei die deskriptive Modellierung ab. Auf diese Weise kodierte Modelle erfüllen einen doppelten Zweck: Sie dienen als Dokumentation und gleichzeitig als Grundlage für die Simulation.

Um eine funktionszentrierte Entwicklung von Fahrzeugen und Komponenten zu ermöglichen, bedarf es einer nahtlosen Koppelung digitaler Modelle und physikalischer Simulationen ("HIL", "SIL", "MIL", "Prüfstand") um zeitnah neue oder geänderte Fahrzeugfunktionen zu testen und zu simulieren. Die nahtlose Verbindung digitaler und physikalischer Ressourcen (Co-Simulation) wird durch standardisierte Protokolle und Simulationsframeworks, einer systemübergreifenden Orchestrierung sowie einem parallel skalierbaren Persistenz-Layer ermöglicht.

Um den Entwicklungsprozess nicht durch den Datentransport zu verzögern, werden Simulationen an verteilten Standorten ausgeführt. Parallel dazu erfolgt asynchron die Datenzentralisierung um retrospektive Simulationen auf Basis eines konsolidierten Datenbestandes ausführen zu können.