Fragen Sie doch beim nächsten Gesundheits-Check einmal Ihren Arzt, welche Erkrankungen mithilfe eines großen Blutbildes gefunden werden? Die Antwort wird sein, dass es weitgehend nur Informationen über Abweichungen von der Norm liefert und die Ergebnisse durch einen erfahrenen Experten interpretiert werden müssen. Wer sich undefiniert schlecht fühlt, bei dem sucht der Arzt nach Mustern um hoffentlich die Ursache zu bestimmen. Wer mit einem konkretem Verdacht zum Arzt geht - also die Frage schon kennt - bei dem werden gezielt Diagnosedaten erhoben. Genauso verhält es sich mit Big Data Projekten.
In der großen Bandbreite von Big Data Projekten lassen sich zwei grundsätzlich verschiedene Typen identifizieren:
-
Projekte die mithilfe von Mustern in den Daten Erkenntnisse über bisher unbekannte Zusammenhänge finden sollen und
-
Projekte bei denen die "Fragen an die Daten" bekannt sind und lediglich deren Auswertung anspruchsvoll ist.
Der erste Fall ist Forschung. Verbunden mit allen Eigenschaften, die Forschung mit sich bringt. Sie ist häufig teuer, erfordert viel Zeit und verwertbare Ergebnisse sind nicht garantiert. Der zweite Fall ist "nur" Auswertung.
Externe Informationen sind besser als externe Daten
Als im Juni 2013 ein Lastwagenfahrer aus Nordrhein-Westfalen unter dem Verdacht festgenommen wurde seit Jahren Schüsse auf Fahrzeuge abgegeben zu haben, wurden Big Data Analysen als ein zentrales Fahndungsinstrument genannt. Das BKA hatte auf Autobahnen systematisch Kennzeichen erfasst und nach Beziehungen zu Tatorten und Tatzeiten gesucht. Dabei lagen "nur" zwei der drei von Gartner genannten Kriterien eines Big Data Projektes vor. Es handelte sich um ein Analyseprojekt in dem Daten in hohem Volumen (Volume) anfielen und deren Verarbeitung bei der Erfassung mit hoher Geschwindigkeit (Velocity) erfolgte.
Das dritte Gartner-Kriterium, dass Daten in hoher Vielfalt (Variety) vorliegen müssen und das vierte - von einigen Beratern und Softwareanbietern zusätzlich genannte - Kriterium der Zuverlässigkeit der Daten (Veracity) spielte bei der Analyse keine Rolle.
In der vom BKA durchgeführten Auswertung war die Frage an die Daten von vorneherein klar. Welche Nummernschilder wurden in zeitlichem Bezug zu neuen Tatorten wiederholt erfasst? Eine hohe Vielfalt in der Struktur der Daten lag nicht vor, waren doch "nur" Nummernschilder in eine maschinenlesbare Form zu überführen. Kompliziert genug, aber im Grunde eine bereits gelöste Anforderung. Auch wurde nicht grundsätzlich an der Verlässlichkeit der Daten gezweifelt. Das BKA hätte in diesem Fall neben der digitalen Erfassung für jedes Fahrzeug untersuchen müssen, ob es zum Tatzeitpunkt wirklich vor Ort war. Also nicht nur für gehäuft auftretende Nummernschilder, sondern für jedes Fahrzeug.
Forschung oder "nur" Auswertung macht den Unterschied. In den meisten Big Data Projekten stecken Anteile von beidem. Interessant ist aber, dass oft der Anteil der Daten bei denen eine hohe Vielfalt vorliegt oder deren Zuverlässigkeit nicht gesichert ist aus fremden Quellen stammt. In diesen Fällen ist es besser, auf bereits aufbereitete Informationen als auf Daten zu setzen.
Daten – Informationen – Wissen
Werden digitale Inhalte ausschließlich als Ansammlung von Zeichen betrachtet, handelt es sich um Daten. Erst dann, wenn einzelne Zeichen oder Kombinationen aus mehreren Zeichen eine Bedeutung für den Leser haben, wird aus Daten Information. Zum Beispiel wenn Buchstaben und Zahlen zusammen ein Telefonbuch darstellen. Das bedeutet aber noch nicht zwingend, dass die Information für den Leser einen entscheidungsrelevanten Wert besitzt. Erst wenn ein Telefonbuch benötigt wird, wird aus der Information im Telefonbuch Wissen. In diesem Fall das Wissen, zu welchem Namen eine Telefonnummer gehört.
Das Internet der Dinge wird uns Informationen liefern
Nehmen Sie das Beispiel Tesco. Im Jahr 2009 entschied das Management sechs Meteorologen zur besseren Vorhersage der Wetterentwicklung einzustellen. Sicher keine Kernkompetenz eines Handelsunternehmens. Ziel war es, Informationen über den Zusammenhang von Produkt- und Dienstleistungsverkäufen in Abhängigkeit bestimmter Wetterlagen zu erhalten. Der Grund für die fachfremde Investition war, dass Tesco den Vorhersagen des staatlichen Wetterdienstes in Großbritannien nicht mehr vertraute. Ein klarer Fall von fehlender Zuverlässigkeit der Daten aus externen Quellen.
Stellen Sie sich vor, es hätte sich nicht um Tesco gehandelt, sondern um ein mittelständisches Unternehmen. Zu klein um ein Team von Experten zur Selbsthilfe einzustellen, wenn eine externe Quelle nicht die gewünschte Datenqualität liefert. Das Unternehmen hätte auf verlorenem Posten gestanden. Genau an dieser Stelle wird in Zukunft die steigende Vielfalt externer Lieferanten von Informationen eine Alternative darstellen. Im Internet finden sich immer mehr fertig aufbereitete Inhalte zu nahezu jedem Thema. Häufig kostenfrei und in hoher Qualität.
Besonders das Internet der Dinge wird die Menge frei verfügbarer Inhalte weiter erhöhen. Medizinische Sensoren, Kühlschränke, Drucker, Strahlungssensoren und viele andere Geräte liefern bereits heute Inhalte. Und unter den vielen mit den Internet verbundenen Geräten sind auch: Wetterstationen. Häufig betrieben von privaten, nicht professionellen Nutzern, die dennoch eine erstaunlich gute Qualität liefern. Warum nicht diesen Vorrat an bereits aufbereiteten Daten nutzen, um zum Beispiel lokale Wetterdaten mit den eigenen Verkaufsdaten zu verbinden? Damit ließe sich ein Teil der "Big Data" Gleichung auslagern. Und zwar genau der Teil, der sich auf externe Daten bezieht. Daten, die selber oft nur mit hohen Kosten in ausreichender Qualität erzeugt werden können.
Überprüfen Sie einmal Ihre Big Data Projekte. Sie werden feststellen, dass je weiter ein Projekt von der einfachen Auswertung - wie im BKA Beispiel - entfernt ist, die Daten mit hoher struktureller Vielfalt und unbekannter Zuverlässigkeit aus externen Quellen stammen. Was liegt näher als direkt Informationen von Experten zu beziehen, die über mehr Expertise verfügen und diese vielfach noch kostenfrei bereitstellen? In Zukunft werden immer mehr externe Quellen wertvolle Inhalte zur Verfügung stellen. Und in vielen Fällen werden sie kostenfrei sein. Sie müssen lediglich gefunden werden. Das Sammeln und Analysieren von Daten werden wir Experten überlassen, die sich ohnehin damit befassen. Warum sollten Sie als Unternehmen Wetterdaten sammeln, wenn es viele Hobby-Meteorologen gibt, die Informationen fertig aufbereitet zur Verfügung stellen?
Meine Prognose für die Zukunft ist, dass wir einen hybriden Zustand erreichen werden in dem immer mehr von Dritten aufbereitete Informationen mit den eigenen Daten verknüpft und kombiniert werden. Der Vorteil ist enorm. Wenn Probleme bereits gelöst wurden, warum das Rad noch einmal erfinden? Die günstigste Big Data Lösung ist die, bei der Sie möglichst viele Teile nicht selber bauen.
Daten im Internet der Dinge finden
Ein interessanter Ausgangspunkt um Datenquellen für Analysen im Netz zu finden ist der Katalog des Internet of Things: www.thingful.net. Auf einer Weltkarte können mit dem Internet verbundene Geräte gesucht werden. Vielleicht möchten Sie die Heizungsdaten die gerade in der Arvin Avenue in Barrington, Rhode Island USA eingestellt sind sammeln? Kein Problem, diese finden Sie unter https://xively.com/feeds/94437.
Wer genug Daten sammelt, ist in der Lage ein detailliertes Bild über das Heizungsverhalten der Haushalte einer Region zu erstellen. Ganz sicher, in Zukunft werden viele Internet-Nutzer anfangen Daten zu sammeln, auszuwerten und wieder im Netz einstellen. Ob wir dieses Szenario mögen oder nicht. Es wird Realität werden. Ein Problem besteht allerdings noch. Wie greifen wir am besten auf diese Vielfalt an Inhalten zu? Auch dafür hält das Netz etwas bereit.
Schauen Sie doch einmal unter http://www.computerwoche.de/a/nsa-zum-selberbauen,2554733. Je mehr Daten wir im Netz finden um so besser werden die Ergebnisse. Trotz der Diskussion um Datenschutz und Internet-Spionage, auf Thingful finden sich täglich mehr Geräte des Internet of Things. Diese Entwicklung ist nicht mehr aufzuhalten.