Analytics und Big Data

Diese Data Buzzwords sollten Sie kennen!

14.07.2016
Von 
Wolfgang Herrmann ist IT-Fachjournalist und Editorial Lead des Wettbewerbs „CIO des Jahres“. Der langjährige Editorial Manager des CIO-Magazins war unter anderem Deputy Editorial Director der IDG-Publikationen COMPUTERWOCHE und CIO sowie Chefredakteur der Schwesterpublikation TecChannel.
Big Data, Fast Data, Small Data, Dark Data – der Hype um die datengetriebene Wirtschaft spült immer mehr Buzzwords in die Diskussion. Doch was verbirgt sich wirklich dahinter? Unser Glossar erklärt die wichtigsten Begriffe.

In der Datenwirtschaft herrscht Goldgräberstimmung. Rund um die Hype-Themen Big Data und Analytics haben sich unzählige Hersteller, Berater und Analysten positioniert. In Marketing-Broschüren, Studien oder "Analyst Views" verfallen sie in einen Fachjargon, der mit neuen Begriffen gespickt und selbst für Insider manchmal kaum noch verständlich ist. Eines haben diese "Data Buzzwords" gemeinsam: Eine klare Definition sucht man meist vergebens. Unser Glossar bringt Licht ins Dunkel und erklärt die wichtigsten Begriffe, die IT- und Business-Entscheider kennen sollten.

Noch mehr Informationen finden Sie in unserer Big Data FAQ!

Buzzword-Bingo oder neuer technischer Fachbegriff? Anbieter und Experten machen es Big-Data-Interessierten nicht leicht.
Buzzword-Bingo oder neuer technischer Fachbegriff? Anbieter und Experten machen es Big-Data-Interessierten nicht leicht.
Foto: Fabrik Bilder - shutterstock.com

Fast Data

Das Buzzword mit der gefühlt höchsten Wachstumsrate heißt derzeit "Fast Data". Gemeint sind damit Daten, deren Nutzwert mit der Zeit abnimmt, erläutert Tony Baer, Principal Analyst beim amerikanischen Beratungsunternehmen Ovum. Er habe den Begriff bereits 2012 geprägt, wirft sich der Experte in die Brust. Im Prinzip geht es dabei etwa um Twitter Feeds und Streaming Data, die in Echtzeit erfasst und ausgewertet werden müssen. Auf diese Weise lassen sich unmittelbar Entscheidungen treffen oder Reaktionen anstoßen. Im Finanzsektor beispielsweise verlassen sich Trader auf komplexe Algorithmen für Realtime-Analysen. Auch der Hochfrequenzhandel würde ohne Fast Data nicht funktionieren.

Ermöglicht wurde der Siegeszug von Fast Data durch immer größere Bandbreiten, günstige Standardhardware und Realtime-Analytics-Systeme, so der Ovum-Experte. Für Nik Rouda, Senior Analyst bei der Enterprise Strategy Group, kann sich der Begriff auf mehrere Aspekte beziehen: schnelle Datenerfassung etwa, Streaming, schnelle Datenaufbereitung oder schnelle Analyse und User Response. "Zum größten Teil ist das Marketing-Hype", urteilt Rouda, doch der Fachbegriff zeige auf unterschiedliche Weise, wie wichtig das Thema Geschwindigkeit in diesem Umfeld sei.

Slow Data

Am anderen Ende der Skala findet sich "Slow Data". Wie der Name andeutet, handelt es sich um Daten, die in geringerem Tempo entstehen und in der Regel keine unmittelbare Analyse erfordern. Ovum-Analyst Baer nennt als Beispiel ein Monitoring-System für Meeresgezeiten. In den meisten Fällen bedarf es keiner Realtime-Updates. "Gelagert" werden Daten dieser Kategorie entsprechend eher in einem Data Lake für eine spätere Batch-Verarbeitung.

Small Data

"Small Data" ist "alles, was auf einen Laptop passt", sagt Gregory Piatetsky-Shapiro, Chef der Analytics-Beratungsfirma KDnuggets. Für Rouda macht der Begriff deutlich, dass viele Analysen noch immer anhand von wenigen Datenquellen gefahren werden, häufig auf einem Laptop mit leichtgewichtigen Apps - nicht selten schlicht mit Excel.

Medium Data

"Medium Data" liegt irgendwo zwischen den Extremen. Geht es um viele Petabyte an Daten, die mit Technologien wie Hadoop oder MapReduce analysiert werden, handelt es sich um Big Data, erläutert Baer. Viele analytische Probleme drehten sich aber gar nicht um Datenmengen im Petabyte-Bereich. Gehe es also eher um "mittelgroße" Datenbestände, die sich etwa mithilfe von Apache Spark auswerten lassen, handele es sich um Medium Data.

Dark Data

Dark Data beschreibt typischerweise Informationen, die übersehen oder zu wenig genutzt werden. "Man weiß nicht, dass sie vorhanden sind, wie darauf zugegriffen werden kann oder es gibt keine Erlaubnis für einen Zugriff", erklärt Rouda die verschiedenen Szenarien. In einigen Fällen gebe es schlicht noch keine Systeme für die Analyse. "Viel zu oft" finde sich Dark Data in klassischen Datenbanken, Data Warehouses und Data Lakes.

Derart zugangsbeschränkte oder unzureichend dokumentierte Datenbestände werden häufig als "Dark Web" bezeichnet, so Ovum-Experte Baer. Um Licht ins Dunkel zu bringen, brauche es in der Regel Data Discovery Services, die oft auf Machine-Learning-Konzepte zurückgreifen.

Dirty Data

Der Begriff Dirty Data ist in gewisser Weise wörtlich zu verstehen. Denn er beschreibt schlicht Datenbestände, die noch keinen Clean-Up-Prozessen unterzogen wurden. "Es liegt in der Natur der Sache, dass Dinge solange schmutzig sind, bis sie jemand reinigt", erklärt Baer. "Clean" seien Daten also erst, wenn sie diverse einschlägige Routinen durchlaufen hätten. Rouda zählt zu diesen Clean-Up-Prozessen beispielsweise Datenaufbereitung, -anreicherung und -transformation.