Big Data ist ein aktueller IT-Hype. Und Big Data ist das Versprechen an die Anwender, ihre Geschäftsprozesse signifikant zu verbessern. Wie stets bei jungen Technologien, für die noch keine Business Cases auf breiter Basis vorhanden sind, gibt es aber auch eine Menge Unsicherheit, ob und wie man sich dem Thema annähern soll. Für unsere amerikanische Schwesterpublikation CIO.com beantwortet Reda Chouffani die vier wichtigsten Fragen in diesem Zusammenhang. Chouffani ist Vice President beim Anbieter Biz Technology Solutions, der Unternehmen in den südöstlichen USA mit Business Intelligence (BI), Enterprise Resource Planning (ERP) und IT-Infrastruktur ausstattet.
1. Welche Daten kommen in Frage?
Chouffani klärt erst einmal über die drei verschiedenen Datenformate auf. Erstens strukturierte Daten, die so aufbereitet sind, dass sowohl Rechner als auch Menschen sie lesen können – zum Beispiel das Material einer relationalen Datenbank. Zweitens halbstrukturierte Daten, denen es an einer solchen formalen Struktur fehlt, die aber dennoch Tags enthalten, die semantische Elemente separieren. Der Autor nennt als Beispiele XML, E-Mail und Electronic Data Interchange (EDI). Drittens unstrukturierte Daten wie Bilder, Videos und Audio-Dateien, die nicht Teil von Datenbanken sind.
„Die dringlichste Herausforderung ist die Notwendigkeit, diese Daten freizugeben und Zugang zu ihnen zu gewinnen, um sie speichern und verwenden zu können“, so Chouffani. Dabei könnten die Daten im Rohzustand verbleiben und zugleich in Echtzeit ins Analyse-System einfließen, wo sie analysiert werden und als Basis für Berichte dienen können. Bei strukturierten Daten verlaufe dieser Prozess recht geradlinig; bei unstrukturierten Daten seien fortgeschrittene Algorithmen und starke Engines nötig.
2. Wie werden die Daten gesammelt?
Der Autor verweist auf eine ganze Fülle von Datenquellen. Zu entscheiden sei, welche Daten tatsächlich benötigt werden. Eine der meistdiskutierten Quellen sei Social Media, weil Firmen sich Erkenntnisse über ihre Kunden und ihre Marken erhoffen. In Frage kommt dieses Material deshalb, weil Facebook, Twitter und andere große Social Media-Seiten in der Regel durch ein Application Programming Interface (API) Zugang zu dieser Sorte Daten gewähren.