Der Datawarehouse- und Analytics-Spezialist Teradata gab auf seiner jüngsten Hausmesse in Nashville, im US-Staat Tennessee, einen Überblick über die aktuelle Situation beim Umgang mit Big Data sowie den zugehörigen Technologien und Anwendungen. Der diesjährige Kunden-Event wurde von über 4000 Teilnehmern besucht. Interessanterweise kamen erstmals mehr Besucher aus dem Marketing und anderen Fachbereichen, als aus dem IT-Sektor. "Das Interesse an Big Data und der zugehörigen Wertschöpfung steigt in allen Business-Bereichen rasant an", sagte Teradatas CEO Mike Koehler gleich zu Beginn seiner Eröffnungsrede. "Daten-getriebene Unternehmen" nennt er das und dabei verweist er auf immense Einsparungen beim Predictive Maintenance, bei Rückrufaktionen oder bei deutlich effizienteren Werbekampagnen. Laut Koehler sind Daten-getriebene Unternehmen fünf Prozent produktiver und sechs Prozent profitabler als ihre Konkurrenten.
Eines der bedeutendsten Analyse-Tools im Teradata-Produktportfolioist die "Open Distribution für Hadoop" (siehe etwa Hadoop mischt den Big-Data-Markt auf). Das wurde auf der Veranstaltung besonders deutlich, in dem man auf die jüngst eingegangene Partnerschaft mit Cloudera einging und insbesondere den verbesserten Vertrieb sowie die vereinfachte Installation und Nutzung von Hadoop betonte. Hierzu wurde Teradatas Integrated Datawarehouse mit Clouderas Enterprise Data Hub integriert. Der Zugriff erfolgt dann über Teradatas Unified Data Architecture (UDA).
Im Gegensatz zum vorigen Jahr standen diesmal die Cloud-Lösungen nicht im Zentrum der Diskussionen. Abgesehen von Teradatas Marketing-Cloud erscheint das Markt-Interesse an der vor einem Jahr groß angekündigten Datawarehouse-Cloud nicht besonders hoch zu sein. Sowohl Firmenvertreter als auch Kunden und Analysten sehen diese Nutzungsform nur für Nischen oder als Test-Umgebung - nicht aber für datenintensive Produktionsumgebungen.
Startup will Teradata Konkurrenz machen
Ob das nur für das Teradata-Angebot gilt, oder den gesamten Markt betrifft, muss sich zeigen. In jedem Fall gibt es neue Unternehmen, die genau dieses Geschäft erschließen möchten und im Cloud-basierenden Datawarehouse-Business ihre Zukunft sehen. Ein Bespiel dafür ist das junge Unternehmen Snowflake, das - Zufall oder nicht - zeitgleich zum Teradata-Event eine entsprechende Plattform vorgestellt hat. CEO von Snowflake ist Bob Muglia, den viele noch aus seiner Zeit als Executive Vice President bei Microsoft kennen. "Wir haben viele OpenSource-Lösungen zu einem Cloud-Angebot zusammengeschnürt mit dem wir jetzt ein effizientes ‚Datawarehouse-as-a-Service‘ anbieten können", sagte er bei der Neuvorstellung seiner "Elastic-Datawarehouse-Lösung".
Einheitliches Query über unterschiedliche Systeme hinweg
Aber auch bei Teradata gab es viel Neues. So hat das Unternehmen jetzt neue Data-Fabric-Möglichkeiten zu seinem QueryGrid-Angebot hinzugefügt. Damit können Queries über verschiedene Plattformen hinweg ausgeführt werden. Laut Teradata wird damit eine wichtige Lücke bei den Integrations-Bemühungen von Big-Data-Lösungen geschlossen. "Unser QueryGrid erlaubt den Usern einen friktionslosen Zugriff auf das gesamte Data-Fabric", sagte Teradatas Entwicklungs-Chef Scott Gnau in seiner Keynote. Das Data-Fabric würde außerdem den Fokus auf den Business-Aspekt verschieben, da sich der User keine Gedanken mehr über die darunter befindliche Technologie mehr machen muss. "Jetzt lassen sich alle Systeme unseres Portfolios, aber auch alle Technologien und Dienste von Drittanbietern als eine einzige Plattform abbilden", erläuterte Gnau das neue Feature.
Umfangreicher Einstieg in die Cybersicherheit
Eine weitere Ankündigung waren die sogenannten "Connection Analytics". Dahinter verbirgt sich eine vorkonfigurierte Analyse-Software, mit der sich Daten-bezogene Relationen zwischen Personen, Produkten und Prozessen entdecken und auswerten lassen. Das Paket basiert auf der Aster-Discovery-Plattform; verfügt aber über mehr als 100 zusätzliche Algorithmen. Die Zielgruppe dafür ist vor allem das Marketing, das mit dieser Software beispielsweise Trendsetter und Meinungsbildner identifizieren kann, um diese dann zielgerichteter und effizienter anzusprechen. Aber auch unzufriedene Kunden lassen sich damit besser aufspüren, um sie dann mit geeigneten Angeboten zur weiteren Shoppingtreue zu bewegen. Laut Gnau verfügt das Paket über eine State-of-the-Art-Technology, zu der auch selbstlernende Algorithmen gehören.
Ein wichtiger Bestandteil von Connection Analytics sind Teradatas neue Anstrengungen auf dem Gebiet der Cyber-Sicherheit. So nutzt das Unternehmen jetzt sein Analytics-Knowhow, um mit den Connections Analytics auch Cyber-Attacken zu entdecken. Dabei wird der Traffic auf einem Netzwerk nach verdächtigen Abläufen und irregulären Kommunikationen beobachtet. Über entsprechende APIs können dann übergeordnete Systeme informiert und alarmiert werden.
Optimieren am gestaffelten Storage und am Data-Processing
Zudem wurden auch eine Reihe an Verbesserungen für die Datenbank 15.10 vorgestellt, die im Wesentlichen ein Verbessertes Pipelining der Daten sowie neue Algorithmen zur In-Memory-Optimierung bietet. Im Gegensatz zu SAPs Hana oder auch der In-Memory-Struktur von Terracotta, setzt man bei Teradata nicht darauf, dass alle Daten In-Memory gehalten werden müssen. Stattdessen arbeitet man mit Storage-Ebenen, bei denen nur rund 20 bis 30 Prozent aller Daten In-Memory sind. "Alle unsere Messungen zeigen, dass nur rund ein Viertel aller Daten ‚heiß‘ sind - und nur diese müssen im direkten Speicherzugriff sein", sagte Teradatas Produkt-Marketing-Chef Chris Twogood. Das Problem dabei ist jedoch, dass sich die "Datentemperatur" schnell ändern kann: "Was derzeit heiß ist, kann in wenigen Sekunden eiskalt sein", sagt deren Chef-Technologe Stephen Brobst. Entsprechend wichtig sind deshalb die Algorithmen, nach denen die Daten ausgetauscht werden. Das erklärt auch, warum Teradata hierauf ein besonderes Augenmerk legt.
Darüber hinaus arbeitet Teradata mit Intel zusammen, um die Verarbeitungs-Geschwindigkeit von großen Datenmengen schon auf Prozessor-Ebene zu beschleunigen. Laut Brobst arbeitet man an Prozessoren mit massiven Registern, bei denen die Daten in Form eines Vektor-Prozessors abgearbeitet werden. Diese einst bei den ersten Cray-Supercomputern eingesetzte Struktur ist in der Tat erheblich schneller als die serielle Verarbeitung nach der Von-Neumann-Architektur. Das große Problem dabei ist jedoch, dass die gesamte darauf laufende Software neu geschrieben werden muss, und dass sich nicht alle Programme für eine vektorielle Abarbeitung eignen. (jha)