Wide Area Storage als Big-Data-Infrastruktur

Big Data – Daten richtig speichern

02.09.2013
Von 
Frank Herold blickt auf 15 Jahre Erfahrung in der IT- und Speicherbranche zurück. Bei Quantum leitet er den Bereich Consulting für die gesamte Produktlinie im EMEA-Raum. Bis zur Fusion mit Quantum war er bei ADIC etliche Jahre als Consultant, Senior Consultant und als Manager Presales tätig. Vor seiner Zeit bei ADIC verantwortete diplomierte Maschinenbau-Ingenieur in einem deutschen Softwarehaus die Bereiche Entwicklung und Support.

Object Storage alles austariert?

Objektspeicher bieten einen völlig anderen Ansatz für das Storage Management. Während traditionelle Storage-Systeme Daten in einem hierarchischen Verzeichnis für Ordner und Dateien darstellen, präsentiert Object Storage Daten in einem flachen Objekt Namensraum (Namespace) aus einfachen Schlüsselworten- und Wertepaaren. Dieser Ansatz ermöglicht Administratoren digitale Datensätze fast grenzenlos zu skalieren.

Die Verarbeitung der Daten geschieht mittels einfacher Netzwerk-basierter Protokolle wie HTTP. Auf diese Art kann der Datenabruf an hochperformante Netzwerk-Switches und Router ausgelagert werden, mit dem Effekt, dass Daten ohne jeglichen virtuellen "Overload" über zahlreiche Storage Knoten verteilt werden können. Zudem kann die Kapazität der Systeme ohne Ausfallzeiten, Leistungseinbußen, Umbauten oder Migrationsmaßnahmen erweitert werden.

Ein weiterer Vorteil der Netzwerk-freundlichen Protokolle und der Verteilungslogik ist die einfache Übermittlung von Daten an unterschiedliche Rechenzentren rund um den Globus. Während der Datenzugriff über lange Distanzen ganz automatisch Latenzen mit sich bringt, wurden die Netzwerkprotokolle von Object-Storage-Systemen für lange Distanzen optimiert, inklusive Netzwerk-Level Kompression, geographischer Lastausgleich und lokalem Caching.

Sicherungsalgorithmen: Erasure Codes

Während Algorithmen der ersten Object-Storage-Generation bereits über einfache Formen der Datensicherung mittels gleichzeitiger Datenkopien über drei oder mehr Knoten verfügen, sind jüngere Implementierungen mit deutlich raffinierteren Sicherungsalgorithmen ausgestattet. Bekannt sind sie unter dem Namen "Erasure Codes". Die Weltraumkommunikation nutzt sie seit Jahrzehnten, um die Integrität der Kommunikationsübertragung zu wahren.

Wo RAID Daten in eine feste Anzahl von Datenblöcken und Prüfsummen trennt, konvertieren die Algorithmen Daten in feste aber gänzlich unterschiedliche Codes, die für die Speicherung getrennt und während des Abrufs wieder zusammengesetzt werden. Da jeder Code einmalig ist, kann eine beliebige Untermenge an Codes verwendet werden, um die Daten wiederherzustellen. Diese Algorithmen ermöglichen Regelwerke, die vor dem Ausfall von Disks, Knoten oder sogar ganzen Rechenzentren schützen - auf einem einzigen System und mit weit weniger Verlust an Redundanzen als bei RAID- oder Replikationslösungen. Datenintegrität wird hier stärker durch individuelle Codes als durch ganze Disk-Reihen geschaffen mit individuell anpassbaren Sicherungsgraden in ein und demselben Storage System.

Unternehmen können ihre Regeln für die Langlebigkeit von Daten entsprechend ihren unterschiedlichen Anforderungen an die Datensicherung anpassen - ohne Hardware-Änderungen und ohne Daten aus dem System zu kopieren.

Grenzen reiner Object Storage Lösungen

Object Storage verhält sich ähnlich wie der Parkservice in einem schicken Hotel. Das Auto wird komfortabel von einem Angestellten geparkt und der Angestellte weiß genau, wie er die Autos parkt, um den vorhandenen Parkraum bestmöglich auszunutzen. Das Parkticket ist dabei der Schlüssel, um sein Auto wiederzubekommen. Verliert man sein Parkticket, muss man mindestens seine Autopapiere samt Ausweis vorzeigen, um sich als Eigentümer auszuweisen.

Was das Parkticket beim Auto ist, ist die Anwendung bei Objektspeicher. Alternative Formen, um die Daten anzusprechen (beispielsweise Pfade, Suchindex) müssen von der Anwendung außerhalb des Objektspeichers gelagert werden. Das macht es sehr schwer, Daten über mehrere Anwendungen zu teilen, so lange sie nicht denselben Objekt-Index nutzen. Auch eine ad hoc-Nutzung von Daten durch den Nutzer wird durch den Schlüssel-Mechanismus enorm erschwert, denn die Daten können nicht über eine gewöhnliche Datei- und Ordnerstruktur aufgerufen werden. Erschwerend kommt hinzu:

  • Objektspeicher sind nicht kompatibel mit den am schnellsten wachsenden Datensegment - den unstrukturierten Daten.

  • Drastisch, aber nicht unberechtigt: Object-Storage-Systeme sind den zugrundeliegenden Anwendungen in Bezug auf Dateizugriff und Information Lifecycle Management ausgeliefert.