Das Thema Big Data genießt derzeit bei vielen Unternehmen höchste Priorität. Insbesondere bei denen, die die sich der zentralen, geschäftskritischen Rolle von Daten bewusst sind. Dennoch ringen viele Firmen damit herauszufinden, welche Maßnahmen am besten geeignet sind, die Daten zu managen, analysieren und zu schützen - innerhalb einer modernen IT-Architektur, versteht sich. Wer dieses Thema außen vor lässt, riskiert ausgedehnte Ausfallzeiten und Datenverlust. Letzteres kann Unternehmen schnell einige Millionen Dollar kosten.
Big-Data-Plattformen wie Hadoop, Cassandra oder HPE Vertica werden - im Gegensatz zu traditionellen Plattformen wie etwa Oracle, oder SQL, die normalerweise der Kontrolle der IT-Abteilung unterstehen - in der Regel von Entwicklern oder DevOps gemanagt.
- Big Data
Unternehmen sollten sich im Klaren sein, welche Daten sie erfassen und welche Ergebnisse sie erzielen wollen. Für Big Data sollten möglichst viele bis alle Daten erfasst werden können. Im Gegensatz zu BI-Lösungen sollten sich Verantwortliche nicht in Nebensächlichkeiten verstricken, sondern immer das große Ganze sehen. - Big Data
Der Branchenverband BITKOM bietet eine kostenlose PDF-Datei, die als Leitfaden für Big Data-Projekte verwendet werden kann. - Big Data
Mit Hadoop und HDInsight in Microsoft Azure können Sie Big Data auch in der Microsoft Cloud betreiben. - Big Data
Um sich mit Hadoop und Big Data zu beschäftigen, ist HDInsight der schnellste Weg. Microsoft stellt für Entwickler eine Offline-Testumgebung für HDInsight zur Verfügung. - Big Data
Um Big Data-Lösungen zu nutzen, benötigen Sie in den meisten Fällen eine NoSQL-Datenbank, zusätzlich zu vorhandenen Datenbanken, beispielsweise MongoDB. - Big Data
Wer sich etwas mit Big Data bereits auseinandergesetzt hat und Lösungen in diesem Bereich einsetzt, kann die Umgebung mit weiteren Möglichkeiten erweitern. Auch hier steht eine Vielzahl an Opensource-Pridukten zur Verfügung, zum Beispiel Apache Giraph. - Big Data
Microsoft noch das kostenlose ebook „Introducing Microsoft Azure HDInsight“ zur Verfügung. Diese bietet einen idealen Einstieg in die Möglichkeiten von Big Data, HDInsight und Hadoop, auch für andere Plattformen. - Big Data
HBase kann als Datenbank für Big Data-Lösungen genutzt werden. Diese Technologie baut auf Google Big Table auf und kann sehr große Datenmengen speichern. - Big Data
Die meisten Unternehmen nutzen für die Verarbeitung von Big Data vor allem Hadoop-Distributionen oder Cloud-Lösungen. Die meisten Tools und Distributionen gehören zum Apache Projekt. Apache Mahout erlaubt eine bessere Verwaltung der Daten in Hadoop. - Big Data
Cloudlösungen bei Microsoft Azure, Google Cloud Platform oder Amazon Web Services, werden oft nach Datenvolumen berechnet und Berechnungsdauer. Entwickler sollten in die Abfragen und die Big Data-Anwendungen daher auch das Herunterfahren und Ausschalten von Big Data-Umgebungen einbeziehen.
7 Big-Data-Mythen bei Backup & Recovery
Speziell wenn es beim Thema Big Data um Maßnahmen zur Sicherung und Wiederherstellung von Daten geht, kommt es immer wieder zu konzeptionellen Missverständnissen - mit denen wir an dieser Stelle aufräumen wollen:
Mythos 1: Wer seine Daten mehrfach kopiert, braucht keine separaten Backup- oder Recovery-Tools für Big Data. Die meisten Big-Data-Plattformen fertigen mehrere Kopien der Daten an und distribuieren diese Kopien auf verschiedene Server. Dieses Vorgehen schützt die Daten bei Hardware-Fehlern oder -Ausfällen. Bei jeder anderen Art von Fehler - also beispielsweise Bedienfehler, versehentliche Löschungen oder Daten-Korrumpierung - droht hingegen der Datenverlust, weil sich genannte Fehler rasch auch auf die Kopien ausbreiten.
Mythos 2: Verloren gegangene Daten können schnell und einfach aus den Raw-Daten wiederhergestellt werden. Das funktioniert nur dann, wenn die Rohdaten auch vollständig vorhanden sind. In den allermeisten Fällen sind diese Daten aber entweder gelöscht oder nicht ohne Weiteres zugänglich. Und auch wenn die Rohdaten zur Verfügung stehen: Ein Datenverlust auf dem Level von Big Data wieder wett zu machen, kann Wochen dauern. Das wiederum frisst wertvolle Ressourcen und bedeutet ausgedehnte Ausfallzeiten für die Plattform-Nutzer.
Mythos 3: Das Backup von Datensätzen, die ein Petabyte oder größer sind, ist weder wirtschaftlich noch zweckmäßig. Regelmäßige und vollständige Backups von einem Petabyte Daten dauern mehrere Wochen und erfordern Infrastruktur-Ausgaben von über einer halben Million Dollar. Allerdings gibt es einige Maßnahmen, wie Sie die Ausgaben eindämmen können: Sie könnten zum Beispiel nur den wirklich geschäftskritischen Teil des Datensatzes sichern. Auch neue Backup-Techniken wie Deduplikation oder die Nutzung von Commodity-Servern können die Kosten senken und die Zeit bei der Datensicherung sparen.
Mythos 4: Remote-Disaster-Recovery-Kopien können als Backup fungieren. Es ist klug, Kopien von Datensätzen in einem Remote-Data-Center aufzubewahren, um beispielsweise gegen Naturkatastrophen gewappnet zu sein. Dazu werden die Daten normalerweise regelmäßig vom Data Center zum Disaster-Recovery-Data Center kopiert. Allerdings werden generell alle Veränderungen im Data Center auch an das Desaster-Recovery-Zentrum weitergegeben - also auch Datenbank- oder Applikations-Fehler. Eine Disaster-Recovery-Kopie kann also nicht als Backup zum Einsatz kommen, weil die Dateien, für einen Wiederherstellungspunkt nicht vorhanden sind.
Mythos 5: Ein Backup-/Recovery-Skript für Big Data zu schreiben, ist einfach. Ein Skript zu schreiben kann durchaus sinnvoll sein. Wenn Sie die Ressourcen haben, es sich um eine überschaubare Datenmenge handelt und nur eine Big-Data-Plattform zum Einsatz kommt. Allerdings streuen Unternehmen in der Regel etliche Terabyte an Daten über eine Vielzahl von Plattformen. Für diese Umgebungen ein Skript zu entwerfen, ist alles andere als leicht. Ein solches Skript muss für jede Plattform, auf der ein Backup erstellt werden soll, eigens geschrieben werden. Zudem sind die Skripte auch noch hinsichtlich ihrer Skalierbarkeit zu testen. Und wenn eine Plattform ein Update erhält, muss auch die Funktion des Skripts jedes Mal neu überprüft werden. Vom Einsatz soclher Lösungen bei neuen Features, APIs oder Datentypen einmal ganz abgesehen. Viele Unternehmen vergessen zudem, dasss ein gutes Backup-Skript für eine Big-Data-Plattform mit signifikanten versteckten Kosten und dem Bedarf an jeder Menge Expertise einhergeht. Der Wiederherstellungsprozess ist nämlich ebenfalls bedeutend schwieriger und auch fehleranfälliger, weil die richtigen Backups gefunden und an den entsprechenden Wiederherstellungspunkten wieder eingesetzt werden müssen, bevor schließlich ein Plattform-spezifischer Prozess die Daten wiederherstellen kann.
Mythos 6: Die Kosten für ein Backup bzw. eine Wiederherstellung bei Big Data sind sehr gering. Zusätzlich zur regelmäßigen Wartung und dem Testen von Skripten lauern weitere Zusatzkosten. Dazu gehören mehrere Kostenfaktoren. 1. Kosten für Mitarbeiter: Sie brauchen einen Verantwortlichen für das Skripting und Debugging, sowie die erfolgreiche Anfertigung von Backups; 2. Kosten für Storage: Schließlich müssen die Backups auch irgendwo gespeichert werden; 3. Kosten für Downtime: Während der Zeit, in der der Admin mit der Wiederherstellung der Daten beschäftigt ist. Insbesondere in den immer komplexer werdenden Big-Data-Umgebungen können sich diese Kosten signifikant aufsummieren.
Mythos 7: Snapshots sind ein effektiver Backup-Mechanismus für Big Data. Unter einem Snapshot versteht man Daten, die zu einem bestimmten Zeitpunkt "eingefroren" wurden. Manchmal werden diese Snapshots als Backups verwendet, um sich gegen User- oder Applikations-Fehler zu schützen. Bei dem Einsatz solcher Snapshots sollten Sie einige Punkte bedenken: 1.) Snapshots können genutzt werden, um den Backup-Prozess zu automatisieren. Um die Konsistenz der Backup- und Meta-Daten zu gewährleisten, sind jedoch einige spezielle Maßnahmen von Hand zu treffen. 2.) Snapshots sind dann effizient, wenn sich die Daten nicht kontinuierlich verändern. Das ist bei Big-Data-Plattformen nicht der Fall. Im Gegenteil: Die Veränderungs-Rate ist generell hoch und bestimmte Techniken wie etwa "Compaction" treiben diese noch weiter nach oben. Will man also einige aktuelle Kopien "auf Lager" haben, beanspruchen die Snapshots erheblichen Speicherplatz. 3.) Eine Datenwiederherstellung über Snapshots stellt einen langwierigen und zeitaufwändigen manuellen Prozess dar. Denn der Admin muss erst einmal die Snapshots identifizieren, die den wiederherzustellenden Datensätzen entsprechen. Jegliche Fehler bei diesem Wiederherstellungsprozess können zu permanentem Datenverlust führen.
- Backup
Die Gründe für den Verlust von Daten sind vielfältig - leider wird das vielen Firmen und Anwendern häufig zu spät klar. (Bild: NovaStor) - Backup
Eigentlich selbstverständlich - aber IT-Verantwortliche und Administratoren sollten prüfen, ob ihre Backup-Lösung diesen Ansprüchen genügt. (Bild: NovaStor) - Backup
Wer seine Daten sichern und wiederherstellen will, kann auf eine große Auswahl an Open-Source-Lösungen wie beispielsweise das Programm Areca zurückgreifen. - Backup
Personal Backup ist ein weiteres Beispiel für eine freie Lösung, die zudem durch eine umfassende Unterstützung in deutscher Sprache glänzen kann. - Backup
Viele Anbieter kommerzieller Backup-Lösungen wie hier Veeam stellen freie Versionen ihrer Software kostenlos bereit. Diese weisen dann aber oft gewisse Einschränkungen beim Funktionsumfang auf. - Backup
Etwas versteckt aber wieder vorhanden: Microsoft stellt den Anwendern unter Windows 10 die Windows-7-Software zur Datensicherung wieder zur Verfügung, die unter Windows 8/8.1 fehlte - Backup
Keine vollständige Datensicherung aber gut dafür geeignet, einzelne Dateien auch in älteren Versionen wiederherzustellen: der Dateiversionsverlauf unter Windows 10. - Backup
Viele kommerzielle Lösung bieten auch eine direkte Sicherung auf einen Speicherplatz in der Wolke an: Acronis-Backup warnt hier aber zu Recht -- eine initiale Lösung kann je nach zur Verfügung stehender Bandbreite sehr lange dauern! - Backup
Wer eine professionelle Lösung wie hier beispielsweise Symantec Back Exec 15 einsetzt, kann direkt seine unterschiedlichen Systeme mittels Agenten direkt von seinem Server aus sichern und wiederherstellen. - Backup
Eine hybride Sicherung, wie sie hier schematisch am Beispiel der Lösung von NovaStor dargestellt wird, ergänzt die traditionelle Sicherung vor Ort sinnvoll durch Cloud-Speicher. (Bild: NovaStor)
Fazit: Kein Big Data ohne Backup & Recovery
Zusammenfassend lässt sich sagen, dass Unternehmen die Big-Data-Plattformen und -Applikationen einsetzen, sich der Notwendigkeit regelmäßiger Backups bewusst sein sollten. Die in den Plattformen integrierten Maßnahmen wie Sicherungskopien und Snapshots alleine genügen nicht, um einen standesgemäßen Datenschutz und eine hohe Datenverfügbarkeit zu gewährleisten. Die dafür notwendigen Investitionen zahlen sich aus, denn Big Data ist heute ein wesentlicher Treiber des Business Value.
Unternehmen sollte sich auch der versteckten Kosten bewusst sein, die eine selbstentwickelte Lösung zur Folge hat und die richtigen Technologien einsetzen, um ihre Recovery Point Objectioves (RPO) und Recovery Time Objectives (RTO) erfüllen zu können.
Gar keine Lösung für Backup- und Recovery-Zwecke zu haben, ist übrigens die denkbar schlechteste Option. Schließlich sind menschliche Fehler oder korrumpierte Datensätze Probleme, vor denen man niemals zu einhundert Prozent geschützt ist.
Dieser Artikel basiert auf einem Beitrag unserer US-Schwesterpublikation networkworld.com.