Business Continuity und Disaster Recovery

Vier kritische Fragen an einen Kommunikationsdienstleister

31.03.2015

Von

Gerald Rubant ist Experte für Daten-, Video- und Internetdienste. Seit über 21 Jahren ist er in führenden Vertriebspositionen in renommierten Kommunikationsunternehmen tätig und hat einen Universitätsabschluss in Wirtschaftswissenschaften der Goethe-Universität in Frankfurt/Main.

Alle Posts des Autors Email: Connect:

Es gibt Versicherungen für die Erfüllung von Verträgen, die Verletzungen von Hochleistungssportlern und natürlich für Urlaubsreisen. Geht es aber um die Unternehmens-IT, wird es komplizierter.

Für wie ausfallsicher ein Anbieter seine Technik hält, wird erst anhand eines Service Level Agreement (SLA) sichtbar.
Foto: fotomek, Fotolia.com

Bei den IT-Prozessen und -Systemen sind die Ausfallrisiken für Unternehmen groß und die Komplexität erschwert deren Qualifizierung. Unternehmen bleibt hier nur die Möglichkeit, ihre Interessen so gut wie möglich zu wahren.
Dies führte in der Vergangenheit zum strategischen Modell der "Business Continuity and Disaster Recovery" (BCDR)-Planung, einer Art "Selbstversicherung" gegen den Ausfall von IT-Diensten und mehr. Am Anfang steht dabei eine eingehende Risikoanalyse zur Ermittlung angemessener Maßnahmen, anschließend werden die ermittelten Risiken so effektiv wie möglich minimiert.

Zwei Begriffe spielen hierbei eine wichtige Rolle:

Business Continuity

Business Continuity (BC) bezieht sich auf Strategien und Prozesse, die im Fall einer Naturkatastrophe oder menschlichen Versagens die Wiederherstellung oder Aufrechterhaltung elementarer Dienste gewährleisten. Für einen effektiven BC-Plan bedarf es zunächst einer Untersuchung der IT-Ressourcen und -Prozesse in Bezug auf geschäftliche Relevanz: sind sie geschäftskritisch, wichtig oder marginal? Der Ausfall einer Anwendung an der Kasse einer Cafeteria hat beispielsweise geringe geschäftliche Auswirkungen. Der Ausfall einer Unternehmenswebseite ist hingegen meistens kritisch. Entsprechend des ermittelten Risikoniveaus gilt es, Sicherheitsmaßnahmen zum Schutz des jeweiligen Elements zu finden, zu testen und einzuführen.

Bei einigen Systemen stellen Ausfälle signifikante Verluste dar. Andere wiederum, obwohl auch geschäftskritisch, können nach dem Umschalten auf einen Backup-Server mit minimalen Verzögerungen Ausfälle kompensieren. Mit anderen Worten: Einige Systeme dürfen niemals ausfallen und andere müssen wiederhergestellt werden können. Dabei ist die Herausforderung nicht die Risikoklassifizierung, sondern das Finden effektiver Schutzmaßnahmen.

Zur Sicherung der Verfügbarkeit von IT-Diensten gibt es viele Möglichkeiten. Anwendungen verfügen häufig über integrierte Absicherungen gegen bestimmte Arten von Ausfällen. Für komplexere Systeme müssen diese meist eigens entwickelt und implementiert werden.

Disaster Recovery

Selbst bei vorbildlichen Business-Recovery-Plänen und idealer Umsetzung kommt es zu Ausfällen. Für diesen Fall dient die zweite Phase des IT-Risikomanagements: die Disaster Recovery (DR), eine Wiederherstellung des Systems. Die Ursachen für einen Systemausfall sind vielfältig, entsprechend enthalten DR-Pläne häufig Mehrfachabsicherungen. Für den Schutz eines unternehmenskritischen Systems kann zum Beispiel die gleichzeitige Verwendung von einem RAID-Speicher-Array, lokalen Mirrorings und nächtlichen Off-Site-Backups sinnvoll sein. Die meisten Wiederherstellungsstrategien verwenden logische oder physische Mehrfachabsicherungen.

Wiederherstellungstechniken und -Strategien sind so vielfältig wie die Katastrophenszenarien, für die sie entwickelt werden. Neue Technologien sorgen für verkürzte Wiederherstellungszeiten und helfen bei der Risikominimierung. Ob redundante Server oder robuste Rechenzentren, Unternehmen haben viele Möglichkeiten, ihre Risiken zu minimieren.

Cloud Computing revolutioniert derzeit die Wiederherstellungstechnik. Durch Virtualisierung können Unternehmen sowohl logisch als auch physisch vielfältige Wiederherstellungsoptionen in der Cloud anlegen. Die Virtualisierung verändert die Disaster Recovery grundlegend und fügt dem Thema eine umfangreiche Komplexitätsebene hinzu. Cloud-Lösungen sind einfacher zu implementieren, werfen ihrerseits jedoch BCDR-relevante Fragen auf. Dabei verweisen sie auf die Wichtigkeit eines oft als selbstverständlich geltenden Elements: des zugrundeliegenden Netzwerks.

Hans Schramm, Field Product Manager Enterprise, Dell
"Es wird immer IT-Administratoren geben, die eine Sicherung ihrer wichtigsten Daten – was die auch immer sein mögen – direkt im eigenen Rechenzentrum haben wollen. Andere sind womöglich froh, die Verantwortung für die Daten einem Provider zu übergeben."
Dr. Stefan Radtke, CTO Isilon Storage Division, EMC Deutschland
"Wir haben gerade in Deutschland sehr hohe Datenschutzanforderungen, die häufig nicht mit denen von Providern ausländischer Anbieter übereinstimmen. Manche Anbieter sind offenbar nicht immer frei in der Entscheidung, welche Daten sie weitergeben müssen oder nicht.“
Stefan Roth, Manager Sales Competence Center, Fujitsu
„Auch für das Backup von Archivdaten sind Cloud Services für viele Kunden empfehlenswert. Fujitsu hat in diesem Gebiet schon einige Kundenprojekte laufen."
Dr. Georgios Rimikis, Senior Manager Solutions Strategy, Hitachi Data Systems
„Daten, die sehr hohe Ansprüche an Sicherheit, Performance, Flexibilität und Verfügbarkeit an die Anwendungen stellen, sind für die öffentliche Cloud nicht geeignet. Dagegen sind neben Backups und Disaster Recovery Entwicklungs-, Tests- und bestimmte Archivierungsdaten für die Cloud geeignet."
Guido Klenner, Business Unit Manager Storage, Hewlett-Packard
"Gerade im KMU-Segment sind Backup-as-a-Service-Angebote sehr beliebt, weil sie einfach und relativ kostengünstig zu realisieren sind und eine höhere Zuverlässigkeit im Vergleich zu anderen Methoden bieten. Bei größeren Unternehmen sowie Kunden mit hohen SLA- und/oder Security-Anforderungen erleben wir, dass man solche Angebote in eine größere Architektur einbindet, zum Beispiel als 3rd Site für Replikationen. Die primären Backup-Lösungen werden dabei nach wie vor On-Premise betrieben.“
Ralf Colbus, Leading Storage Professional, IBM Deutschland
„Für Latency-unkritische Anforderungen - wie etwa das bewusste, nachgelagerte Verschieben von Daten in die Cloud als weiteren Standort oder auch im Archivierungsbereich funktioniert ‚Cloud‘ sehr gut."
Johannes Wagmüller, Director Systems Engineering, NetApp
„Bei den IT-Managern sollte ein Umdenkprozess starten. Es ist heute insbesondere für ein mittelständisches Unternehmen einfach nicht mehr zeitgemäß, sich in aller Tiefe und mit allen technologischen Details eines Backup-Prozesses selbst zu befassen."
Vincenzo Matteo, Disk Product Management Director, Oracle
"Backups und Archivierung sind - die entsprechenden Sicherheitsmaßnahmen vorausgesetzt - zwei Storage-Aufgaben, die von Cloud Services profitieren können. Backup-Prozesse gestalten sich so einfacher und grundsätzlich lassen sich in der Cloud Ausgaben für zusätzliche Infrastruktur und deren laufenden Betrieb einsparen."

DIE ROLLE DES KOMMUNIKATIONSNETZES

Jeder BCDR-Plan stützt sich zu einem gewissen Grad auf das Netzwerk. Denn ob Sie redundante Disk-Arrays über ein lokales Netzwerk (LAN) anbinden oder Off-Site-Cloud-Speicher über ein High-Speed-Speichernetzwerk (SAN) verwenden, dem Kommunikationsmedium kommt eine zentrale Rolle zu.

Die Anbindung ans Außennetz wird beim Netzwerkdesign und der Disaster Recovery häufig übersehen. Viele Unternehmen sind abhängig von der Kommunikation mit Zulieferern, dem Vertrieb und anderen Unternehmensstandorten. Wenn zum Beispiel ein Sturm den Gebäudekomplex am Ende der Straße, durch den die Netzwerkleitungen verlaufen, zerstört, können die Auswirkungen fatal sein.

Vier kritische Fragen

Aus kommunikationstechnischer Sicht ist das Verhindern von häufigen Fehlern eine Frage der Kompetenz und des Verantwortungsbewusstseins des Carriers. Ein Unternehmen sollte also dem Anbieter seiner Wahl gezielte Fragen stellen:

Frage 1: Kann die physische Routenvielfalt demonstriert werden?

Die Routenvielfalt ist ein zentraler Aspekt. Die Möglichkeiten der physischen Verbindung zwischen zwei Punkten sind begrenzt. Sie sind Gegenstand des Wegerechts, und auch wenn die Verbindungsmöglichkeiten zwischen zwei Städten unendlich scheinen mögen, befinden sich dazwischen häufig nur drei oder vier Trassen zur Datenübertragung.

Dazu kommt, dass nur wenige Anbieter ihre eigenen Glasfaserleitungen verlegen. Die meisten mieten oder kaufen Übertragungsrechte. Wer besitzt und wer mietet, wird dabei häufig nicht transparent gemacht.

Zur Sicherung der Unternehmenskommunikation reicht es deshalb oft nicht, Netzwerkdienstleistungen bei zwei unterschiedlichen Anbietern gleichzeitig zu beziehen, denn der eine könnte die Leitung des anderen mitverwenden. Es muss sichergestellt werden, dass es sich um physisch separate Kommunikationswege handelt. Dies kann unter Umständen auch ein einzelner Anbieter gewährleisten. Die Information ist elementar für den BCDR-Plan.

Frage 2: Wie sind die Rechenzentren bezüglich Stromversorgung, Sicherheit, Kühlung und Verbindungsvielfalt ausgestattet?

Carrier-Rechenzentren (RZ) beziehungsweise Kommunikationszentralen sind eine weitere potenzielle Fehlerquelle. Das RZ beherbergt die Geräte zur Bereitstellung der Kommunikationsdienste. Ob VoIP-, Daten- oder Videoübertragung, die Geräte benötigen einen sicheren Ort mit ausreichend Platz, abgesicherter Stromversorgung und ausreichender Kühlung.

Wie können Unternehmen herausfinden, ob ein RZ die Anforderungen der Carrier-Klasse erfüllt?

• Redundante Stromversorgung
RZ können mehrere Stromleitungen mit separaten Wegen zum Hauptstromnetz verwenden. Mehrfache Stromleitungen innerhalb eines Gebäudes sollten durch USV und einen Generator abgesichert sein.

• Physische Sicherheit
Physische Sicherheit schützt Ausrüstung vor unautorisiertem Zugriff. RZ sollten mehrere Ebenen der Zugangssicherung verwenden, zum Beispiel separate Sicherheitsbereiche und anbieterspezifische Zugänge.

• Belastbare Kühlsysteme
Hochzuverlässige, gut konstruierte Kühlsysteme sind für Netzwerk-RZ unerlässlich.

• Redundanz
Anbieter verwenden nicht nur gemeinsame Trassen, sondern auch RZ-Kapazitäten. Separate Netzwerkressourcen der Anbieter sind auch hier nicht selbstverständlich. Werden eigene RZ oder gemietete Einrichtungen verwendet? Routenvielfalt innerhalb eines RZ ist ein weiterer wichtiger Punkt. Separate physische Pfade können innerhalb eines RZ in eine gemeinsame Leitung münden. RZ mit mehrfachen Anschlüssen, Abzweigungen und Gebäudeausgängen minimieren das Risiko von Ausfällen.

Frage 3: Wird Kommunikationstechnik der Netzbetreiber verwendet?
Es besteht ein enormer Unterschied zwischen Kommunikationstechnik der Unternehmen und der Carrier. Großunternehmen und Kommunikationsdienstleister mögen in ihren Rechenzentren über Gigabyte-Router mit vergleichbaren Leistungsdaten verfügen, aber dort hören die Gemeinsamkeiten oft auch schon auf. Bei Kommunikationstechnik der Carrier-Klasse kommen meist redundante Stromanschlüsse und Hardware zum Einsatz. Typischerweise ist die Carrier-Klasse auch auf Verwendung in speziell geschützten Gebäuden und bei extremen Betriebsbedingungen ausgelegt.

Technik der Carrier-Klasse ist bei professionellen Anbietern keine Selbstverständlichkeit, denn auch die Enterprise-Klasse kann einen zuverlässigen Netzbetrieb gewährleisten. Der störungsfreie Betrieb wird hier in den meisten Fällen aber nicht vertraglich garantiert werden können. Für wie ausfallsicher ein Anbieter seine Technik hält, wird erst anhand eines Service Level Agreement (SLA) sichtbar.

Checkliste Cloud-SLAs
Um zu beurteilen, ob ein Cloud-Provider kundenfreundliche SLAs anbietet, lassen sich folgende Kriterien anlegen und überprüfen:
Punkt 1:
Kurze und klare Gestaltung von Inhalt, Struktur und Formulierung.
Punkt 2:
Version in der Landessprache des Kunden.
Punkt 3:
Klare Definitionen von Fach- und Produktbegriffen zu Beginn.
Punkt 4:
Detaillierte Ankündigung und Planung der Wartungsfenster (Beispiel: "Viermal im Jahr an vorangemeldeten Wochenenden").
Punkt 5:
Leistungsbeschreibung in Tabellenform (Übersicht!).
Punkt 6:
Klar definierte Bereitstellungszeiträume für neue Ressourcen (Beispiele: Bereitstellung virtueller Server bei Managed Cloud in maximal vier Stunden; Bereitstellung kompletter Umgebungen oder dedizierter Server in fünf bis zehn Tagen).
Punkt 7:
Bereitstellung von klar abgegrenzten Konfigurationsoptionen für Ressourcen (Beispiel: Konfiguration von Servern nach Gigahertz, Gigabyte).
Punkt 8:
Einfach unterscheidbare Service-Levels (Beispiel: Silber, Gold, Platin); Abgrenzungskriterien können sein: Verfügbarkeit, Bereitstellungszeiten, fest reservierte Kapazitäten ja/nein, Support-Level (Telefon, E-Mail).
Punkt 9:
Bei IaaS-Angeboten unbedingt auf Netzwerk-Konfigurationsmöglichkeiten und Bandbreite achten (Volumen? Im Preis inkludiert ja/nein?).
Punkt 10:
Kundenfreundlicher Reporting- beziehungsweise Gutschriftenprozess (am besten aktive Gutschriften auf Kundenkonto; kein bürokratischer, schriftlicher Prozess; möglichst einfache Beweis- und Nachweispflicht für Kunden).
Punkt 11:
Reaktionszeiten und Serviceverfügbarkeit klar beschreiben (zentrale Hotline; Reaktionszeiten auf Incidents in Stunden).
Punkt 12:
Nennung der Rechenzentrumsstandorte mit Adresse und sonstigen Informationen wie Zertifizierungen und Tier.
Punkt 13:
Definition der Verfügbarkeiten: Unterschiede hinsichtlich Verfügbarkeit Server/VM und Verfügbarkeit Admin-Konsole definieren.
Punkt 14:
Erläuterung zu Möglichkeiten der SLA-Überwachung beziehungsweise des Incident-Reportings für den Anwender (Beispiel: Link auf Monitoring-Dashboard).

Sollte kein SLA für die Verfügbarkeit von Diensten ausgestellt werden können oder das Dokument nur bestes Bemühen ohne Risikoübernahme ausdrücken, ist es ratsam, das Angebot des Dienstleisters hinsichtlich der geschäftlichen Implikationen zu überdenken.

Frage 4: Deckt das SLA die Dienste Ende-zu-Ende ab?

Ausfallsicherung und Fehlertoleranz werden in der Kommunikationstechnik auf unterschiedliche Arten realisiert. Einige Technologien verzichten sogar vollständig darauf, da es teurer sein kann, eine verlorene Information wiederherzustellen, als den Schaden hinzunehmen. Optische Übertragungssysteme verfügen in der Regel über Mechanismen zur sofortigen Fehlerbehebung.

Technische Einzelheiten können hilfreich bei der Entscheidungsfindung sein, es bedarf jedoch keines Fachmannes, um die Stärken und Schwächen eines Systems in Bezug auf die BCDR-Planung zu erkennen. Die Lösung ist einfach: das SLA aufmerksam durchlesen.

Die wichtigste Kenngröße eines SLA ist die Netzwerkverfügbarkeit. Kunden sollten verstehen, was eine Verfügbarkeitsspezifikation ist und wie sie sich zusammensetzt. Deckt sie den gesamten Kommunikationsweg ab oder nur den Kernbereich des Carrier-Netzwerks? Die besten SLAs decken den gesamten Kommunikationsweg von Ende zu Ende ab. (bw)

Aktuelle Technologie-Themen:

Aktuelle Artikel im Überblick:

Aktuelle Artikel im Überblick:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Events

Aktuelle Podcasts im Überblick:

Aktuelle Webcasts im Überblick:

Aktuelles aus den Hot Topics auf COMPUTERWOCHE: -Anzeige-

IT-Services

Business Continuity und Disaster Recovery

Vier kritische Fragen an einen Kommunikationsdienstleister

Business Continuity

Disaster Recovery

Vier kritische Fragen

Aktuelle Technologie-Themen:

Aktuelle Artikel im Überblick:

Aktuelle Artikel im Überblick:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Events

Aktuelle Podcasts im Überblick:

Aktuelle Webcasts im Überblick:

Aktuelles aus den Hot Topics auf COMPUTERWOCHE: -Anzeige-

Aktuelle Technologie-Themen:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

IT-Services

Business Continuity

Disaster Recovery

Vier kritische Fragen

Per E-Mail versenden

Artikel als PDF kaufen

Über den Autor