Ausfallsicherheit lässt sich planen

So sichern Unternehmen ihre geschäftskritischen IT-Systeme

22.10.2018
Von 
Bernd Hanstein ist Diplom-Physiker und verantwortlicher Leiter des Produktmanagements IT der Rittal GmbH & Co. KG in Herborn. Zuvor war er in mehreren Führungspositionen innerhalb der Automobilelektronik, der Telekommunikations- und der IT-Technologie tätig. Für die Siemens AG hat er beispielsweise im Unternehmensbereich „Öffentliche Netze“ die Implementierung großer ITK-Projekte realisiert.

Kann man den Totalausfall absichern?

Für eine abschließende Risikobewertung sollten Unternehmen die drei Gewerke Strom, Kühlung und Monitoring im Detail analysieren. Um potenzielle Schwachpunkte zu entdecken und konkrete Angaben für die Risikobewertung zu erhalten, werden verschiedene Szenarien gedanklich durchgespielt. Hier hilft die Fragestellung „Was passiert, wenn...“. Mögliche Szenarien könnten sein, dass ein Bagger eine Stromleitung kappt, dass ein Chiller wegen einem Hardware-Defekt ausfällt oder dass ein Systemfehler wegen Ausfall des Monitorings mehrere Stunden unbemerkt bleibt. IT-Manager sollten auch die operativen Folgeprozesse und Meldeketten im Detail analysieren. Fällt zum Beispiel die IT-Kühlung aus, bleiben mitunter nur wenige Minuten an Reaktionszeit, bis die Hardware beschädigt wird oder es sogar zu einem Brand kommt. Auch Meldeketten sind zu prüfen und mit Personaleinsatzplänen abzugleichen, damit Administratoren keine Warnmeldungen erhalten, wenn sie in Urlaub oder zu Hause sind. In der Praxis zeigt sich immer wieder, dass diese Meldeketten unsauber definiert sind oder nicht ausreichend aktuell gehalten werden, sodass kritische Warnmeldungen ins Leere laufen könnten.

Welche Art von Hochverfügbarkeit letztlich benötigt wird, muss jede Organisation individuell bestimmen. Bei IT-Anlagen in der Produktion können beispielsweise Wartungsintervalle in der Fabrikhalle auch für den IT-Service genutzt werden. Damit wäre eine Tier 2-Verfügbarkeit mit einer N+1-Redundanz ausreichend. Weiterhin können große Maschinen beim Anfahren zu Stromschwankungen innerhalb der Fabrikhalle führen, sodass zusätzliche USV-Anlagen die IT sowie die Kühlsysteme schützen sollten.

Skalierbares Monitoring für Edge-Infrastrukturen

Darüber hinaus sollten IT-Manager schon heute mit Blick auf künftige IT-Infrastrukturen das Monitoring planen: Dezentral betriebene Edge-Rechenzentren verlangen angepasste Konzepte an Überwachung und Systembetrieb. Hier kann es sinnvoll sein, Cloud-basierende DCIM-Lösungen (Data Center Infrastructure Management) als Service zu nutzen. Der Vorteil: das Monitoring skaliert in gleicher Weise wie die Edge-Infrastruktur. Bei einer dezentralen Edge-Infrastruktur wäre es beispielsweise schnell möglich, über einen zusätzlichen Container eine N+1-Redundanz aufzubauen. Alternativ sind Redundanzen über die modulare Bauform möglich, wenn also eine oder zwei Komponenten als Standby-Modul konzipiert werden – ähnlich wie dies bei USV-Systemen bereits praktiziert wird.

Lesen Sie mehr rund um das Thema Data Center:

Data Center als Schlüssel zum Unternehmenserfolg

Rechenzentren auf dem Mond

So wird Ihr Rechenzentrum modern

Data Center in die Cloud migrieren - das müssen Sie beachten

Data Center im Wandel - IT-Herausforderungen 2018

Fazit

Wer ein Konzept für höchstmögliche Ausfallsicherheit benötigt, betreibt seine Rechenzentren an zwei getrennten, nicht öffentlich erkennbaren Standorten mit Mindestentfernungen und gespiegelten Komponenten. Verwendet ein Unternehmen für seine IT-Infrastruktur überwiegend Standardkomponenten, so lassen sich diese im Fehlerfall schneller austauschen. Damit sinken die Ausfallzeiten und nebenbei wird auch die Komplexität im Rechenzentrum verringert.

Zusätzlich sollte der IT-Betrieb durch ein umfassendes Business Continuity Management abgesichert werden, um ein Konzept zur Weiterführung operativer Geschäftsabläufe zu haben, falls es dennoch zu einem Ausfall kommt. Letztlich muss jedoch jeder verantwortliche Manager für seine Organisation evaluieren, welche Auswirkungen ein IT-Ausfall hat und dementsprechend ein individuelles Konzept für die Ausfallsicherheit realisieren.

So erkennen Sie, ob ein erhöhtes IT-Ausfallrisiko besteht

• Die prinzipiellen Risiken im Rechenzentrum sind nicht definiert; z.B. reichen Laufzeiten der Dieselgeneratoren aus für Notfallmaßnahmen?
• Im IT-Betrieb traten vereinzelt Störfälle auf, die sich nicht eindeutig klären ließen.?
• Ein Krisenhandbuch für Störfälle ist unvollständig und veraltet; Maßnahmen werden nicht regelmäßig geübt.
• Meldeketten für IT-Störungen wurden bislang nicht auf Logik und Durchgängigkeit geprüft.
• Die Ausgestaltung von IT-Wartungsverträgen und Verantwortlichkeiten ist in Teilbereichen unklar.
• Der Lebenszyklus von Infrastrukturkomponenten wird nicht durchgängig erfasst.
• Die IT-Experten sind nicht ausreichend geschult für die Bedienung der Klimageräte.

(hal)