Rechenzentrum down

10 Fakten zu Datacenter-Ausfällen

24.04.2023
Von 
Ann schreibt unter anderem für unsere US-Schwesterpublikation Infoworld.com.

5. Drittanbieter sorgen für Schlagzeilen

Da immer mehr Workloads an externe Dienstleister ausgelagert werden, wird auch die Zuverlässigkeit ihrer digitalen Infrastrukturen für Unternehmenskunden immer wichtiger. Dabei sind Drittanbieter für die meisten öffentlichkeitswirksamen Outages verantwortlich - wie die Daten von Uptime zeigen.

Demnach waren kommerzielle Drittanbieter von IT- und Rechenzentren (Cloud-Anbieter, Service Provider und Telekommunikationsanbieter) für 66 Prozent aller öffentlichkeitswirksamen Ausfälle seit dem Jahr 2016 verantwortlich. Der Anteil ist dabei von Jahr zu Jahr kontinuierlich gestiegen: Im Jahr 2021 lag der Anteil der durch Cloud-, Colocation-, Telekommunikations- und Hosting-Unternehmen verursachten Ausfälle bei 70 Prozent - im Jahr 2022 stieg er auf 81 Prozent.

"Je mehr Unternehmen ihre IT-Dienste auslagern, desto mehr müssen sie ihrer Sorgfaltspflicht nachkommen - und dies auch nach Abschluss des Geschäfts", warnt Brown.

6. Menschliches Versagen treibt Outages

Obwohl menschliches Versagen selten die einzige (oder die maßgebliche) Ursache für einen Ausfall ist, spielt dieser Faktor in 66 Prozent bis 80 Prozent aller Outages eine Rolle - schätzt das Uptime Institute und beruft sich dabei auf Daten aus den vergangenen 25 Jahren. Allerdings ist es herausfordernd, menschliches Versagen zu analysieren: Unzulänglichkeiten wie unsachgemäße Schulung, Ermüdung des Bedienpersonals und fehlende Ressourcen lassen sich nur schwer ausfindig machen.

Laut Uptime sind die Ausfälle, die mit menschlichem Versagen in Zusammenhang stehen, in den meisten Fällen entweder darauf zurückzuführen, dass die Mitarbeiter die Prozesse nicht befolgen (47 Prozent) oder dass die Prozesse selbst fehlerbehaftet sind (40 Prozent). Weitere häufige Ursachen sind:

  • Probleme bei der Inbetriebnahme (27 Prozent),

  • Installationsprobleme (20 Prozent),

  • unzureichende, personelle Ressourcen (14 Prozent),

  • Probleme mit der Predictive-Maintenance-Frequenz (12 Prozent) und

  • eine falsche Konzeption des Rechenzentrums (12 Prozent).

"Um diese Probleme zu lösen, braucht man kein Geld", kommentiert Lawrence. "Die Leute müssen sich die Mühe machen, Prozesse zu entwickeln, sie zu testen, sicherzustellen, dass sie korrekt sind, ihre Mitarbeiter zu schulen, damit sie sie befolgen - und das im Anschluss auch überprüfen. Das ist die 'low hanging fruit', um Ausfälle zu verhindern."

7. Energieprobleme weiterhin ein Thema

Laut Uptime sind Probleme mit der lokalen Stromversorgung nach wie vor mit großem Abstand die Hauptursache für erhebliche Standortausfälle. Und das trotz der Tatsache, dass die meisten Outages multiple Gründe aufweisen und die Qualität der Berichterstattung variiert.

Im Jahr 2022 gaben 44 Prozent der Befragten an, dass die Stromversorgung die Hauptursache für ihren letzten schwerwiegenden Vorfall oder Ausfall war. Im Vergleich zu den Jahren 2021 (43 Prozent) und 2020 (37 Prozent) hat sich hier nicht viel getan.

8. Komplexe Netzwerke, mehr Ausfälle

Die beiden häufigsten Ursachen für netzwerk- und konnektivitätsbedingte Ausfälle sind laut Uptime Fehler bei der Konfiguration oder dem Change Management (45 Prozent) sowie das Versagen eines externen Netzwerkanbieters (39 Prozent).

Uptime führt diesen Trend auf die Komplexität heutiger Netzwerke zurück: "In modernen, dynamischen und softwaredefinierten Umgebungen werden Programme, um Netzwerke zu managen und zu optimieren, ständig überarbeitet oder neu konfiguriert. In einer derart komplexen und durchsatzstarken Umgebung können sich kleine Fehler häufig über das gesamte Netzwerk ausbreiten und zu kaskadenartigen Ausfällen führen, die schwer zu stoppen, zu diagnostizieren und zu beheben sind."

Andere häufige Ursachen für größere netzwerkbedingte Ausfälle:

  • Hardware-Ausfälle (37 Prozent)

  • Leitungsunterbrechungen (27 Prozent)

  • Firmware-/Softwarefehler (23 Prozent)

  • Cyberangriffe (14 Prozent)

  • Netzwerkausfall/-überlatsung (12 Prozent)

  • Wetterbedingte Vorfälle (7 Prozent)

  • Beschädigte Firewalls/Routing Tables (6 Prozent)

9. Die häufigsten Ursachen für IT-Ausfälle

Die häufigsten Ursachen für Ausfälle im Zusammenhang mit IT-Systemen und Software sind:

  • Konfigurations- und Change-Management-Probleme (64 Prozent)

  • Firmware-/Softwarefehler (40 Prozent)

  • Hardware-Ausfälle (36 Prozent)

  • Kapazitätsprobleme (22 Prozent)

  • Datensynchronisierungsfehler (14 Prozent)

  • Cyberangriffe/Sicherheitsprobleme (10 Prozent)

10. Brände sind selten, aber verheerend

Feuer ist eine Ursache, die bei den öffentlich gemeldeten Ausfällen auftaucht, bei den IT-bezogenen Quellen aber keinen hohen Stellenwert einnimmt. Laut Uptime stehen 7 Prozent der öffentlich gemeldeten Ausfälle in Rechenzentren mit Bränden in Zusammenhang. Das könnte laut den Forschern an der zunehmenden Verwendung von Lithium-Ionen-Batterien liegen.

Die haben im Vergleich zu Bleisäure-Batterien einen geringeren Platzbedarf, sind einfacher zu warten und weisen eine längere Lebensdauer auf. Sie stellen jedoch auch ein größeres Brandrisiko dar, wie Lawrence anhand eines Beispiels verdeutlicht: "In einem Maxnod-Rechenzentrum in Frankreich kam es am 28. März 2023 zu einem verheerenden Brand und wir glauben, dass er durch eine Lithium-Ionen-Batterie verursacht wurde." (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Network World.