Das Uptime Institute untersucht in seiner "Annual Outages Analysis" jährlich den Outage-Status-Quo - so auch im Jahr 2023. Auf dieser Grundlage haben wir in diesem Artikel die zehn wichtigsten, aktuellen Fakten zu (Rechenzentrums-)Ausfällen für Sie zusammengefasst.
1. Unzuverlässige Daten bleiben ein Problem
Zunächst mahnt das Uptime Institute, dass die Daten in Zusammenhang mit Outages angesichts mangelnder Transparenz bei einigen Betroffenen sowie qualitativ unzureichender Meldemechanismen mit Skepsis betrachtet werden sollten: "Während in einigen Branchen wie beispielsweise der Luftfahrt eine Meldepflicht besteht, fällt das Reporting in anderen Sektoren eher begrenzt aus", erklärt Andy Lawrence, Executive Director of Research beim Uptime Institute und fügt hinzu: "Wir müssen uns also auf unsere eigenen Mittel und Methoden verlassen, um an die Daten zu kommen. Und wir alle wissen, dass nicht jeder bereit ist, Informationen über Ausfälle zu teilen - aus den unterschiedlichsten Gründen. Manchmal erhält man eine sehr detaillierte Root Cause Analysis, manchmal erfährt man so gut wie nichts."
Für seine Analyse hat das Uptime Institute Daten aus drei Hauptquellen herangezogen:
Die hauseigene AIR (Abnormal Incident Report) -Datenbank,
eigene Umfragen und
öffentlich verfügbare Berichte (darunter News-Artikel, Social Media Posts, Outage Tracker und Pressemitteilungen von Unternehmen).
2. Die Ausfallraten sinken (leicht)
Laut Uptime sind die Ausfallraten in den letzten Jahren generell eher gesunken. Das bedeutet jedoch nicht, dass die Gesamtzahl der Ausfälle sinkt. Im Gegenteil: Die Zahl der Ausfälle nimmt weltweit jedes Jahr zu, weil die Rechenzentrumsbranche expandiert. Hier könne leicht ein falscher Eindruck entstehen, wie Uptime warnt: "Die Häufigkeit der Ausfälle nimmt nicht so schnell zu wie das Wachstum der IT oder der globalen Rechenzentrumsfläche."
Insgesamt hat Uptime jedoch einen langsamen, aber stetigen Rückgang der Ausfallrate pro Standort beobachtet, wie aus vier eigenen Umfragen unter Rechenzentrumsleitern und -betreibern hervorgeht, die zwischen 2020 und 2022 durchgeführt wurden.
Im Jahr 2022 gaben 60 Prozent der Umfrageteilnehmer an, in den letzten drei Jahren von einem Ausfall betroffen gewesen zu sein,
gegenüber 69 Prozent im Jahr 2021 und
78 Prozent im Jahr 2020.
3. Ausfälle sind weniger schwerwiegend…
Obwohl 60 Prozent der Rechenzentrumsstandorte in den letzten drei Jahren von einem Ausfall betroffen waren, wurde nur ein kleiner Anteil der Outages als ernst oder schwerwiegend eingestuft.
Uptime misst die Schwere von Ausfällen auf einer Skala von 1 bis 5. Schwerwiegende Ausfälle (Stufe 4 und 5) machten in der Vergangenheit etwa 20 Prozent aller Outages aus. Im Jahr 2022 sank dieser Anteil auf 14 Prozent. Laut Chris Brown, Chief Technical Officer bei Uptime, ist der Hauptgrund dafür, dass die Betreiber von Rechenzentren besser auf unerwartete Ereignisse vorbereitet sind: "Wir sind inzwischen viel besser in der Lage, Systeme zu entwerfen und den Betrieb so zu steuern, dass ein einzelner Fehler oder Ausfall nicht unbedingt zu einem schweren oder schwerwiegenden Ausfall führt."
Heutige Systeme seien redundant ausgelegt und die Betreiber disziplinierter bei der Sache, wenn es darum gehe, Systeme zu entwickeln, die in der Lage seien, auf ungewöhnliche Ereignisse zu reagieren, so der CTO.
4. …doch der finanzielle Aufwand steigt
Wenn es zu Outages kommt, werden sie allerdings immer teurer - ein Trend, der sich mit der wachsenden Abhängigkeit von digitalen Services wahrscheinlich noch verstärken wird. Ein Blick auf die (eigenen) Umfragedaten von Uptime der letzten vier Jahre zeigt, dass der Anteil der größeren Ausfälle (mehr als 100.000 Dollar an direkten und indirekten Kosten) steigt:
Im Jahr 2019 lagen 60 Prozent der Outages in Sachen Wiederherstellungskosten unter 100.000 Dollar. Im Jahr 2022 liegt dieser Anteil nur noch bei 39 Prozent.
25 Prozent der Befragten im Jahr 2022 gaben an, dass ihr letzter Ausfall mehr als eine Million Dollar gekostet hat, während
45 Prozent zwischen 100.000 und einer Million Dollar für den letzten Outage hinlegen mussten.
Die Inflation ist dafür laut CTO Brown nur teilweise ursächlich - auch die Kosten für Ersatzkomponenten und Arbeitskräfte seien gestiegen. Der Manager ergänzt: "Noch wichtiger ist jedoch, dass Unternehmen bei der Abwicklung ihrer Geschäfte in hohem Maße von digitalen Services abhängig sind. Der Ausfall eines kritischen IT-Dienstes kann direkt mit Geschäftsunterbrechungen und Umsatzeinbußen verbunden sein."