Das zu Cisco gehörende Network-Intelligence-Unternehmen ThousandEyes hat die größten Netzausfälle des Jahres 2022 zusammengetragen. Lesen Sie, was die großen Infrastruktur- und Serviceanbieter dabei im Einzelnen lahmgelegt hat.
British Airways
Ende Februar 2022 waren die Online-Dienste von British Airways stundenlang nicht erreichbar. Das führte zur Annulierung von Hunderten Flügen und beeinträchtigte den Betrieb der Fluggesellschaft stark: Flüge zu buchen war ebensowenig möglich wie ein elektronischer Check-In für die Passagiere. British Airways war deswegen Berichten zufolge gezwungen, auf papierbasierte Prozesse auszuweichen - die Auwirkungen waren weltweit spürbar.
In seiner Ausfallanalyse macht ThousandEyes nicht reagierende Anwendungsserver für das Outage verantwortlich: "Die Art des Problems und die Reaktion der Fluggesellschaft darauf deuten an, dass die Ursache wahrscheinlich in einem zentralen Backend-Repository liegt, auf das sich mehrere Frontend-Dienste verlassen. Wenn das der Fall ist, könnte dieser Vorfall ein Katalysator für British Airways sein, ihr Backend neu zu gestalten oder zu rekonstruieren, um einzelne Fehlerpunkte zu vermeiden und die Wahrscheinlichkeit eines erneuten Auftretens zu verringern."
Twitter war Ende März 2022 für einige Nutzer etwa 45 Minuten lang nicht verfügbar, nachdem JSC RTComm.RU, ein russischer Internet- und Satellitenkommunikationsanbieter, ein Twitter-Präfix falsch kommuniziert hatte. Das führt dazu, dass der für Twitter bestimmte Datenverkehr ins Nichts umgeleitet wurde. Nachdem die BGP-Ankündigung von RTComm zurückgezogen wurde, konnten die betroffenen Nutzer wieder auf Twitter zugreifen. ThousandEyes weist darauf hin, dass BGP-Fehlkonfigurationen zwar genutzt werden können, um den Datenverkehr gezielt zu blockieren. Es sei allerdings nicht immer leicht zu erkennen, ob es sich um ein Versehen oder eine absichtlich herbeigerufene Störung handelt.
"Es ist wichtig zu verstehen, dass eine versehentliche Fehlkonfiguration von BGP nicht ungewöhnlich ist. Angesichts der Tatsache, dass der ISP die Route zurückgezogen hat, ist es wahrscheinlich, dass RTComm nicht beabsichtigte, eine globale Störung von Twitter zu verursachen. Allerdings haben ISPs in bestimmten Regionen BGP lokal manipuliert, um den Datenverkehr auf der Grundlage lokaler Zugangsrichtlinien zu blockieren", schreiben die ThousandEyes-Experten in ihrer Analyse.
Um sich vor Route Leaks und BGP Hijacking zu schützen, empfiehlt ThousandEyes Unternehmen, auf Sicherheitsmaßnahmen wie Resource Public Key Infrastructure zu setzen. Dabei geben die Experten zu bedenken: "Auch wenn Ihr Unternehmen RPKI implementiert hat, um BGP-Bedrohungen abzuwehren, ist es möglich, dass Ihr Telekommunikationsanbieter das nicht tut. Das sollten Sie bei der Auswahl eines ISPs berücksichtigen."
Atlassian
Atlassian vermeldete Anfang April 2022 Probleme mit mehreren seiner Entwicklungs-Tools, darunter Jira, Confluence und OpsGenie. Ein Fehler in einem Wartungsskript führte zu einem tagelangen Ausfall dieser Dienste, von dem allerdings "nur" etwa 400 Kunden betroffen waren.
Update on cloud outage impacting ~400 customers. As part of scheduled maintenance our team ran a script to delete legacy data from a deprecated service. Instead of deleting the data the script erroneously deleted sites, and connected products, users, and 3rd party apps. (1/5)
— Atlassian (@Atlassian) April 12, 2022
Die Statusseite von Atlassian wies laut ThousandEyes allerdings "ein Meer von orangefarbenen und roten Indikatoren" auf, die auf einen erheblichen Ausfall hindeuteten, während es für die meisten Kunden keine Probleme gegeben habe. Die Experten betonen, eine Statusseite unterstreiche oft das Ausmaß eines Vorfalls - dabei könne es jedoch auch zu einer Überbewertung kommen: "Es ist ein schwieriger Balanceakt: Kommuniziert man zu wenig oder zu spät, sind die Kunden verärgert über die Reaktionsfähigkeit. Sagt man zu viel, ist man übermäßig transparent und riskiert, eine große Anzahl nicht betroffener Kunden sowie die Stakeholder im Allgemeinen unnötig zu beunruhigen."
Rogers
Ein verpfuschtes Wartungs-Update sorgte Anfang Juli 2022 für einen langanhaltenden, landesweiten Ausfall im Netz des kanadischen Dienstleisters Rogers Communications. Der Ausfall betraf die Telefon- und Internetdienste von etwa zwölf Millionen Kunden und behinderte viele kritische Dienste im ganzen Land, darunter Banktransaktionen, Behördendienste und Notfalleinsätze.
Nach Angaben von ThousandEyes war der Tier-I-Provider fast 24 Stunden lang nicht über das Internet erreichbar: "Der Vorfall wurde scheinbar durch den Rückruf einer großen Zahl von Prefixes ausgelöst, wodurch das Netzwerk von Rogers nicht mehr zu erreichen war. Das im Netzwerk beobachtete Verhalten deutet jedoch darauf hin, dass der Entzug der externen BGP-Routen möglicherweise durch interne Routing-Probleme ausgelöst wurde."
Der Ausfall von Rogers zeigt, wie wichtig Redundanz bei kritischen Services ist. ThousandEyes empfiehlt, mehr als einen Netzwerk-Provider parat und einen Backup-Plan in der Tasche zu haben. "Kein Anbieter - egal wie groß - ist gegen Ausfälle immun. Planen Sie daher für wichtige Services etwa im Fall von Krankenhäusern oder Banken einen Backup-Netzwerkanbieter ein, der die Dauer und den Umfang eines Ausfalls abmildern kann", schreiben die Experten.
AWS Pt. 1
Ein Stromausfall sorgte Ende Juli 2022 für einen Ausfall in der Amazon Web Services (AWS) Availability Zone 1 (AZ1) in der Region US-East-2. "Der Ausfall beeinträchtigte die Konnektivität zu und von der Region und führte zum Ausfall von Amazon-EC2-Instanzen, was sich auf Anwendungen wie Webex, Okta, Splunk, BambooHR und andere auswirkte", berichtet ThousandEyes. Nicht alle Nutzer oder Dienste seien demnach gleichermaßen betroffen gewesen - Webex-Komponenten, die sich in Cisco-Rechenzentren befanden, blieben beispielsweise in Betrieb. AWS meldete, dass der Stromausfall nur etwa 20 Minuten dauerte - die Wiederherstellung der Services und Applikationen einiger Kunden nahm jedoch bis zu drei Stunden in Anspruch.
Dieser Ausfall verdeutlicht laut ThousandEyes, dass es Sinn macht, ein gewisses Maß an physischer Redundanz für Cloud-Anwendungen und -Services einzuplanen: "Es gibt keine weiche Landung bei einem Stromausfall in einem Rechenzentrum - wenn es dazu kommt, sind die Systeme stark beeinträchtigt. Ganz gleich, ob es sich um einen Stromausfall oder um den Ausfall eines der zugehörigen Systeme, wie beispielsweise der USV-Batterien, handelt - in solchen Zeiten ist die architektonische Ausfallsicherheit und Redundanz Ihrer digitalen Dienste von entscheidender Bedeutung."
Anfang August 2022 waren sowohl die Google-Suche als auch Maps weltweit für ungefähr eine Stunde nicht verfügbar. "Versuche, diese Dienste zu erreichen, führten zu Fehlermeldungen von Googles Edge-Servern, einschließlich HTTP 500 und 502 Serverantworten, die im Allgemeinen auf interne Server- oder Anwendungsprobleme hinweisen", analysiert ThousandEyes.
Die Hauptursache für den Ausfall war demnach ein fehlerhaftes Software-Update. Das verhinderte nicht nur, dass die Endnutzer auf die Suche und Maps zugreifen konnten, sondern legte auch Anwendungen lahm, die von Googles Softwarefunktion abhängig sind. Der Ausfall ist für IT-Experten aus mehreren Gründen interessant, wie ThousandEyes feststellt: "Erstens macht er deutlich, dass selbst die stabilsten Dienste denselben Kräften ausgesetzt sind, die jedes komplexe digitale System zum Einsturz bringen können. Zweitens hat das Ereignis gezeigt, wie allgegenwärtig einige Softwaresysteme sein können, die mit den vielen digitalen Diensten, die wir täglich nutzen, verwoben sind, ohne dass wir uns dieser Software-Abhängigkeiten bewusst sind."
Zoom
Ein Ausfall bei Zoom führte Mitte September vergangenen Jahres auf globaler Ebene zu Gateway-Fehlermeldungen. als Konsequenz konnten sich Nutzer etwa eine Stunde lang nicht bei Zoom-Meetings anmelden oder diesen beitreten.
Über die Ursache für diesen Ausfall wurde offiziell nichts bekannt. Die Thousand-Eyes-Experten vermuten in ihrer Ausfallanalyse, dass das Problem in den Backend-Systemen von Zoom gelegen hat.
Zscaler
Ende Oktober kam es bei einigen Zscaler-Kunden zu 100-prozentigen Paketverlusten. Der bedeutendste Paketverlust dauerte etwa 30 Minuten, obwohl einige Erreichbarkeitsprobleme und Paketverlustspitzen für einige Benutzerstandorte über die nächsten drei Stunden hinweg anhielten - so die Ausfallanalyse von ThousandEyes. Zscaler selbst bezeichnete das Problem auf seiner Statusseite als "Traffic-Forwarding-Problem".
ThousandEyes erläuterte, wie dieses Szenario dazu führen konnte, dass kritische Business-Tools und SaaS-Apps für einige Kunden, die die Sicherheitsdienste von Zscaler nutzen, unerreichbar waren: "Das könnte eine Vielzahl von Anwendungen für Unternehmenskunden betroffen haben, die den Service von Zscaler nutzen, da es für Secure Service Edge (SSE)-Implementierungen typisch ist, dass nicht nur Web-Traffic, sondern auch andere kritische Business-Tools und SaaS-Dienste wie Salesforce, ServiceNow und Microsoft Office 365 proxyisiert werden. Der Proxy befindet sich daher im Datenpfad des Benutzers, und wenn der Proxy nicht erreichbar ist, ist der Zugang zu diesen Tools beeinträchtigt. Eine Behebung erfordert oft manuelle Eingriffe, um die betroffenen Benutzer zu alternativen Gateways zu leiten."
Nach einem zweistündigen Ausfall Ende Oktober 2022 konnten WhatsApp-Nutzer keine Nachrichten über die Plattform senden oder empfangen. Die von Meta betriebene Freeware ist die beliebteste Messaging-App der Welt - 31 Prozent der Weltbevölkerung nutzen sie.
Laut der Ausfallanalyse von ThousandEyes war der Ausfall eher auf eine Störung der Backend-Anwendung als auf einen Netzwerkausfall zurückzuführen. Ungünstig war, dass sich der Ausfall während der Hauptgeschäftszeit in Indien ereignete, wo die App mehrere hundert Millionen Nutzer hat.
AWS Pt. 2
Anfang Dezember vergangenen Jahres hatte AWS einen zweiten Ausfall in der Region US-East 2 zu verzeichnen. Der Ausfall, der nach Angaben des Konzerns etwa 75 Minuten dauerte, führte zu Problemen bei der Internetverbindung zur und von der Region US-East 2.
ThousandEyes beobachtete mehr als eine Stunde lang erhebliche Paketverluste zwischen zwei globalen Standorten und der AWS-Region US-East-2. Dabei waren nur bestimmte Endanwender betroffen: "Der Verlust trat nur zwischen Endbenutzern auf, die sich über ISPs verbinden und schien keine Auswirkungen auf die Konnektivität zwischen Instanzen innerhalb der Region oder zwischen Regionen zu haben", so ThousandEyes in seiner Ausfallanalyse. (fm)
Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Network World.