Die größten Netzausfälle des Jahres 2021 hatten eines gemeinsam: Sie trafen große Infrastruktur- oder Serviceanbieter - und damit auch viele Unternehmen und Endnutzer. "Ein Plan B sollte vorhanden sein", meint Angelique Medina, Head of Product Marketing bei ThousandEyes - das zu Cisco gehört. "Unternehmen sollten nicht von der Verfügbarkeit eines bestimmten Dienstes abhängig sein."
Netzausfälle 2021: Top 5 Outages
Das waren - den Daten von ThousandEyes zufolge - die fünf größten Netzausfälle des Jahres 2021:
1. Facebook: 4. Oktober
Der größte Ausfall des Jahres 2021 fand im Oktober bei Facebook statt. Diese Outage dauerte etwa sieben Stunden und betraf alle Facebook-Dienste (inklusive Instagram, WhatsApp und Oculus), sowie alle Unternehmen, die den Authentifizierungsmechanismus von Facebook nutzen.
Der Grund: Ein routinemäßiger Wartungsauftrag ging schief, und sowohl die Systemserver als auch die BGP-Routen waren betroffen. Schlimmer noch: Nicht nur die öffentlich zugänglichen Dienste von Facebook fielen aus, sondern auch die Tools, die die Mitarbeiter zur Verwaltung dieser Services nutzen. Infolgedessen mussten die Systeme in den Rechenzentren manuell neu gestartet werden.
Laut Santosh Janardhan, Vice President Infrastructure bei Facebook, wurde versehentlich ein Befehl erteilt, der alle Verbindungen im Backbone-Netz von Facebook unterbrach und alle Rechenzentren abschaltete: "Unsere Systeme sind darauf ausgelegt, solche Befehle zu prüfen, um Fehler wie diesen zu vermeiden. Allerdings verhinderte ein Fehler in diesem Prüfwerkzeug, dass der Befehl ordnungsgemäß gestoppt wurde", schrieb der Manager.
Dieser Fehler habe zum Ausfall von Systemen geführt, die auf DNS-Anfragen reagieren. Da die DNS-Server von Facebook keine Verbindung mehr zu den Rechenzentren herstellen konnten, deaktivierten sie automatisch die zugehörigen BGP-Werbeanzeigen. Das führte dazu, dass die DNS-Server nicht erreichbar waren, obwohl sie selbst noch in Betrieb waren: "Das lief alles sehr schnell ab. Als unsere Ingenieure herausfinden wollten, was passiert war und warum, stießen sie auf zwei große Hindernisse", schrieb Janardhan. "Erstens war es nicht möglich, auf normalem Wege auf unsere Rechenzentren zuzugreifen, da ihre Netzwerke ausgefallen waren, und zweitens machte der Totalausfall des DNS viele der internen Tools zunichte, die wir normalerweise zur Untersuchung und Behebung solcher Ausfälle verwenden."
2. AWS: 7. Dezember
AWS ist der weltweit größte Anbieter von Cloud-Diensten. Wenn diese Services ausfallen, sind potenziell sehr viele Unternehmen davon betroffen.
Am 7. Dezember 2021 waren Amazons eigene Services, genauso wie Consumer Devices wie Roomba und Ring sowie Streaming-Dienste wie Disney+ und Netflix von einem mehr als einstündigen Ausfall betroffen. Dieser war auf Probleme mit AWS EC2 APIs in der Region US-EAST-1 zurückzuführen.
"Der Ausfall machte deutlich, wie wichtig es für Unternehmen ist, den Zustand aller APIs zu überwachen, die Teil ihrer Anwendungen sind und zur Service Delivery, Kundenerfahrung und der "Build and Deploy"-Fähigkeit des Unternehmens beitragen", meint Chris Villemez, Senior Technical Marketing Engineer bei ThousandEyes. "Erschwerend kam hinzu, dass die Unternehmenskunden mehr als eine Stunde lang keine Informationen auf ihrer AWS-Statusseite abrufen konnten."
3. Fastly: 8. Juni
Fastly ist eines der kleineren Content Delivery Networks (CDNs). Nach Angaben von Enlyft bringt es das Unternehmen einen Marktanteil von 4 Prozent. Zum Vergleich: CloudFlare bringt es auf 39 Prozent, Amazon CloudFront auf 24 Prozent Marktanteil. Dennoch nutzen mehr als 100.000 Unternehmen die Fastly-Services - darunter beispielsweise Reddit und die New York Times. Auch Amazon und eBay nutzen einige Dienste von Fastly und waren deshalb von dieser Outage betroffen.
Die Erfahrungen der Kunden mit dem Ausfall waren jedoch sehr unterschiedlich, je nachdem, in welchem Maße sie auf Fastly-Dienste angewiesen waren und wie sie auf den Ausfall reagierten. Laut einem Bericht von ThousandEyes fiel beispielsweise Reddit komplett aus. Der New York Times gelang es dagegen, die Ausfallzeit zu verkürzen, indem sie die Nutzer direkt zu den Servern ihrer Website schickte, die in der Google Cloud Platform gehostet wurden. Dennoch dauerte es einige Zeit, bis die Korrektur vorgenommen wurde und sich die aktualisierten DNS-Einträge verbreiteten. "Je nachdem, wie langlebig Ihre DNS-Datensätze sind, kann das einen Einfluss darauf haben, wie schnell Sie Ihren Nutzern helfen können", sagt Medina.
Amazon nutzt mehrere Content Distribution Networks, darunter sein eigenes Cloudfront CDN und Akamai. Als Fastly ausfiel, konnte das Unternehmen die Anfragen auf andere CDNs umleiten und so die Auswirkungen des Ausfalls erheblich reduzieren. In ähnlicher Weise nutzte eBay Fastly nur für einige Inhalte, insbesondere für einzelne Objekte auf Webseiten. Für die Auslieferung der Webseiten selbst nutzte das Unternehmen Akamai. Im Laufe des Ausfalls war eBay daher in der Lage, Anfragen von Fastly wegzuleiten und konnte so die Auswirkungen des Ausfalls noch weiter reduzieren.
4. Akamai Edge DNS: 22. Juli
Akamai ist ein globales Content-Delivery-Netzwerk, das in Bezug auf Nutzerzahl und Marktanteil mit Fastly vergleichbar ist. Wie beim Ausfall von Fastly waren auch hier Unternehmen weniger stark betroffen, die mehrere CDNs nutzen.
Bei diesem Ausfall war der DNS-Service von Akamai, der die Nutzer zum CDN-Netzwerk von Akamai weiterleitet, über eine Stunde lang nicht erreichbar. Nach Angaben des Unternehmens löste ein Update der Softwarekonfiguration einen Fehler in seinem Secure Edge Content Delivery Network aus, der sich auf das Domain-Name-Service-System des Netzwerks auswirkte.
Viele große Websites waren von dieser Outage betroffen, darunter Steam, American Airlines, Fox News und HSBC. Amazon, das mehrere CDNs nutzt, konnte den Datenverkehr umleiten und so die Nutzer vor Auswirkungen bewahren.
5. Azure AD: 15. Dezember
Der Active-Directory-Service von Azure fiel Mitte Dezember für eineinhalb Stunden aus und verhinderte, dass sich Benutzer bei Microsoft-Diensten wie Office 365 anmelden konnten.
"Einige Unternehmen nutzen den Dienst auch für die Authentifizierung bei ihren eigenen Systemen und Diensten", weiß Medina. "Auch wenn die Anwendungen selbst verfügbar waren, konnten sich die Benutzer nicht anmelden."
Outages verhindern: Digitale Lieferkette im Fokus
Die wichtigste Erkenntnis, die sich aus diesen Ausfällen ziehen lässt: Unternehmen müssen sich aller Komponenten und Abhängigkeiten bewusst sein, die erforderlich sind, damit ihre Systeme funktionieren. Und zwar sowohl im Back- als auch im Frontend.
"Diese Komponenten geben uns viele Optionen und eine große Flexibilität und letztlich die Möglichkeit, Inhalte über das Internet bereitzustellen", sagt Villemez. Allerdings ergebe sich daraus ein komplexes Geflecht aus miteinander verbundenen Diensten und Abhängigkeiten, von denen viele außerhalb der direkten Kontrolle eines Unternehmens liegen. "Für ITOps-Teams ist es daher absolut entscheidend, nicht nur die direkten, sondern auch die indirekten Abhängigkeiten zu kennen. So können Sie für den Fall der Fälle vorausplanen und Probleme umgehen, während die Anbieter eine Lösung finden." (fm)
Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Network World.