Rechenzentrum mit KI

Das selbstfahrende Data Center

01.09.2020
Von 
Martin Bayer ist Chefredakteur von COMPUTERWOCHE, CIO und CSO. Spezialgebiet Business-Software: Business Intelligence, Big Data, CRM, ECM und ERP.
Künstliche Intelligenz und Machine Learning könnten das Management eines Data Center in vielen Bereichen automatisieren – zumindest in der Theorie. Tatsächlich tun sich Betreiber oft noch schwer, entsprechende Techniken zu implementieren.
Mehr Effizienz und Sicherheit im Rechenzentrum - KI und ML könnten hier einen großen Schritt weiterhelfen.
Mehr Effizienz und Sicherheit im Rechenzentrum - KI und ML könnten hier einen großen Schritt weiterhelfen.
Foto: Tommy Lee Walker - shutterstock.com

Funktionen rund um KI und maschinellem Lernen (ML) bergen viel Potenzial, den Betrieb von Rechenzentren ein ganzes Stück effizienter zu machen. KI könne Daten viel genauer interpretieren als Administratoren, sind sich die Experten einig. Durch Analyse und Nachlese von Betriebsdaten ließen sich tiefere Einsichten gewinnen, um den Energieverbrauch zu verringern, die Sicherheit zu erhöhen und die Workloads optimal auf die verfügbaren Systeme zu verteilen. Insgesamt verbessere sich so die Auslastung und Effizienz im gesamten Data-Center-Betrieb. Das betrifft unterschiedliche Bereiche:

RZ-Energiemanagement mit KI

Mit Hilfe von KI können Kühlsysteme besser überwacht und optimiert werden. So lassen sich Stromkosten senken und auch der Aufwand für das Monitoring des Energieverbrauchs verringern. Schätzungen zufolge gehen rund drei Prozent des globalen Stromverbrauchs auf das Konto von Rechenzentren. Die Anlagen sind darüber hinaus für etwa zwei Prozent des weltweiten Ausstoßes klimaschädlicher Treibhausgase verantwortlich.

So ist es kein Wunder, dass die Data-Center-Betreiber ihren Energieverbrauch stärker unter die Lupe nehmen - aus zwei Blickwinkeln: einmal, um Stromkosten zu sparen, aber auch um insgesamt umweltbewusster zu agieren. Schließlich rücken Nachhaltigkeitsaspekte immer stärker in den Fokus - seitens der öffentlichen Wahrnehmung eines Unternehmens, aber auch von Seiten der eigenen Stakeholder und Geldgeber.

Aus Sicht von Daniel Bizo, Analyst von 451 Research, lässt sich mit Hilfe von KI und ML herausfinden, wo Probleme in der Klimatisierung von Rechenzentren liegen. Das können Hindernisse im Luftstrom, ineffiziente Systeme für Heat, Ventilation und Air Circulation (HVAC) oder ein ungenügender Luftaustausch zwischen Kalt- und Warmgängen sein. KI-Systeme können den Aufbau eines Data Centers durch ständiges Dazulernen optimieren, indem Sensordaten aus der Anlage mit Informationen aus den HVAC-Systemen korreliert würden, so der Analyst.

In Sachen Energieeinsparung im Data Center gab es in den letzten Jahren kaum noch Fortschritte.
In Sachen Energieeinsparung im Data Center gab es in den letzten Jahren kaum noch Fortschritte.
Foto: Uptime Institute

In der betrieblichen Realität ist in Sachen Energieeffizienz allerdings zuletzt nicht mehr viel passiert. Das Uptime Institute befragt seit vielen Jahren Data-Center-Betreiber über den Betrieb ihrer Anlagen - im Frühjahr dieses Jahres standen knapp 850 RZ-Manager weltweit Rede und Antwort. Dabei kam heraus, dass es in Sachen Energieverbrauch in den zurückliegenden Jahren kaum noch Fortschritte gab. Der maßgebliche Wert, die Power Usage Effectiveness (PUE), pendelte in den Jahren 2018 bis 2020 jeweils um etwa 1,6.

Die größten Fortschritte wurden zwischen 2007 und 2013 erzielt. In diesen Jahren verringerte sich der Durchschnitts-PUE von 2,5 auf 1,65 (je kleiner der Wert, desto besser die Energieeffizienz). Tatsächlich erreichen neue Data Center, die mit aktueller Technik ausgestattet sind, PUE-Werte zwischen 1,2 und 1,4. Allerdings sei es oft schwer oder sogar unmöglich, ältere Anlagen auf eine effizientere Energienutzung hin zu trimmen, sagen die Experten des Uptime Institute.

Anders sieht es bei Neubauten aus, sagt Greg Schulz, Gründer des Beratungsunternehmens StorageIO. Dort seien immer noch reichlich Vorteile durch ein optimiertes Power Management zu erzielen. Neben der Wärmeanalyse bestehender Anlagen gehe es vor allem darum, ein Data Center von Anfang an richtig zu planen. Hier könnten Simulationen helfen, die richtige Server-Belegung eines Rechenzentrums herauszufinden. Auch im Betrieb könnten KI-basierte Werkzeuge weiterhelfen, beispielsweise wenn ein Server überlastet wird und auszufallen droht. Dann könnte ein intelligentes Monitoring die Ursache des Problems ermitteln und dafür sorgen, dass die betroffenen Workloads automatisch auf andere Server verteilt werden.

KI und ML fürs Gerätemanagement

Grundsätzlich können KI- und ML-Systeme laufend den Betriebsstatus von Server-, Storage- und Netzwerksystemen im Rechenzentrum überwachen und prüfen, ob die Geräte korrekt eingerichtet sind, also entsprechend der Vorgaben funktionieren. Im Zuge von Predictive Maintenance lasse sich zudem vorhersagen, wann bestimmte Geräte ausfallen. Administratoren würden so in die Lage versetzt, vorbeugende Maßnahmen zu ergreifen und Ausfallzeiten zu verhindern.

Rechenzentren seien oft bis zum Rand mit Geräten vollgestellt, die laufend gewartet werden müssten, stellt Schulz fest. KI-Systeme könnten jedoch über diese klassische Wartung hinaus den Betrieb der Server-, Storage und Netzwerksysteme sicherstellen. Über das Sammeln und Analysieren verschiedenster Telemetriedaten könnten die Admins rechtzeitig auf die Dinge aufmerksam gemacht werden, die ein schnelles Einschreiten erforderten. "KI-Tools schnüffeln ständig durch all diese Daten und weisen auf Muster und Anomalien hin", so der Berater. Mit fortlaufender Dauer lernten die Algorithmen, welche Anzeichen auf den Ausfall einer Komponente oder eines ganzen Systems hindeuten.

Darüber hinaus kann KI die Data-Center-Provider dabei unterstützen richtig zu planen, wenn es um Veränderungen oder den Ausbau ihrer Anlage geht. Dabei sei es elementar, sich über die Abhängigkeiten zwischen verschiedenen Komponenten im Klaren zu sein, mahnt Michael Bushong, Vice President für das Enterprise- und Cloud-Marketing bei Juniper Networks. Wenn ein Admin beispielswiese die Einstellungen einer Firewall verändert, sollte bekannt sein, welche Auswirkungen das auf andere Bestandteile des Rechenzentrums hat. Veränderungen in der Konfiguration können immer Probleme nach sich ziehen, so der Manger. Mittels KI ließen sich Wechselwirkungen leichter erkennen, was einem zusätzlichen Security-Check gleichkomme.

Ausfälle im Rechenzentrum verursachen immer höhere Schäden.
Ausfälle im Rechenzentrum verursachen immer höhere Schäden.
Foto: Uptime Institute

Laut der Umfrage des Uptime Institute verzeichneten in den vergangenen Jahren über 40 Prozent der Data-Center-Betreiber einen ernst zu nehmenden Ausfall - Tendenz leicht steigend. Gegenüber der gleichen Umfrage aus dem Vorjahr stieg der Anteil der Manager, die einräumten, dass ihre zuletzt verzeichnete Downtime vermeidbar gewesen wäre - von 60 Prozent 2019 auf 75 Prozent im Jahr 2020. Frühzeitiges Eingreifen hätte hier eine Menge Geld sparen können.

Denn insgesamt werden die Folgen der Ausfälle kostspieliger. Den Schaden ihres jeweils letzten Ausfalls bezifferten 2020 vier von zehn RZ-Betreibern auf einen Betrag zwischen 100.000 und einer Million Dollar. 2019 lagen nur 28 Prozent in dieser Schadensklasse. Der Anteil der Manager, die von noch schwereren Schäden jenseits der Million-Dollar-Marke berichteten, wuchs von 2019 auf 2020 von zehn auf 16 Prozent.

Viele Ausfälle hätten vermieden werden können, müssen auch die Data-Center-Betreiber einräumen.
Viele Ausfälle hätten vermieden werden können, müssen auch die Data-Center-Betreiber einräumen.
Foto: Uptime Institute

Die schwerwiegenden Ausfälle in Rechenzentren werden also teurer, so die Bilanz der Experten vom Uptime Institute. Das spiegele auch die wachsende Abhängigkeit der Unternehmen von einer funktionierenden IT wider. Sorgen bereitet den Marktbeobachtern die Tatsache, dass viele Betriebe den Schaden möglicher Ausfälle erst gar nicht kalkulieren und auf der Rechnung haben. Das Institut empfiehlt, sämtliche Vorfälle aufzuzeichnen, Log-Daten auszuwerten und so die Kosten von Ausfällen im Data Center im Blick zu behalten. Nur so lasse sich überhaupt verlässlich ein Return on Invest (RoI) für mehr Verfügbarkeit im RZ rechnen.

AI-basiertes Security-Management

Ein Bereich, der sich ebenfalls mittels KI optimieren lässt, ist die Sicherheit im Data Center. Algorithmen lernen, wie der 'normale' Netz-Traffic im Rechenzentrum aussieht und schlagen bei Anomalien Alarm. Die Tools lassen sich zudem so justieren, dass sie Vorfälle priorisieren und Vorschläge machen, wie Administratoren am besten reagieren sollten. Auch geben sie Tipps, wie sich Sicherheitslücken schließen lassen.

KI und ML macht es für die Admins einfacher, mit Sicherheitsvorfällen richtig umzugehen, sagt 451-Research-Analyst Bizo. Die Tools helfen, Ereignisse richtig zu klassifizieren und zu clustern. So könnten die Vorfälle identifiziert werden, um die sich die Verantwortlichen vorrangig kümmern sollten. Oft seien die Mitarbeiter in den Security Operations Centers (SOC) mit einer Vielzahl von ständigen Alarmen überlastet, wobei der überwiegende Teil meist ohne Belang ist. Algorithmen helfen, Wichtiges von Unwichtigem zu unterscheiden. Die Experten könnten sich dann um die wirklich relevanten Sicherheitsvorfälle kümmern.

Mit Hilfe von KI lassen sich den Experten zufolge darüber hinaus Einbrüche in die Anlagen in Echtzeit erkennen. Anhand bestimmter Muster werden Angriffe aufgedeckt, blockiert und isoliert. In Nachgang sind die SOCs in der Lage, mit den von KI- und ML-Tools gesammelten Daten forensische Untersuchungen anzustellen und zu ermitteln, was genau passiert ist und welche Lücken die Angreifer ausgenutzt haben.

KI-Workload-Management

Um Workloads im Data Center optimal zu verteilen, können KI- und ML-Funktionen laufend die Auslastung der Systeme überwachen und die anfallenden Aufgaben effizient auf die zur Verfügung stehenden Ressourcen zu verteilen. Viele Tools für das Workload-Management beziehen darüber hinaus auch Systeme in der Cloud und am Netzwerkrand (Edge) mit ein.

Algorithmen seien künftig in der Lage in Echtzeit zu entscheiden, wo ein bestimmter Workload am besten ablaufen sollte, sagt Bizo. Dabei ließen sich unterschiedliche Parameter definieren, anhand derer ein KI-System über die Verteilung der Rechenlasten entscheidet. Das könnten Leistung, Kosten, Governance oder die Sicherheit sein.

Eine solche Lastverteilung auf Basis verschiedener Variablen, die zudem laufend überwacht werden müssen, ist nicht trivial. Im vergangenen Jahr hatte das Massachussetts Institute of Technology (MIT) ein KI-System präsentiert, das Rechenoperationen über Tausende von Servern hinweg verteilen kann. Tatsächlich ist das effiziente Workload-Management aber in erster Linie eine Spezialität der großen Hyperscaler Amazon Web Services, Google und Microsoft.

KI-Rechenzntrum: Von der Pflicht zur Kür

Für Unternehmen mit eigenem RZ-Betrieb ist der Einsatz von KI dagegen in aller Regel noch nicht gelernter Alltag. Oft ist diesen Firmen noch gar nicht bewusst, wie sie mit KI- und ML-Tools ihre Anlagen automatisieren und sicherer machen können. Dabei rückt das Ziel eines sich selbst reparierenden Rechenzentrums, das nur noch seltenes Eingreifen von Administratoren erfordert und außerdem effizient und widerstandsfähig läuft, mit diesen Technologien durchaus in Sichtweite.

Die Hälfte der RZ-Verantwortlichen hat Probleme, Fachkräfte zu bekommen.
Die Hälfte der RZ-Verantwortlichen hat Probleme, Fachkräfte zu bekommen.
Foto: Uptime Institute

Es dürfte aber noch dauern, bis entsprechende Werkzeuge neben dem klassischen Data Center Infrastructure Management (DCIM) in die Cockpits der Admins Einzug halten. Immerhin: Laut Said Tabet, Techniker aus dem CTO-Team bei Dell Technologies, haben im Zuge der Coronakrise Ideen für mehr Automatisierung und KI-betriebene, sich selbst reparierende digitale Data Center einen deutlichen Schub erfahren. Allerdings gebe es noch viele Hürden.

Vor allem fehlen den Rechenzentrumsbetreiber Experten, um die KI-Systeme zu trainieren und zu managen, sagt der Dell-Manager. Eine weitere Schwierigkeit liege darin, dass es keine einheitlichen Datenstandards für das Monitoring der unterschiedlichen Systeme gebe. Zudem müssten vielfach erst Widerstände überwunden werden. Admins gefalle es nicht, wenn man ihnen die Kontrolle über ihre Systeme aus der Hand nehme.

KI kann helfen, den Data-Center-Betrieb besser zu handeln, sagen drei Viertel der Befragten. Bis die technik dafür reif sei, werde es aber noch einige Jahre dauern, glaubt eine Mehrheit.
KI kann helfen, den Data-Center-Betrieb besser zu handeln, sagen drei Viertel der Befragten. Bis die technik dafür reif sei, werde es aber noch einige Jahre dauern, glaubt eine Mehrheit.
Foto: Uptime Institute

Die Hälfte der vom Uptime Institute befragten Manager gibt denn auch an, Schwierigkeiten bei der Suche nach geeigneten Kandidaten zu haben. 2019 lag dieser Anteil noch bei 41 Prozent. Die Frage, ob mehr Automatisierung und ein verstärkter Einsatz von KI den Betrieb vereinfachen und die personelle Situation entspannen könnte, verneint ein knappes Viertel der Befragten. Immerhin gehen drei von vier Data-Center-Managern davon aus, dass KI ihre Arbeit durchaus erleichtern könnte. Andererseits sagen 43 Prozent, dass es noch mehr als fünf Jahre dauern werde, bis die entsprechende Technik soweit sei.

Dabei sind die mit Hilfe von KI erzielten Vorteile im Data-Center-Betrieb durchaus eindrucksvoll. So könnte es sich auch lohnen, bei den Großen der Branche abzuschauen. Google beispielsweise hat bereits 2018 angekündigt, die Steuerung der Kühlungssysteme in einer Reihe seiner Hyperscale-Data-Center einem KI-Programm anzuvertrauen. Die Empfehlungen der Algorithmen sorgten in der Folge für eine Reduktion des Energieverbrauchs um sage und schreibe 40 Prozent.