Die weiter rasant ansteigenden Datenmengen und Datenarten verlangen inzwischen völlig neue Technologien beim Betrieb moderner Rechenzentren. Beispielsweise helfen KI-Systeme, den Zustand und die Einsatzfähigkeit vieler Komponenten proaktiv zu managen. Durch die Verwendung von Vorhersagealgorithmen und dem Auswerten der Protokolle von verschiedenen Geräten kann KI die Ursache von Ausfällen aufdecken, eventuelle Anomalien melden und vorbeugend eingreifen. Hinzu kommt, dass KI auch immer häufiger für die RZ-Administration zum Einsatz kommt. "Der Rechenzentrumsbetrieb wird immer komplexer, weil die Unternehmen immer vielfältigere Workloads und neue Technologien wie Edge und 5G darin integrieren", sagt Sid Nag, Research Vice President bei Gartner.
Zuverlässigkeit hat höchste Priorität
Einer der wichtigsten Faktoren eines jeden Rechenzentrums ist die Verfügbarkeit. Einzelpersonen und Unternehmen verlassen sich auf Rechenzentren, um sicherzustellen, dass sie ihre Arbeiten jederzeit ohne Beeinträchtigungen durchführen können. Selbst kurze Unterbrechungen sind in vielen Fällen nicht akzeptabel. Damit entfällt auf die Überwachung der Hard- und Software eine große Verantwortung.
Traditionelle Rechenzentren verlassen sich dabei auf relativ einfache Technologien wie Ping-Geräte, um sicherzustellen, dass alle Komponenten aktiv sind. Das hat sich bewährt, denn zusammen mit anderen Maßnahmen konnte die RZ-Verfügbarkeit in der Vergangenheit kontinuierlich verbessert werden. Doch mit KI lässt sich eine deutlich höhere Stufe der IT-Zuverlässigkeit erreichen. Das liegt vor allem daran, dass KI-Systeme Probleme mit der Stromversorgung, der Hardware, der Latenz und vielen anderen kritischen Systemkomponenten erkennen können, bevor sie akut werden. Und sie können sogar automatisch die richtigen Korrekturmaßnahmen einleiten; beispielsweise das Umleiten des Datenverkehrs an ein nicht betroffenes System, den Restore von einem Backup-System oder auch die Benachrichtigung eines Technikers.
Der erste Schritt: Zuverlässige Daten-Akquisition
Alle diese modernen, KI-basierten Monitorsysteme benötigen zunächst qualifizierte Daten, denn auch hier gilt die bekannte IT-Regel: Garbage in - Garbage out! Die Lösung dafür sind hardwarebasierte Telemetrie-Systeme, beipielsweise der Intel® Telemetry Collector (ITC), der die wichtigsten Messwerte zum Energieverbrauch, Speichereinsatz oder zur Ressourcenauslastung bereitstellt. Für eine effizientere Nutzung der Telemetriedaten, insbesondere bei größeren Serverkonstellationen, empfiehlt sich die Einrichtung eines eigenen skalierbaren Software-Stacks, der die Daten über alle eingesetzten Cluster hinweg sammeln, speichern, kategorisieren und darstellen kann. Hierfür stellen Intel® und seine Partner entsprechende Tools bereit. Sie erlauben eine umfassende Überwachung, mit der die Reaktionsfähigkeit der eigenen IT bei Lastwechsel oder Performanceproblemen verbessert wird und somit die Zuverlässigkeit und Sicherheit der gesamten Infrastruktur erhöht werden kann. Ein entsprechender Ausbau unter Einsatz von KI ermöglicht dann eine vorausschauende Wartung und eine Teilautomatisierung.
Der zweite Schritt: Diagnose und Empfehlungen
Inzwischen gibt es bereits KI-basierte Modelle, die sich aufgrund der anfallenden Daten mithilfe von Machine- und Deep-Learning (ML/DL) selbst anpassen. Doch dafür müssen die betroffenen Systemkomponenten entsprechende Einrichtungen zur Generierung dieser Messwerte aufweisen. So verfügen etwa die skalierbaren Intel® Xeon™ Prozessoren über Performance Monitoring Units, die Taktfrequenzen, Cache-Nutzung und ähnliche Parameter überwachen und so eine bereits hardwareseitig implementierte Grundlage für die Telemetrie bieten.
Ein weiteres Monitoring-System ist das Intel® Data Center Diagnostic Tool (DCDIAG), das eine fehlerhafte CPU in weniger als einer Stunde lokalisieren kann. Das Tool bietet auch einen Hintergrundtestmodus, bei dem die Tests nur eine Sekunde lang pro Stunde mit minimaler Auswirkung auf die Systemleistung durchgeführt werden. Die DCDIAG-Tests ähneln denen, die in den Rechenzentren der großen Cloud-Hyperscaler ausgeführt werden. IT-Administratoren, die DCDIAG regelmäßig verwenden, können potenzielle Probleme proaktiv erkennen und viele Servicequalitäts- und Betriebszeitprobleme beseitigen, lange bevor sie auftreten. IDC würdigte die positiven Auswirkungen von DCDIAG in einer Research-Note. So schreiben die beiden Autoren Lucas Mearian und Ashish Nadkarni darin: "Dieses Diagnose-Werkzeug erlaubt den IT-Administratoren, die zunehmend komplexeren Probleme bei der Einhaltung von Service-Level-Agreements (SLAs) proaktiv anzugehen."