Web-Giganten wie AWS, Microsoft, Google, Meta (Facebook) und eBay gelten als "Hyperscaler". Das bedeutet, dass deren IT-Infrastruktur praktisch als unbegrenzt skalierbar erscheint. Diese Plattformen werden parallel von Tausenden von Geschäftskunden oder Millionen von Verbrauchern genutzt. Und das wird weiter ansteigen, denn ein ungebrochenes Datenwachstum, künstliche Intelligenz (KI), maschinelles Lernen (ML), High-Performance Computing Workloads (HPC) und viele neue Apps führen zu einer unstillbaren Nachfrage. Dabei stehen die Hyperscaler in einem scharfen Konkurrenzkampf mit den Diensten der hauseigenen Rechenzentren. Nur wenn die Cloud-Angebote besser und günstiger sind, wechseln die IT-Chefs auf eine Public Cloud.
Ein besonderes Problem der Hyperscaler ist das extrem heterogene Nutzungsspektrum: Bei IaaS (Infrastructure as a Service) benötigen viele Business-Anwender Instanzen mit großer Leistung in Fast-Echtzeit, andere dagegen wollen speicherintensive Rechenleistungen, die aber nicht sonderlich zeitkritisch sind. Bei Social Media, Suchmaschinen und den großen Shopping-Plattformen stehen dagegen relativ einfache Microservices im Vordergrund, die aber millionenfach parallel ablaufen müssen.
OCP-Rack-Server werden Mainstream
Als Facebook Ende der 2010er-Jahre seine RZ-Technologien im großen Stil erweitern musste, wurde zusammen mit Intel und Rackspace das Open Compute Project (OCP) ins Leben gerufen. In der Folge entwickelte OCP neue Standards und drängte auf den Einsatz von "Commodity-Systemen", die effizienter, flexibler und skalierbarer sind als die bis dato proprietäre Hardware. Ein Beispiel dafür war das OCP-Rack, das statt der damals üblichen 19 Zoll jetzt 21 Zoll breit ist, was eine bessere Belüftung erlaubt. Im Vergleich zu herkömmlichen Designs bietet die OCP-Struktur viele Vorteile. So konnte Facebook durch den Einsatz von OCP-Rack-Servern die Beschaffungskosten um 45 Prozent und die Betriebskosten um 24 Prozent senken. Gleichzeitig verbesserte sich die Energieeffizienz um 38 Prozent. Die Marktforscher von Omdia glauben, dass schon in drei Jahren 40 Prozent aller Server weltweit auf offenen Standards basieren und - OCP-Rack-Server in Kürze der Mainstream-Formfaktor sein werden.
Optimale Prozessornutzung
Die zunehmenden KI-Anwendungen sind ein besonderes Problem für die Hyperscaler, denn es gibt kaum Erfahrungen, welche Basis-Infrastruktur hierfür am besten geeignet ist. Beispielsweise haben Versuche von Meta und AWS gezeigt, dass das Hinzufügen von GPUs zu einem ML-Trainingscluster den Durchsatz nicht linear verbessert. Es ist sogar so, dass signifikant mehr GPUs aufgrund des erhöhten Kommunikations-Overheads zu einer Verschlechterung des Durchsatzes pro GPU führen. In einem System mit 128 GPUs begrenzte der Overhead den Durchsatz auf 51 Prozent pro GPU - bei 512 GPUs verlängerte sich die Trainingszeit um bis zu 25,7 Tage, und die Kosten stiegen um bis zu 1,3 Millionen Dollar an. Aber auch an anderer Stelle bremst Kommunikation die Performance aus. Beispielsweise bei der exzessiven Nutzung von Microservices. Untersuchungen bei Meta haben gezeigt, dass der Microservice-Overhead aufgrund der disaggregierten Struktur zwischen 31 und 83 Prozent betragen kann.
Google: Power-Instanzen für KI/ML
Google und Intel arbeiten intensiv zusammen, um die Google-Cloud-Plattform (GCP) für eine Vielzahl unterschiedlicher Anforderungen auszustatten. So bietet GCP unter anderem die Allzweck-N2-Instanz sowie die rechenoptimierte C2-Instanz an, die beide auf Intel-Architekturen basieren. Diese Instanzen ergänzen sich optimal um vor allem KI/ML-Anwendungen wie Bild- und Videoanalyse, Empfehlungssysteme, Verarbeitung natürlicher Sprache (NLP) und andere High-End-Analysen zu verbessern. Die GCP-Deep-Learning-VMs und die GCP-Container sind speziell für die skalierbaren IntelXeon-Prozessoren optimiert. Diese sind so konfiguriert, dass sie alle gängigen KI-Frameworks, wie TensorFlow und PyTorch, unterstützen.
AWS: 40 Prozent besseres Preis-Leistungs-Verhältnis
Zum umfangreichen AWS-Angebot gehören unter andere die EC2 DL1.24xlarge-Instances. Diese basieren auf AI-Prozessoren von Habana, einer Intel-Tochtergesellschaft. Hierbei handelt es sich um die ersten KI-Trainingsinstanzen von AWS, die nicht auf GPUs basieren. Laut AWS bieten diese ein bis zu 40 Prozent besseres Preis-Leistungs-Verhältnis als die GPU-basierten Instanzen. Tests haben gezeigt, dass im Vergleich zur p4d-Instanz beim Training von ResNet-50 Einsparungen von bis zu 44 Prozent erzielt werden können - für p3dn-Endbenutzer sind es sogar 69 Prozent.
Fazit
"Von anderen lernen ist am billigsten und effizientesten", heißt es. Zweifelsohne haben die Hyperscaler die umfangreichsten Erfahrungen in puncto RZ-Automatisierung, -Maintenance und Optimierung. Vieles von dem, was sich dort bewährt hat, kann ohne Umschweife auch sofort in die Infrastruktur von Nicht-Hyperscalern integriert werden; sei es bei der Auswahl der CPUs, der Administration oder der Anpassung an moderne Workloads wie KI/ML.
Die hier aufgeführten Beispiele sind nur eine kleine Auswahl der vielen Möglichkeiten, um die eigene RZ-Technologie zu modernisieren.