Nachdem sich die beiden große Chiphersteller Intel und AMD erst vor wenigen Wochen mit neuen Desktop-CPUs in Stellung gebracht haben, geht das Rennen nun auch im Server-Bereich in die nächste Runde. Beide Anbieter haben neue Generationen ihrer Server-CPU-Familien vorgestellt, die in erster Linie für High-Performance-Computing- (HPC-)Workloads ausgelegt sind.
Intel hat seine bereits seit längerem erwartete Xeon CPU Max Series (Codename: Sapphire Rapids HBM) und seine Data Center GPU Max Series (Codename: Ponte Vecchio) vorgestellt. Das neue Label "Max", das den Xeon-Familiennamen in den Hintergrund drängen dürfte, soll die Verbesserungen in Sachen Rechenleistung und Bandbreite transportieren, erläuterte Jeff McVeigh, Corporate Vice President und General Manager der Super Compute Group von Intel.
Mehr Highend-Speicher für rechenintensive Workloads
Die Max-Prozessoren arbeiten mit bis zu 56 Rechenkernen, die von 64 Gigabyte (GB) High-Bandwith-Memory- (HBM-)Speicher unterstützt werden. HBM lasse sich laut Intel wie klassischer Arbeitsspeicher verwenden. Die Betreiber von Rechenzentren könnten damit Geld und Energie einsparen, verspricht McVeigh. Die CPU erreicht dem Hersteller zufolge eine Speicherbandbreite von rund 1 Terabyte (TB) pro Sekunde.
Zudem seien im HBM-only-Modus keine Veränderungen am Softwarecode notwendig, damit der Speicher als Arbeitsspeicher erkannt und entsprechend verwendet wird. Auch wenn die Max-Prozessoren klassisch DDR-RAM-Module verwenden und HBM als Cache-Speicher verwendet wird (HBM caching mode), muss die Software nicht angepasst werden. Anders ist es wenn DDR-RAM und HBM im HBM-flat-mode als zwei gleichberechtige RAM-Instanzen laufen sollen. Dann muss der Code der Software entsprechend konfiguriert werden, damit beide Speichertypen erkannt werden.
Die Max-Familie unterstützt DDR5-RAM, PCIe 5.0 und Compute Express Link (CXL) 1.1. Damit lasse sich der Arbeitsspeicher direkt per PCIe 5.0 an den Prozessor ankoppeln. Die Thermal Design Power (TDP) liegt bei 350 Watt. Intel hat etliche Beschleuniger in seine neuen Server-CPUs vorintegriert. Dazu gehören Advanced Vector Extensions 512 (AVX-512), Deep Learning Boost (DL Boost), Data Streaming Accelerator (DSA) und Advanced Matrix Extensions (AMX). Damit sollen sich in erster Linie rechenintensive Workloads wie beispielsweise das Training von Machine-Learning-(ML-)Modellen beschleunigen lassen.
Intel bringt Data-Center-GPU für die Max-Series
Mit der auch bereits seit längerer Zeit annoncierten Graphic Processing Unit (GPU) Ponte Vecchio, die künftig ebenfalls unter dem Markennamen Max firmieren soll, will Intel Boden auf Nvidia gutmachen, das im Highend-GPU-Geschäft die Nase vorn hat. Außerdem will sich Intel AMD vom Leibe halten, das an dieser Stelle ebenfalls Ambitionen anmeldet. Die Intel-Verantwortlichen bezeichnen die neue GPU als ihren am dichtesten gepackten Chip. Mehr als 100 Milliarden Transistoren sind in 47 Chiplets - Intel spricht hier von "Tiles" - in einem System-on-Package zusammengepackt. Die einzelnen Tiles sind über Intels Embedded Multi-die Interconnect Bridge (EMIB) miteinander verbunden.
Die Max Series GPU verfügt über bis zu 128 Rechenkerne, die auf Intels Xe HPC-Mikroarchitektur basieren. Mit eingebaut sind außerdem bis zu 128 Raytracing-Einheiten, die speziell für Workloads wie Simulationen, die Erstellung digitaler Inhalte oder Visualisierungsanwendungen ausgelegt sind. Jede GPU verfügt zudem über 16 Xe-Link-Anschlüsse, über die mehrere GPUs direkt miteinander verknüpft werden können. Wie die Server-CPUs aus der Max-Reihe arbeitet auch die Max-GPU mit HBM, wobei die Kapazität in diesem Fall bis zu 128 GB betragen kann. Darüber hinaus kann die GPU mit maximal 408 MB L2-Cache vom Typ Rambo (random access memory bandwidth optimized) bestückt werden.
Die Speicherhierarchie des Grafikprozessors sei so gestaltet, dass möglichst viele Daten so nah wie möglich an den Recheneinheiten des Prozessors liegen, sagte Intel-Manager McVeigh. Es gehe darum, diese Multi-Teraflops-Engine mit genügend Daten zu füttern, um die entsprechenden Anwendungen wirklich performant ausführen zu können.
Aurora - Exascale-Superrechner auf Intel-Basis kurz vor dem Start
Intel will seine Grafikprozessoren der Max-Serie in verschiedenen Formfaktoren und Konfigurationen anbieten. Für Standard-Server gibt es die Intel Data Center GPU Max 1100, eine PCIe-Karte mit 56 Xe-Kernen und Raytracing-Einheiten sowie 48 GB HBM. Für Rechenzentren, die sich an das Serverdesign des Open Compute Project halten, gibt es zwei OCP Accelerator Modules (OAMs): Die Max Series 1350 GPU verfügt über 112 Xe-Kerne und 96 GB HBM, die Max Series 1550 GPU ist mit 128 Xe-Kernen und 128 GB HBM ausgestattet. Beide Module verfügen über eine 53G SerDes Intel Xe Link-Brücke, über die bis zu acht OAMs direkt kommunizieren können. Intel fasst außerdem vier GPU-OAMs in einem Subsystem zusammen, das bis zu 512 GB HBM mitbringt und eine Gesamtspeicher-Bandbreite von 12,8 TB/s bietet.
Ihre Feuertaufe sollen die Intel-Chips im neuen Supercomputer des US Department of Energy (DoE) erhalten. Aurora, die der zweite Rechner der Exascale-Klasse in den USA werden soll, hat sich bereits etliche Jahre verspätet. 2015 angekündigt musste der Betreiber, das Argonne National Laboratory, den Start immer wieder verschieben. Erst hatte Intel die Entwicklung seiner Highend Xeon-Phi-Chips abgekündigt, dann kamen immer wieder Fertigungs- und Produktionsprobleme dazwischen. Nach Verschiebungen von 2018 auf 2021 und dann auf 2022 rechnet man nun mit einem Start im kommenden Jahr. Da das System noch nicht fertiggestellt sei, würden keine Ergebnisse für die aktualisierte Herbstliste der Top-500 Supercomputer eingereicht, die für Mitte November erwartet wird, räumte McVeigh ein. Man konzentriere sich derzeit auf die Installation und die Optimierung des Systems.
AMD kommt schneller aus den Startlöchern
Während Intel mit seiner Max-Series erst im kommenden Jahr starten will, kommt AMD dem Erzrivalen zuvor. Der Intel-Konkurrent hat bereits die Verfügbarkeit der 4. Generation seiner Server-CPUs aus der EPYC-Reihe angekündigt. Lisa Su, Vorsitzende und CEO von AMD, sprach im Zusammenhang mit dem 4. Gen EPYC von einem großen Schritt in Sachen Leistung und Effizienz. Anwender könnten damit in ihren Rechenzentren die Leistung verbessern, die Infrastruktur konsolidieren und die Energiekosten senken.
AMDs neue Server-Prozessoren - Codename Genoa - basieren auf der eigenen Zen-4-Architektur. Die insgesamt 18 Varianten bringen 32 bis 96 Rechenkerne mit und erfordern eine Thermal Watt Power (TWP) zwischen 280 und 360 Watt. Wie die Intel-Konkurrenz unterstützen die EPYC-4-CPUs DDR-5-Speicher, PCIe 5.0 sowie Compute Express Link (CXL) 1.1.
AMD hat darüber die Sicherheitsfunktionen in seinen Chips verbessert. Der Hersteller spricht von einem Security-by-Design-Ansatz. Mit Infinity Guard schnürt AMD ein Funktionspaket, das verschiedene physische und virtuelle Schutzschichten bieten soll. Beispielsweise sei die Zahl der Keys für die Verschlüsselung verdoppelt worden. Damit ließen sich die über die Prozessoren verarbeiteten Daten besser schützen, unabhängig vom Lagerort, sei es On-premises, in der Cloud oder im Speicher der CPU. Ein weiteres Feature-Set soll Anwender dabei unterstützen, die Prozessorleistung besser an bestimmte Workloads anzupassen. Damit lasse AMD zufolge die Effizienz im CPU-Verbrauch verbessern, was im Endeffekt zu geringeren Kosten führe.
Bergamo mit unterschiedlichen Core-Typen
Rechnerhersteller wie Dell, HPE und Lenovo haben bereits Server mit AMDs neuen EPYC-Prozessoren angekündigt. Im Rahmen der Präsentation der Chips sprach ein Dell-Vertreter von einer deutlichen Leistungssteigerung im Vergleich zur Vorgängergeneration. Im Rahmen erster Tests habe man auch eine bessere Energieeffizienz, also Performance pro Watt, feststellen können. Neben den Server-Herstellern wollen auch Cloud-Anbieter wie Google, Microsoft und Oracle Rechner mit den neuen EPYC-CPUs für ihre Infrastrukturen verwenden.
Für die erste Jahreshälfte 2023 hat AMD bereits die auf einer erweiterten Zen-4-Architektur basierende nächste CPU-Generation angekündigt - Codename Bergamo. Dort sollen verschiedene Kerntypen für Rechenleistung sorgen. Neben Performance-Cores sollen sparsamere, auf mehr Effizienz getrimmte Rechenkerne für die Standardaufgaben zuständig sein. Hersteller wie Intel und der Chipdesigner ARM setzen in ihren Chips bereits seit längerem auf eine differenziertere Aufgabenteilung der Rechenkerne in den Prozessoren.