Bis zu 26 ExaFlops an KI-Leistung

Google bringt A3-Supercomputer für KI-Training

16.05.2023
Von 
Andy Patrizio arbeitet als freier Journalist für die Network World.
Google Cloud hat eine neue Serie von virtuellen Supercomputern angekündigt. Sie sind für das schnelle Training großer KI-Modelle gedacht.
Google hat mit den neuen A3-Supercomputer-VMs neue Maschinen zum KI-Training vorgestellt.
Google hat mit den neuen A3-Supercomputer-VMs neue Maschinen zum KI-Training vorgestellt.
Foto: Gorodenkoff - shutterstock.com

Die neuen A3-Supercomputer-VMs, die auf der Google I/O-Konferenz vorgestellt wurden, sind dafür ausgelegt, die erheblichen Ressourcenanforderungen eines großen Sprachmodells (LLM) zu bewältigen. Oder, wie es Google formuliert: "Die A3 GPU VMs wurden entwickelt, um das leistungsfähigste Training für die heutigen Machine-Learning-(ML-)Workloads zu liefern, komplett mit moderner CPU, verbessertem Host-Speicher, Nvidia GPUs der jüngsten Generation und umfangreichen Netzwerk-Upgrades".

Die Technik hinter A3 VM

Die Instanzen des Supercomputers werden laut Google jeweils von acht Nvidia H100-GPUs angetrieben. Dabei handelt es sich um Nvidias neueste GPU, die erst Anfang des Monats auf den Markt kam. Ihnen zur Seite stehen Intel-Xeon-Scalable-Prozessoren der 4. Generation sowie 2 TB Host-Speicher. Die acht GPUs sind untereinander mit einer Bandbreite von 3,6 TB verbunden.

26 ExaFlops Leistung

Die kumulierte Leistung dieser Maschinen - also alle Instanzen zusammen - gibt Google mit bis zu 26 ExaFlops an. Damit wird der alte Rekord für den schnellsten Supercomputer, Frontier, der bei etwas mehr als einem ExaFlop lag, weit übertroffen.

IPU-Premiere im A3

Pro Instanz nutzt Google acht Nvidia H100-GPUs.
Pro Instanz nutzt Google acht Nvidia H100-GPUs.
Foto: Nvidia

Erstmals kommt im A3 auch die neue Infrastructure Processing Unit (IPU) von Google zum Einsatz. Es ist die erste produktive Nutzung der GPU-zu-GPU-Datenschnittstelle. Über sie lassen sich Daten mit 200 Gbit/s direkt zwischen den GPUsaustauschen, ohne den Umweg über die CPU zu nehmen. Das Ergebnis ist laut Google eine zehnfache Steigerung der verfügbaren Netzwerkbandbreite für virtuelle A3-Maschinen im Vergleich zu A2-VMs der vorherigen Generation.

Die Infrastruktur für A3

A3-Workloads werden auf Googles spezieller Jupiter-Netzwerkstruktur für Rechenzentren ausgeführt. Nach Angaben des Unternehmens skaliert diese für Zehntausende hochgradig miteinander verbundener GPUs. Ferner erlaube sie, optische Verbindungen mit voller Bandbreite zu rekonfigurieren, um die Topologie bei Bedarf anpassen zu können.

So können Anwender A3 nutzen

Google wird seine A3-Supercomputer auf zwei Arten vermarkten: Kunden können eine entsprechende Maschine entweder selbst in der Google Cloud betreiben oder die Rechenleistung als Managed Service beziehen. In letzterem Fall wird Google einen Großteil der Arbeit übernehmen, und die VMs laufen auf Vertex, der Managed Machine Learning Platform des Unternehmens. Entscheidet sich der Anwender dagegen für den Eigenbetrieb, so laufen die A3-VMs auf Google Kubernetes Engine (GKE) und Google Compute Engine (GCE).

Verfügbarkeit

Googles virtuelle A3-Maschinen stehen vorerst nur als Preview zur Verfügung. Um Zugang zu erhalten, müssen Interessierte einen Antrag auf Teilnahme am Early Access Program ausfüllen. Allerdings gibt es keine Garantie für eine Teilnahme an dem Programm.