In einem Whitepaper behauptet Google, dass seine KI-Supercomputer für Anwendungen wie Machine Learning zehnmal schneller seien als bisherige Modelle. Hierzu verwendet Google optische Circuit Switches, um bis zu 4096 Tensor Processing Units (TPUs) zusammenzuschalten.
ASICs als Trumpf
Im Gegensatz zu den allgemein verwendeten CPUs und GPUs, die in vielen KI-Trainingssystemen eingesetzt werden, handelt es sich bei den TPUs im Wesentlichen um ASICs. Vereinfacht ausgedrückt, ist hier die Funktionalität im Gegensatz etwa zu einer CPU auf Hardwareebene eingebaut.
Der Schlüssel zu der jetzt erzielten Leistungssteigerung liegt dem White Paper zufolge in der Art und Weise des Optical Circuit Switchings. Dies erlaube dynamische Änderungen an der Verbindungstopologie innerhalb des Systems. Die entsprechenden Switches hat Google selbst entwickelt.
Billiger und effizienter
Laut Google ist das System nicht schneller, sondern auch billiger und wesentlich energieeffizienter als etwa Rechner mit Infiniband - eine andere Technik, die häufig in anderen HPC-Bereichen eingesetzt wird.
Des Weiteren heißt es in dem Whitepaper, dass "der Sparse Core [Datenflussprozessor] die Einbettung von Deep-Learning-Modellen um das 5- bis 7-fache beschleunigt, indem er eine Sea-of-Cores-Architektur für den Datenfluss bereitstellt. Diese ermöglicht es, Einbettungen überall im 128 TiB großen physischen Speicher des TPU-v4-Supercomputers zu platzieren".
Die ASIC-Vorteile
Laut Peter Rutten, Research Vice President bei IDC, sind die im Google-Papier beschriebenen Effizienzgewinne zu einem großen Teil auf die inhärenten Eigenschaften der verwendeten Hardware zurückzuführen. So seien gut konzipierte ASICs quasi per Definition besser für ihre spezifische Aufgabe geeignet als allgemeine CPUs, die die gleiche Aufgabe lösen sollen.
"ASICs sind sehr leistungsfähig und energieeffizient", erklärt Rutten weiter, "wenn man sie an optische Schaltkreise anschließt und die Netzwerktopologie dynamisch konfigurieren kann, erhält man ein sehr schnelles System."
Nvidia-Vergleich hinkt
Zudem verglich Google die TPU-v4-Leistung auch mit Systemen auf Basis von Nvidia GPUs und stellte auch hier einen Leistungsvorsprung für den eigenen Rechner fest.
Allerdings sind diese Angaben laut Rutten mit Vorsicht zu genießen. Google zog zu dem Vergleich nämlich Systeme mit Nvidias A100-GPUs heran. Nur zwischenzeitlich hat Nvidia dieviel schnelleren H100-Prozessoren auf den Markt gebracht hat, wodurch der Leistungsunterschied zwischen den Systemen laut Rutten möglicherweise deutlich geringer ist.