Silicon One mit 51,2 TBit/s

Cisco legt Grundstein für KI-Netzinfrastruktur

23.06.2023
Von 
Michael Cooney ist Senior Editor bei der amerikanischen Schwesterpublikation Network World.
Um massive GPU-Cluster für KI/ML-Workloads zu unterstützen, hat Cisco zwei neue programmierbare High-End-Komponenten aus seiner Silicon-One-Reihe vorgestellt.
Mit KI und ML kommen neue Herausforderungen auf Netzwerke zu. Chiphersteller wie Cisco reagieren.
Mit KI und ML kommen neue Herausforderungen auf Netzwerke zu. Chiphersteller wie Cisco reagieren.
Foto: greenbutterfly - shutterstock.com

Cisco hat den 5nm Silicon One G200 mit 51,2 TBit/s und den G202 mit 25,6 TBit/s zu seiner nunmehr 13-köpfigen Silicon-One-Familie hinzugefügt. Die Komponenten können laut Cisco für Routing oder Switching von einem einzigen Chipsatz aus angepasst werden, wodurch die Notwendigkeit unterschiedlicher Siliziumarchitekturen für jede Netzwerkfunktion entfällt. Erreicht wird dies durch ein gemeinsames Betriebssystem, einen programmierbaren P4-Weiterleitungscode und ein SDK.

Die neuen Geräte, die an der Spitze der Silicon-One-Familie positioniert sind, bieten Unternehmen und Hyperscalern Netzwerkverbesserungen, die sie ideal für anspruchsvolle Infrastrukturen für künstliche Intelligenz (KI) und maschinelles Lernen (ML) oder andere hochgradig verteilte Anwendungen machen, so Rakesh Chopra, ein Cisco Fellow in der Common Hardware Group des Herstellers.

"Wir erleben gerade einen enormen Wandel in der Branche, in der wir früher diese Art von relativ kleinen Hochleistungs-Rechenclustern gebaut haben, die damals groß erschienen, aber nichts im Vergleich zu den absolut riesigen Bereitstellungen, die für KI/ML erforderlich sind", so Chopra im Firmen-Blog. KI/ML-Modelle benötigen heute nicht mehr nur einige wenige GPUs, sondern Zehntausende, die parallel und in Reihe geschaltet sind. "Die Anzahl der GPUs und die Größe des Netzwerks sind beispiellos."

Über 435 Milliarden Suchen/s

Zu den neuen Erweiterungen von Silicon One gehört ein P4-programmierbarer Parallel-Paketprozessor, der mehr als 435 Milliarden Suchvorgänge pro Sekunde ausführen kann. "Wir haben einen vollständig gemeinsam genutzten Paketpuffer, bei dem jeder Port vollen Zugriff auf den Paketpuffer hat, unabhängig davon, was gerade passiert", erklärt Chopra. Dies steht im Gegensatz zur Zuweisung von Puffern an einzelne Eingangs- und Ausgangsports - eine Methode, die weniger in der Lage ist, Traffic-Bursts zu verarbeiten. "Damit ist es wahrscheinlicher, dass ein Paket verworfen wird, was die KI/ML-Leistung wirklich verringert", so der Cisco-Manager.

Darüber hinaus unterstützt jedes Silicon One-Gerät bis zu 512 Ethernet-Ports. Kunden könnten somit einen 32K 400G GPU KI/ML-Cluster aufbauen, der 40 Prozent weniger Switches benötigt als andere Silicon-Geräte, die zur Unterstützung dieses Clusters erforderlich sind, erklärt Chopra.

Das Kernstück des Silicon-One-Systems ist die Unterstützung erweiterter Ethernet-Funktionen wie verbesserte Flusskontrolle, Stauerkennung und -vermeidung. Das System umfasst auch erweiterte Loadbalancing-Funktionen und "Packet-Spraying" - hierzu wird der Datenverkehr auf mehrere GPUs oder Switches verteilt, um Staus zu vermeiden und die Latenz zu verbessern. Hardware-basierte Link-Failure-Recovery trägt ebenfalls dazu bei, dass das Netzwerk mit höchster Effizienz arbeitet, so Cisco.

Durch die Kombination dieser verbesserten Ethernet-Technologien und deren Weiterentwicklung können Kunden eine so genannte Scheduled Fabric einrichten. In einer solchen Struktur sind die physischen Komponenten - Chips, Optiken, Switches - wie ein großes modulares Gehäuse miteinander verbunden und kommunizieren miteinander, um ein optimales Scheduling-Verhalten zu gewährleisten, erklärt Chopra. "Dies führt letztendlich zu einem viel höheren Datendurchsatz, insbesondere für Datenströme wie KI/ML, wodurch die Zeit für die Auftragsabwicklung viel kürzer wird, was bedeutet, dass Ihre GPUs viel effizienter arbeiten."

Starke Nachfrage nach KI-Netzwerken

Cisco ist Teil eines wachsenden Marktes für KI-Netzwerke, zu dem auch Broadcom, Marvell, Arista und andere gehören. Wie die Researcher von 650 Group in einem kürzlich veröffentlichten Blogbeitrag prognostizierten, soll der Bereich bis 2027 ein Volumen von 10 Milliarden Dollar erreichen - verglichen mit aktuell 2 Milliarden Dollar.

"Obwohl bei vielen Menschen das Thema Künstliche Intelligenz erst Anfang diesen Jahres mit ChatGPT ins Lampenlicht gerückt ist, haben KI-Netzwerke bereits in den letzten zwei Jahren einen Aufschwung erlebt", heißt es im 650-Blog. "Wir beobachten KI/ML-Netzwerke seit fast zwei Jahren und sehen in unseren Prognosen KI/ML als eine große Chance für Netzwerke und als einen der Haupttreiber für das Wachstum von Rechenzentrumsnetzwerken."

Der Schlüssel zu den Auswirkungen von KI/ML auf das Networking sei die enorme Bandbreite, die KI-Modelle zum Trainieren benötigen, neue Workloads und die leistungsstarken Inferenzlösungen, die auf dem Markt erscheinen, erklären die Analysten. Darüber hinaus würden viele vertikale Branchen in den nächsten 10 Jahren mehrere Digitalisierungsmaßnahmen aufgrund von KI durchlaufen.

Die Cisco Silicon One G200 und G202 werden derzeit von noch nicht identifizierten Kunden getestet und sind laut Chopra auf Basis von Stichproben verfügbar. (mb)

Dieser Artikel basiert auf einem Beitrag der US-Schwesterpublikation Network World.