Cisco, Intel, Microsoft, HPE und Co. gründen Ultra Ethernet Consortium

Neuer Ultra-Ethernet-Standard für KI

21.07.2023
Von 
Michael Cooney ist Senior Editor bei der amerikanischen Schwesterpublikation Network World.
KI-Workloads dürften heutige Ethernet-Netz an ihre Kapazitätsgrenzen bringen. Namhafte, große IT-Player haben deshalb das Ultra Ethernet Consortium gegründet, um den Netzstandard weiterzuentwickeln.
Das heutige Ethernet ist für die KI-Workloads zu langsam - Ultra Ethernet soll das Problem lösen.
Das heutige Ethernet ist für die KI-Workloads zu langsam - Ultra Ethernet soll das Problem lösen.
Foto: Lisa-S - shutterstock.com

Die heutige Ethernet-Technologie - die in diesem Jahr ihren 50. Geburtstag feiert - dürfte mit dem Siegeszug der KI an ihre Grenzen stoßen. Experten befürchten, dass die heutigen Ethernet-Verbindungen nicht die erforderliche Leistung, Skalierbarkeit und Bandbreite offerieren können, um mit den Anforderungen der KI Schritt zu halten.

Um diese Herausforderungen anzugehen, gründen AMD, Arista, Broadcom, Cisco, Eviden, HPE, Intel, Meta und Microsoft das Ultra Ethernet Consortium (UEC), das von der Linux Foundation geleitet werden wird. Das UEC soll die Weiterentwicklung von Ethernet auf der physikalischen, Link-, Transport- und Software-Ebene vorantreiben.

KI verändert Arbeitslasten

Wie sich die Anforderungen an die Netze mit der Verbreitung von KI-Workloads verändern werden, beschreibt Arista-CEO Jayshree Ullal in einem Blogbeitrag über das neue Konsortium: "Die Arbeitslasten sind so groß, dass die Parameter auf Tausende von Prozessoren verteilt sind. Große Sprachmodelle (LLMs) wie GPT-3, Chinchilla und PALM sowie Empfehlungssysteme wie DLRM (Deep Learning Recommendation) und DHEN (Deep and Hierarchical Ensemble Network) werden auf Clustern mit vielen Tausend GPUs trainiert, die die Parameter mit anderen an der Berechnung beteiligten Prozessoren teilen."

Überlastete Netze durch KI

Mit den KI-Anwendungen verändern sich die Workloads im Rechenzentrum. Es besteht die Gefahr, dass in KI-Hotspots Datenstaus entstehen.
Mit den KI-Anwendungen verändern sich die Workloads im Rechenzentrum. Es besteht die Gefahr, dass in KI-Hotspots Datenstaus entstehen.
Foto: Gorodenkoff - shutterstock.com

Dies führt laut Ullal dazu, dass in diesem Compute-Exchange-Reduce-Zyklus das Volumen der ausgetauschten Daten so signifikant ansteigt, dass jede Verlangsamung aufgrund eines schlechten/überlasteten Netzwerks die Leistung einer KI-Anwendung kritisch beeinflussen kann.

Bisher wurde dies dadurch gelöst, dass Prozessorkerne und Speicher mit Techniken wie InfiniBand, PCI Express, Remote Direct Memory Access over Ethernet und anderen Protokollen verbunden wurden. Allerdings sind Experten davon überzeugt, dass selbst diese Techniken bei den Anforderungen von KI-Workloads an ihre Grenzen stoßen werden.

Whitepaper zu Ultra Ethernet

Mit verschiedenen Technologien will das UEC den Ethernet-Standard für die Anforderungen der KI-Welt fit machen.
Mit verschiedenen Technologien will das UEC den Ethernet-Standard für die Anforderungen der KI-Welt fit machen.
Foto: kkssr - shutterstock.com

In einem ersten Whitepaper hat das UEC nun beschrieben, mit welchen Technologien sie den Ethernet-Standard weiterentwickeln will, damit er die Anforderungen der KI-Workloads bewältigen kann:

  • Multi-Pathing und Packet-Spraying

Damit soll sichergestellt werden, dass KI-Workflows gleichzeitig Zugang zu einem Ziel über unterschiedliche Transportwege haben.

  • Flexible Delivery Order

Auf diese Weise will man sicherstellen, dass Ethernet-Links optimal ausbalanciert sind; eine Reihenfolge wird nur dann erzwungen, wenn die KI-Arbeitslast dies bei bandbreitenintensiven Operationen erfordert.

  • Modern Congestion-Control

Datenstaus, die durch KI-Hotspots entstehen können, will man vermeiden, indem die Last gleichmäßig auf mehrere Pfade verteilt wird. Diese können so konzipiert werden, dass sie in Verbindung mit Multi-Pathing und Packet-Spraying arbeiten und so einen zuverlässigen Transport von KI-Datenverkehr ermöglichen.

  • End-to-end Telemetry

Telemetriedaten ermöglichen die Verwaltung von Überlastungen. Aus dem Netz stammende Informationen können die Teilnehmer über den Ort und die Ursache der Überlastung informieren. Die Verkürzung des Überlastungssignalisierungspfads und die Bereitstellung von mehr Informationen für die Endpunkte ermöglichen dabei eine reaktionsschnellere Überlastungskontrolle.

Mehr Sicherheit mit Ultra Ethernet

Unter dem Strich ist das UEC davon überzeugt, dass diese Maßnahmen den Umfang, die Stabilität und die Zuverlässigkeit von Ethernet-Netzen erhöhen und gleichzeitig die Sicherheit verbessern werden. So sei es möglich, den gesamten Netzwerkverkehr zu verschlüsseln und zu authentifizieren, der zwischen Berechnungsendpunkten in einer KI-Trainings- oder Inferenzaufgabe gesendet wird.

Auch klasssiche Verfahren wie Infiniband, PCI Express, etc.stoßen an ihre Grenzen bei der Verbindung von CPUs und Speicher, wenn KI-Workloads zu bewältigen sind.
Auch klasssiche Verfahren wie Infiniband, PCI Express, etc.stoßen an ihre Grenzen bei der Verbindung von CPUs und Speicher, wenn KI-Workloads zu bewältigen sind.
Foto: metamorworks - shutterstock.com

Die Pläne des Ultra Ethernet Consortium bringt der Vorsitzende Dr. J. Metz noch einmal auf den Punkt: "Es geht nicht darum, Ethernet zu überholen. Es geht darum, Ethernet zu optimieren, um die Effizienz für Workloads mit spezifischen Leistungsanforderungen zu verbessern. Wir betrachten jede Schicht - von der physikalischen bis hin zur Softwareschicht - um den besten Weg zur Verbesserung der Effizienz und Leistung im großen Maßstab zu finden."

Wachsender Switch-Markt

Dass diese Effizienzsteigerung dringend notwendig ist, zeigt der jüngste "Data Center 5-Year July 2023 Forecast Report" der Dell'Oro Group. Danach werden bis 2027 etwa 20 Prozent der Ethernet-Switch-Ports in Rechenzentren mit beschleunigten Servern zur Unterstützung von KI-Workloads verbunden sein werden.

Ferner werde das Aufkommen neuer generativer KI-Anwendungen dazu beitragen, das Wachstum des ohnehin schon robusten Marktes für Rechenzentrums-Switches weiter anzukurbeln. Sameh Boujelbene, Vice President bei Dell'Oro, rechnet in den nächsten fünf Jahren mit einen kumulierten Umsatz von über 100 Milliarden Dollar für Rechenzentrum-Switches.