VMware und Nvidia kooperieren

VMware-Lösung für generative KI

23.08.2023
Von 
Jürgen Hill ist Chefreporter Future Technologies bei der COMPUTERWOCHE. Thematisch befasst sich der studierte Diplom-Journalist und Informatiker derzeit mit aktuellen IT-Trendthemen wie KI, Quantencomputing, Digital Twins, IoT, Digitalisierung etc. Zudem verfügt er über einen langjährigen Background im Bereich Communications mit all seinen Facetten (TK, Mobile, LAN, WAN). 
Basierend auf der VMware Cloud Foundation und der Nvidia AI Enterprise Software bringt VMware mit der Private AI Foundation eine Cloud-Plattform für generative KI.
Mit VMware Private AI Foundation plant VMware eine eigene Cloud-Plattform für KI-Lösungen.
Mit VMware Private AI Foundation plant VMware eine eigene Cloud-Plattform für KI-Lösungen.
Foto: JLStock - shutterstock.com

Mit der VMware Private AI Foundation plant das Unternehmen für Anfang 2024 eine eigene Cloud-Plattform für KI-Lösungen. Die hierfür nötige Rechenleistung und KI-Software wird dabei von Nvidia kommen, während die Plattform selbst auf der VMware Cloud Foundation aufbaut.

Cloud-Plattform für KI

Die KI in der Cloud soll es Unternehmen ermöglichen, große Sprachmodelle (LLMs) anzupassen sowie sicherere und private Modelle für den internen Gebrauch zu erstellen. Zudem sollen Betriebe generative KI als Service für ihre Anwender anbieten und Inferenz-Workloads in größerem Umfang sicher ausführen können.

Für Raghu Raghuram, CEO von VMware, "sind generative KI und Multi-Cloud die perfekte Kombination". Schließlich könnten Unternehmen so ihre generativen KI-Workloads vertrauensvoll neben ihren Daten ausführen.

Nvidia-Software als Basis

Basis der KI-Plattform ist die Nvidia AI Enterprise Software.
Basis der KI-Plattform ist die Nvidia AI Enterprise Software.
Foto: Gorodenkoff - shutterstock.com

Zum Einsatz soll dabei die Nvidia AI Enterprise Software kommen. Zudem werde die Plattform, so die derzeitige Planung, integrierte KI-Tools enthalten, mit denen Unternehmen bewährte Modelle, die auf ihren privaten Daten trainiert wurden, kosteneffizient ausführen können.

Beim Aufbau der Plattform will VMware nach eigenen Angaben ein besonderes Augenmerk auf folgende Punkte legen:

  • Datenschutz

Anwender sollen die KI-Dienste überall dort ausführen können, wo sie Daten haben, und zwar mit einer Architektur, die den Datenschutz wahrt und einen sicheren Zugriff ermöglicht.

  • Wahlfreiheit

Bei der Erstellung und Ausführung ihrer Modelle soll den Anwendern eine große Auswahl zur Verfügung stehen - von Nvidia NeMo bis hin zu Llama 2 und darüber hinaus. Dies soll auch OEM-Hardware-Konfigurationen und in Zukunft Public-Cloud- und Service-Provider-Angebote beinhalten.

  • Leistung

Durch Verwendung der Nvidia-Infrastruktur erreiche man eine Leistung, die der von Bare Metal gleichkomme oder diese sogar übertreffe.

  • Skalierung

Mittels GPU-Skalierung in virtualisierten Umgebungen ist die Skalierung von KI-Workloads auf bis zu 16 vGPUs/GPUs in einer einzigen virtuellen Maschine und über mehrere Knoten hinweg möglich. Dies soll die Feinabstimmung und Bereitstellung generativer KI-Modelle beschleunigen.

  • Kosten

Alle Rechenressourcen (GPUs, DPUs und CPUs) sollen maximal genutzt werden, um die Gesamtkosten zu senken und eine gepoolte Ressourcenumgebung zu schaffen, die sich effizient von verschiedenen Teams nutzen lässt.

  • Storage

Die Übertragung vom Speicher zu den GPUs soll ohne CPU-Beteiligung mit Hilfe der VMware vSAN Express-Storage-Architektur erfolgen.

  • Schnelle Bereitstellung

Ein schnelles Prototyping werde durch vSphere Deep Learning-VM-Images und Image-Repositories möglich. Dazu stünde ein schlüsselfertiges Solution Image zur Verfügung, bei dem Frameworks und leistungsoptimierte Bibliotheken vorinstalliert seien.

Nvidia NeMo

Ferner werde die Plattform Nvidia NeMo enthalten. Dabei handelt es sich um ein cloud-natives Framework, das Teil von Nvidia AI Enterprise ist, dem Betriebssystem der Nvidia AI-Plattform. Unternehmen sind damit in der Lage, generative KI-Modelle überall zu erstellen, anzupassen und einzusetzen.

NeMo kombiniert Anpassungs-Frameworks, Guardrail-Toolkits, Datenkuratierungs-Tools und vortrainierte Modelle. Für den Einsatz von generativer KI in der Produktion verwendet NeMo TensorRT for Large Language Models (TRT-LLM), das die Inferenzleistung der LLMs auf Nvidia-GPUs beschleunigt und optimiert.