Mit der VMware Private AI Foundation plant das Unternehmen für Anfang 2024 eine eigene Cloud-Plattform für KI-Lösungen. Die hierfür nötige Rechenleistung und KI-Software wird dabei von Nvidia kommen, während die Plattform selbst auf der VMware Cloud Foundation aufbaut.
Cloud-Plattform für KI
Die KI in der Cloud soll es Unternehmen ermöglichen, große Sprachmodelle (LLMs) anzupassen sowie sicherere und private Modelle für den internen Gebrauch zu erstellen. Zudem sollen Betriebe generative KI als Service für ihre Anwender anbieten und Inferenz-Workloads in größerem Umfang sicher ausführen können.
Für Raghu Raghuram, CEO von VMware, "sind generative KI und Multi-Cloud die perfekte Kombination". Schließlich könnten Unternehmen so ihre generativen KI-Workloads vertrauensvoll neben ihren Daten ausführen.
Nvidia-Software als Basis
Zum Einsatz soll dabei die Nvidia AI Enterprise Software kommen. Zudem werde die Plattform, so die derzeitige Planung, integrierte KI-Tools enthalten, mit denen Unternehmen bewährte Modelle, die auf ihren privaten Daten trainiert wurden, kosteneffizient ausführen können.
Beim Aufbau der Plattform will VMware nach eigenen Angaben ein besonderes Augenmerk auf folgende Punkte legen:
Datenschutz
Anwender sollen die KI-Dienste überall dort ausführen können, wo sie Daten haben, und zwar mit einer Architektur, die den Datenschutz wahrt und einen sicheren Zugriff ermöglicht.
Wahlfreiheit
Bei der Erstellung und Ausführung ihrer Modelle soll den Anwendern eine große Auswahl zur Verfügung stehen - von Nvidia NeMo bis hin zu Llama 2 und darüber hinaus. Dies soll auch OEM-Hardware-Konfigurationen und in Zukunft Public-Cloud- und Service-Provider-Angebote beinhalten.
Leistung
Durch Verwendung der Nvidia-Infrastruktur erreiche man eine Leistung, die der von Bare Metal gleichkomme oder diese sogar übertreffe.
Skalierung
Mittels GPU-Skalierung in virtualisierten Umgebungen ist die Skalierung von KI-Workloads auf bis zu 16 vGPUs/GPUs in einer einzigen virtuellen Maschine und über mehrere Knoten hinweg möglich. Dies soll die Feinabstimmung und Bereitstellung generativer KI-Modelle beschleunigen.
Kosten
Alle Rechenressourcen (GPUs, DPUs und CPUs) sollen maximal genutzt werden, um die Gesamtkosten zu senken und eine gepoolte Ressourcenumgebung zu schaffen, die sich effizient von verschiedenen Teams nutzen lässt.
Storage
Die Übertragung vom Speicher zu den GPUs soll ohne CPU-Beteiligung mit Hilfe der VMware vSAN Express-Storage-Architektur erfolgen.
Schnelle Bereitstellung
Ein schnelles Prototyping werde durch vSphere Deep Learning-VM-Images und Image-Repositories möglich. Dazu stünde ein schlüsselfertiges Solution Image zur Verfügung, bei dem Frameworks und leistungsoptimierte Bibliotheken vorinstalliert seien.
Nvidia NeMo
Ferner werde die Plattform Nvidia NeMo enthalten. Dabei handelt es sich um ein cloud-natives Framework, das Teil von Nvidia AI Enterprise ist, dem Betriebssystem der Nvidia AI-Plattform. Unternehmen sind damit in der Lage, generative KI-Modelle überall zu erstellen, anzupassen und einzusetzen.
NeMo kombiniert Anpassungs-Frameworks, Guardrail-Toolkits, Datenkuratierungs-Tools und vortrainierte Modelle. Für den Einsatz von generativer KI in der Produktion verwendet NeMo TensorRT for Large Language Models (TRT-LLM), das die Inferenzleistung der LLMs auf Nvidia-GPUs beschleunigt und optimiert.