Der Sidekick der KI-Implementierung

24.07.2024
Von 
Grant Gross schreibt für die US-amerikanische IDG-Publikation CIO. Zuvor war er als Washington-Korrespondent und später als leitender Redakteur beim IDG News Service tätig.
Viele Unternehmen fokussieren sich bei KI-Projekten vor allem auf Rechenleistung und Networking. Und übersehen dabei möglicherweise einen immens wichtigen Aspekt.
Storage als GenAI-Sidekick zu betrachten, wird seiner Bedeutung im Rahmen von KI-Projekten nicht gerecht.
Storage als GenAI-Sidekick zu betrachten, wird seiner Bedeutung im Rahmen von KI-Projekten nicht gerecht.
Foto: Serhii Hromov - shutterstock.com

Nämlich ihren Storage-Bedarf. Einen Chatbot zu entwickeln oder einen KI-Assistenten einzuführen, ist diesbezüglich im Regelfall kein Problem. Geht es allerdings um große KI-Projekte und Millionen von Datenpunkten, werden zusätzliche Storage-Anschaffungen nötig, die je nach Größe und Gesamtbedarf in die Millionen gehen können.

Wie Jeffrey Necciai, CTO beim Softwareunternehmen Duos Technologies, erklärt, steigen die Storage-Anforderungen insbesondere bei KI-Systemen, die Antworten beziehungsweise Informationen in Echtzeit liefern müssen. Der Technologieentscheider weiß, wovon er spricht: Sein Unternehmen betreibt eine KI-Plattform, die Zugwaggons während der Fahrt scannt und benötigt zu diesem Zweck nicht nur entsprechende Rechenleistung, sondern auch eine damit kompatible, besonders schnelle Storage-Lösung.

"Wenn ein Rad kaputt ist, will man das sofort wissen. Wir verarbeiten dabei nicht unbedingt alles in der Cloud, denn wir können natürlich keine Latenzzeiten brauchen, wenn wir die Informationen so schnell wie möglich weitergeben müssen", bekräftigt Necciai und fügt appellierend hinzu: "Unternehmen, die große KI-Projekte planen, sollten nicht nur dafür sorgen, den nötigen Speicherplatz zur Verfügung zu haben. Es kommt auch auf die Fähigkeit der Storage-Lösung an, mehrere Tasks parallel händeln zu können."

Im vergangenen Jahr hat Duos Technologies insgesamt 8,5 Millionen Bahn-Waggons gescannt, wobei jeder Scan mehr als 1.000 Bilder erzeugen kann. Für diesen Zweck setzt das Unternehmen vier High-Performace-Storage-Arrays mit jeweils 16 NVMe-Laufwerken und einer Gesamtkapazität von etwa 500 Terabyte ein. Darüber hinaus nutzt der US-Spezialist eine herkömmliche Storage-Lösung mit einem Umfang von 25 Terabyte, um eigene KI-Lösungen zu entwickeln.

Datenhunger treibt (Storage-)Kosten

Wie Duos Technologies setzen auch andere Unternehmen mit umfangreichen KI-Projekten auf SSDs oder NAND-Flash-Speicher mit hohen Kapazitäten. Diese High-Speed-Storage-Optionen sind mit bis zu 1.000 Dollar pro Gigabyte deutlich kostenintensiver als herkömmliche Festplatten, bieten dafür aber andere Vorteile.

Die bringt Roger Corell, Senior Director of Leadership Marketing beim SSD-Hersteller Solidigm, nicht ganz uneigennützig auf den Punkt: "Zum Beispiel sind diese Lösungen knapp dreimal so energieeffizient und benötigen wesentlich weniger physischen Raum als Server- und Festplatten-Racks. In dem Maße, indem Unternehmen immer komplexere, multimodale KI-Projekte auf die Beine stellen und immer mehr Mitarbeiter KI-Tools einsetzen, wird auch die Nachfrage nach Storage-Optionen mit hoher Kapazität und Multi-Threading-Fähigkeiten steigen", ist der Storage-Experte überzeugt.

Laut Ugur Tigli, CTO beim Object-Storage-Spezialisten MinIO, kommen neben SSD- und NAND-Optionen in einigen Unternehmen auch Private-Cloud-Lösungen oder Co-Location-Facilities zum Einsatz, um den Storage-Bedarf zu decken: "Bei einer Größenordnung von Hunderten von Petabytes oder ein paar Exabytes ist die Public Cloud nicht mehr wirtschaftlich. Die Gesamtkosten lägen im zweistelligen bis dreistelligen Millionenbereich pro Jahr, je nach Kapazität, Tiering und Datenzugriffsprofilen." Der CTO empfiehlt Unternehmensanwendern deshalb, privat zu "bauen" - und für zusätzliche GPU-Ressourcen die Cloud "anzuzapfen": "Die Rechenleistung ist elastisch - die Daten allerdings wachsen auf vorhersehbare - wenn auch beschleunigte - Art und Weise. Die Architektur sollte also entsprechend gestaltet werden."

Priyanka Karan, Field CTO beim Digitalisierungsspezialisten Ahead, hat eine weitere Storage-Option für Unternehmen in Sachen KI in petto: "Speicherplattformen im Petabyte-Maßstab zielen darauf ab, die Herausforderungen bei der Datenmigration zu reduzieren, indem sie Daten von ihrem ursprünglichen Speicherort an Orte bringen, an denen sie für das KI-Training genutzt werden können. Das Ziel besteht dabei darin, keine neuen Speichersilos zu schaffen."

Die Wahl der richtigen Speicheroption hänge dabei auch häufig von der Data Gravity ab, so die Managerin - also der Größe des Datensatzes und ob dieser zu Processing-Zwecken in die Cloud verschoben werden kann oder es sinnvoller ist, die Verarbeitung zu den Daten zu bringen. "Darüber hinaus gilt es, diverse weitere Faktoren zu berücksichtigen. Zusätzlich zu den Storage-Kosten können bei einem Off-Premises-Modell auch noch Gebühren für Datenübertragung, -zugriff und -management ausfallen. Bei On-Premise-Storage-Lösungen kommen hingegen enorme Vorabinvestitionen auf Sie zu - zusätzlich zu den Kosten für Wartung, Kühlung und Mitarbeiter", rechnet Karan vor und empfiehlt: "Bewerten Sie Ihre spezifischen Anforderungen in Sachen Performance, Kosten und Skalierbarkeit, um die beste Lösung für Ihre KI-Projekte zu ermitteln." (fm)

Sie wollen weitere interessante Beiträge zu diversen Themen aus der IT-Welt lesen? Unsere kostenlosen Newsletter liefern Ihnen alles, was IT-Profis wissen sollten - direkt in Ihre Inbox!

Jetzt CW-Newsletter sichern