Rate Limits

Das größte Bottleneck für LLMs

22.01.2024
Von 
Matt Asay ist Autor der US-Schwesterpublikation Infoworld.com.
Rate Limits haben zur Folge, dass alle auf bessere Rechenressourcen warten – oder neue KI-Modelle.
Grenzenloser GPT-4-Einsatz in Produktionsumgebungen bleibt vorerst ein schöner Traum.
Grenzenloser GPT-4-Einsatz in Produktionsumgebungen bleibt vorerst ein schöner Traum.
Foto: kukurund | shutterstock.com

Viele Unternehmen erforschen bekanntermaßen, wie sie große Sprachmodelle (Large Language Models, LLMs) einsetzen können, um Produkte und Services zu verbessern. Allerdings verhindert ein ganz wesentlicher Flaschenhals bislang den großflächigen Einsatz von Large Language Models in Produktionsumgebungen: Rate Limits.

Öffentliche LLM-APIs, die den Zugang zu Modellen von Unternehmen wie OpenAI und Anthropic ermöglichen, setzen strenge Grenzen, was die Anzahl der Token (Texteinheiten) angeht, die in einer bestimmten Zeiteinheit verarbeitet werden können. GPT-4 API-Calls sind derzeit beispielsweise auf drei Anfragen pro Minute und 200 Anfragen pro Tag begrenzt. Selbst mit einem kostenpflichtigen Abo sind maximal 10.000 Anfragen pro Tag möglich. Für größere Produktionsanwendungen, die Millionen von Token pro Minute verarbeiten müssen, sind diese LLMs also in der Praxis nicht nutzbar. Die Requests würden sich stapeln, eine Echtzeitverarbeitung wäre nicht mehr möglich.

Selbst wenn Unternehmen also die GenAI-Herausforderungen in den Bereichen Datenschutz und interne Prozesse bewältigen können - Rate Limits bleiben ein hartnäckiges Hindernis. Das betrifft zwar ganz besonders große Unternehmen - aber nicht ausschließlich: Startups, die Produkte auf Grundlage großer Sprachmodelle entwickeln, stoßen schnell an ihre Grenzen, wenn die Produkte gut angenommen werden und die Datenmengen explodieren. Was also tun?

Rate Limits umgehen?

Ein Weg besteht darin, Rate-Limiting-Technologien "einfach" komplett zu umschiffen. Dazu stehen anwendungsspezifische GenAI-Modelle ohne das Bottleneck zur Verfügung - beispielsweise von Diffblue, einem Spinout der University of Oxford. Das Startup nutzt KI, um Unit Tests für Java Code automatisiert zu generieren und setzt dabei auf Reinforcement-Learning-Techniken, die keine Rate Limits vorsehen. Unit-Tests, die von Diffblue Cover geschrieben werden, ermöglichen es, komplexe Applikationen schnell zu verstehen und eignen sich zum Beispiel, um Legacy-Anwendungen in die Cloud zu verlagern.

Doch es gibt auch Unternehmen, die auf Large Language Models der großen Anbieter angewiesen sind. Eine Anhebung der Tarifgrenzen dürfte in den meisten Fällen keine gangbare Lösung sein. Schlicht aus dem Grund, dass die Provider keine zusätzlichen Kapazitäten zur Verfügung stellen können. Das hängt wiederum mit der immer noch vorherrschenden Halbleiterknappheit zusammen. Nvidia, unangefochtener GPU-Marktführer, kann derzeit nicht genügend Chips beschaffen, um die explosionsartige Nachfrage zu befriedigen. Zwar sind riesige Chip-Fabriken (Fabs) von Intel, Samsung, TSMC und Texas Instruments sowohl in den USA als auch in Europa in Bau oder Planung. Bis diese Projekte Früchte tragen, wird es allerdings noch Jahre dauern.

Die Folge: Es gibt kaum "echte" Produktionsanwendungen auf Basis von OpenAIs GPT-4. Und die, die es gibt, zeichnen sich durch eher überschaubaren Umfang aus und nutzen große Sprachmodelle eher für Nebenfunktionen, denn als Kernkomponente. Die meisten Anwenderunternehmen befinden sich immer noch in der Evaluierungsphase von Pilotprojekten. Kein Wunder: Bevor man überhaupt an Rate Limits denken kann, muss erst einmal der Aufwand bewältigt werden, der entsteht, wenn Large Language Models in die Workflows der Unternehmen integriert werden müssen.

Auch Amazon Web Services (AWS) möchte dazu beitragen, das Problem zu lösen, respektive zu überbrücken. Dazu bietet der Cloud-Riese seinen Kunden spezialisierte Chips für KI-Training und -Inferenz an. Beachten sollten Unternehmen dabei zudem, dass nicht jedes Problem ein Übermaß an Rechenressourcen erfordert - AWS hat auch eine Reihe von kostengünstigen KI-Modellen im Angebot, die sich leicht feintunen lassen - etwa Titan Light. Weitere Alternativen bietet Meta mit seiner quelloffenen KI-Modellfamilie Llama 2.

Weitere OpenAI-Alternativen

Mit sogenannten "Sparse Models" lassen sich zudem die Kosten für Training und Inferenz reduzieren. Stellen Sie sich ein LLM als eine Ansammlung vieler kleinerer Sprachmodelle vor. Wenn Sie beispielsweise GPT-4 eine Frage auf Französisch stellen, muss nur der Teil des Modells verwendet werden, der diese Sprache verarbeitet.

Diesen Umstand machen sich Sparse-Modelle zunutze. Ein Sparse-Training ermöglicht, nur eine Teilmenge des Modells zu trainieren. Bei einer Sparse-Inferenz wird nur der französischsprachige Teil des Modells ausgeführt. In Verbindung mit der Quantisierungstechnik lassen sich aus LLMs kleinere Spezialmodelle extrahieren, die auf CPUs statt auf GPUs laufen können (wenn auch mit einem Genauigkeitsverlust).

Auf der Hardwareebene versprechen neue, auf KI-Workloads spezialisierte Prozessorarchitekturen Effizienzgewinne: Cerebras hat beispielsweise eine gigantische Wafer-Scale-Engine gebaut, die für Machine Learning optimiert ist.

Ein wirklicher Fortschritt wird sich in diesem Bereich allerdings erst mit der nächsten LLM-Generation einstellen, die weniger Rechenleistung erfordert. In Kombination mit optimierter Hardware könnte das das Aus für Rate-Limiting-Technologien bedeuten. Bis es so weit ist, bleibt nur Warten wenn die Alternativen nicht greifen. Ironischerweise könnte das aber auch den Hype um generative KI dämpfen - und der Branche die nötige Zeit verschaffen, sich auf den produktiven und kosteneffizienten Einsatz der Technologie vorzubereiten. (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.