Google I/O 2024

KI-Modellpflege mit Open-Source-Bonus

15.05.2024
Von  und
Paul Krill ist Redakteur unserer US-Schwesterpublikation InfoWorld.
Anirban Ghoshal ist Senior Writer für Enterprise-Software, Datenbanken und Cloud-Infrastruktur bei unserer US-Schwesterpublikation InfoWorld.
Google hat auf seiner Entwicklerkonferenz I/O unter anderem die neuesten Mitglieder seiner KI-Modellfamilie präsentiert.
Keine Google-Entwicklerkonferenz ohne KI-News.
Keine Google-Entwicklerkonferenz ohne KI-News.
Foto: Google LLC

Nachdem OpenAI mit seinem neuen Large Language Model (LLM) GPT-4o bei Analysten eher gemischte Gefühle hervorgerufen hat, zeigt KI-Konkurrent Google auf seiner Entwicklerkonferenz I/O ebenfalls neue Modellvarianten:

  • PaliGemma ist ein simples, auf quelloffenen Komponenten basierendes Vision-Language-Modell (VLM), das sowohl Bild- als auch Text-Inputs verarbeiten kann. Eine spezielle Version für den wissenschaftlichen Bereich (PaliGemma-FT) existiert ebenfalls.

  • Gemma 2 ist die künftige Flaggschiff-KI-Modellfamilie mit bis zu 27 Milliarden Parametern und einer neuen, überarbeiteten sowie laut Google deutlich effizienteren Architektur. Die Modelle sollen sich für eine breite Palette von KI-Anwendungsfällen eignen.

Googles GenAI-Evolution

Während PaliGemma ab sofort zur Verfügung steht, gibt es für Gemma 2 noch keinen offiziellen Veröffentlichungstermin. Google stellt in einem Blogbeitrag lediglich einen Release für die "kommenden Wochen" in Aussicht.

Laut Google ist PaliGemma von den PaLI-3-VLMs inspiriert - soll im Vergleich jedoch kompakter, schneller und performanter sein. PaliGemma fußt dabei im Wesentlichen auf Open-Source-Komponenten (SigLIP und Gemma) und ist für eine Reihe von VLM-Tasks konzipiert - zum Beispiel:

  • Bildbeschriftungen und Untertitel für Videos generieren,

  • visuelle Fragen beantworten,

  • eingebettete Text-Elemente in Bildern erkennen oder

  • Objekte erkennen und segmentieren.

PaliGemma ist über diverse Plattformen verfügbar, darunter GitHub, Hugging Face, Kaggle und Vertex AI.

Die neue Architektur von Gemma 2 ist laut Google auf "bahnbrechende Leistung und Effizienz" ausgelegt und soll eine mit Llama 3B vergleichbare Performanz liefern - bei weniger als 50 Prozent der Größe. Das effiziente Design von Gemma 2 soll zudem die Deployment-Kosten senken. In Sachen Feintuning verspricht Google eine breite Palette von Plattformen und Tools zu unterstützen - von der hauseigenen Cloud bis hin zu Lösungen wie Axolotl.

Neben Gemma 2 und PaliGemma hat Google außerdem sein Responsible Generative AI Toolkit um den quelloffenen LLM Comparator erweitert. Dabei handelt es sich um interaktives Tool für die Datenvisualisierung, das dabei unterstützt, sichere und qualitativ hochwertige KI-Outputs sicherzustellen.

Ein paar Schritte vorher setzt der ebenfalls auf der I/O 2024 präsentierte KI-Chip Trillium an. Mit der neuen Tensor Processing Unit (TPU) können große Sprachmodelle wie Gemma oder Gemini trainiert und betrieben werden. Trillium stellt dabei die bereits sechste Iteration der TPU dar und soll laut Google im Vergleich zu ihrem Vorgänger (TPU v5) rund fünfmal so schnell und dabei mit knapp 70 Prozent mehr Energieeffizienz zu Werke gehen. Trillium wird laut Google auch Support für Open-Source-Bibliotheken wie JAX, PyTorch/XLA und Keras 3 bieten.

Der Konzern plant, Trillium künftig im Rahmen seines "AI Hypercomputer" einzusetzen - einer Supercomputing-Architektur, die für moderne KI-Workloads entwickelt wurde. Für Anwender sollen die neuen Trillium-KI-Chips bis Ende 2024 zur Verfügung stehen. (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.