Nachdem OpenAI mit seinem neuen Large Language Model (LLM) GPT-4o bei Analysten eher gemischte Gefühle hervorgerufen hat, zeigt KI-Konkurrent Google auf seiner Entwicklerkonferenz I/O ebenfalls neue Modellvarianten:
PaliGemma ist ein simples, auf quelloffenen Komponenten basierendes Vision-Language-Modell (VLM), das sowohl Bild- als auch Text-Inputs verarbeiten kann. Eine spezielle Version für den wissenschaftlichen Bereich (PaliGemma-FT) existiert ebenfalls.
Gemma 2 ist die künftige Flaggschiff-KI-Modellfamilie mit bis zu 27 Milliarden Parametern und einer neuen, überarbeiteten sowie laut Google deutlich effizienteren Architektur. Die Modelle sollen sich für eine breite Palette von KI-Anwendungsfällen eignen.
Get a sneak peek of Gemma 2, our next generation of models that will include a 27B parameter instance launching in a few weeks. Built on new architecture, Gemma 27B outperforms models twice its size and can run on a single TPU host in Vertex AI. #GoogleIO pic.twitter.com/MtmXLzlufa
— Google (@Google) May 14, 2024
Googles GenAI-Evolution
Während PaliGemma ab sofort zur Verfügung steht, gibt es für Gemma 2 noch keinen offiziellen Veröffentlichungstermin. Google stellt in einem Blogbeitrag lediglich einen Release für die "kommenden Wochen" in Aussicht.
Laut Google ist PaliGemma von den PaLI-3-VLMs inspiriert - soll im Vergleich jedoch kompakter, schneller und performanter sein. PaliGemma fußt dabei im Wesentlichen auf Open-Source-Komponenten (SigLIP und Gemma) und ist für eine Reihe von VLM-Tasks konzipiert - zum Beispiel:
Bildbeschriftungen und Untertitel für Videos generieren,
visuelle Fragen beantworten,
eingebettete Text-Elemente in Bildern erkennen oder
Objekte erkennen und segmentieren.
PaliGemma ist über diverse Plattformen verfügbar, darunter GitHub, Hugging Face, Kaggle und Vertex AI.
Die neue Architektur von Gemma 2 ist laut Google auf "bahnbrechende Leistung und Effizienz" ausgelegt und soll eine mit Llama 3B vergleichbare Performanz liefern - bei weniger als 50 Prozent der Größe. Das effiziente Design von Gemma 2 soll zudem die Deployment-Kosten senken. In Sachen Feintuning verspricht Google eine breite Palette von Plattformen und Tools zu unterstützen - von der hauseigenen Cloud bis hin zu Lösungen wie Axolotl.
Neben Gemma 2 und PaliGemma hat Google außerdem sein Responsible Generative AI Toolkit um den quelloffenen LLM Comparator erweitert. Dabei handelt es sich um interaktives Tool für die Datenvisualisierung, das dabei unterstützt, sichere und qualitativ hochwertige KI-Outputs sicherzustellen.
Ein paar Schritte vorher setzt der ebenfalls auf der I/O 2024 präsentierte KI-Chip Trillium an. Mit der neuen Tensor Processing Unit (TPU) können große Sprachmodelle wie Gemma oder Gemini trainiert und betrieben werden. Trillium stellt dabei die bereits sechste Iteration der TPU dar und soll laut Google im Vergleich zu ihrem Vorgänger (TPU v5) rund fünfmal so schnell und dabei mit knapp 70 Prozent mehr Energieeffizienz zu Werke gehen. Trillium wird laut Google auch Support für Open-Source-Bibliotheken wie JAX, PyTorch/XLA und Keras 3 bieten.
Introducing Trillium, the next generation of Google Cloud TPU.
— Google Cloud Tech (@GoogleCloudTech) May 14, 2024
It delivers 4.7X the peak compute performance per chip compared to TPU v5e and is equipped with 2X the high-bandwidth memory capacity.
Learn about Trillium and AI Hypercomputer ? https://t.co/gdmV4K101G #GoogleIO pic.twitter.com/DVmhKH4dV6
Der Konzern plant, Trillium künftig im Rahmen seines "AI Hypercomputer" einzusetzen - einer Supercomputing-Architektur, die für moderne KI-Workloads entwickelt wurde. Für Anwender sollen die neuen Trillium-KI-Chips bis Ende 2024 zur Verfügung stehen. (fm)
Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.