OpenAI bekommt mehr Wettbewerb zu spüren

Google tritt mit Gemini gegen ChatGPT an

07.12.2023
Von 
Martin Bayer ist Chefredakteur von COMPUTERWOCHE, CIO und CSO. Spezialgebiet Business-Software: Business Intelligence, Big Data, CRM, ECM und ERP.
Mit Gemini meldet sich Google eindrucksvoll auf der GenAI-Bühne zurück. Als multimodales KI-Modell, das Informationen aus verschiedenen Quellen verarbeiten kann, dürfte es ChatGPT ernsthaft Konkurrenz machen.
Google setzt seine KI-Hoffnungen ganz auf das neue Gemini-Modell.
Google setzt seine KI-Hoffnungen ganz auf das neue Gemini-Modell.
Foto: Google

Google hat mit Gemini ein neues Large Language Model (LLM) vorgestellt. Sundar Pichai, CEO von Alphabet und Google, sprach vom Bisher "leistungsfähigsten und umfassendsten Modell, das nach vielen führenden Benchmarks auf dem neuesten Stand der Technik ist". Der Anbieter bezeichnet Gemini als ein sogenanntes multimodales KI-Modell, das in der Lage sei, Informationen aus einer Vielzahl verschiedener Quellen zu interpretieren und zu generalisieren. Hierzu zählten beispielsweise Text, Bild, Audio, Video und Programmiersprachen.

Das Modell ist Google zufolge flexibel angelegt und könne auf verschiedenen Geräten und Plattformen eingesetzt werden - vom Smartphone bis zum Rechenzentrum. Die erste Version Gemini 1.0 hat der Hersteller laut eigenen Angaben auf unterschiedliche Größen und Anwendungsbereiche hin optimiert, ohne jedoch genauere Angaben zur Zahl der Trainingsparameter zu machen: Stattdessen machte Google nur Statements wie:

  • Gemini Ultra sei das leistungsstärkste und größte Modell für hochkomplexe Aufgaben,

  • Gemini Pro habe man auf die Skalierung eines breiten Aufgabenspektrums zugeschnitten und

  • Gemini Nano soll das effizienteste Modell für den Einsatz auf Endgeräten sein.

Googles Gemini-Modell soll es zunächst in drei Varianten geben.
Googles Gemini-Modell soll es zunächst in drei Varianten geben.
Foto: Google

Bisher habe der Standardansatz zur Erstellung multimodaler Modelle darin gelegen, separate Komponenten für verschiedene Modalitäten zu trainieren und sie dann zusammenzufügen, beschreibt Demis Hassabis, CEO und Co-Founder von Google DeepMind, die Ausgangssituation. Diese Modelle kämen zwar mit bestimmten Aufgaben wie der Beschreibung von Bildern meist gut zurecht, hätten jedoch Schwierigkeiten mit komplexeren Anforderungen.

Gemini multimodal trainiert

Google wählte daher für sein neues LLM einen anderen Ansatz. "Wir haben Gemini von Anfang an auf verschiedene Modalitäten trainiert", sagt Hassabis. Anschließend habe man das KI-Modell mit zusätzlichen multimodalen Daten ergänzt, um die Effektivität weiter zu steigern. Gemini 1.0 sei darauf trainiert worden, Text, Bilder, Audio und andere Elemente gleichzeitig zu erkennen und zu analysieren, hieß es von Seiten des Herstellers. Dadurch könne die KI differenzierte Informationen besser verarbeiten und Fragen auch zu komplexen Themen beantworten.

Gemini sei in der Lage Zusammenhänge aufzudecken, die inmitten riesiger Datenmengen manchmal schwer zu erkennen seien, verspricht Google seinen Nutzerinnen und Nutzern. Die Fähigkeit des neuen KI-Modells, durch Lesen, Filtern und Analysieren von Informationen Erkenntnisse aus Hunderttausenden Dokumenten zu gewinnen, werde dazu beitragen, in vielen Bereichen von der Wissenschaft bis hin zum Finanzwesen neue Durchbrüche zu erzielen. Beispielsweise eigne sich Gemini besonders gut, Argumente in komplexen Fächern wie Mathematik und Physik zu erklären. Darüber hinaus könnten Entwickler mit Gemini Code in verschiedenen Programmiersprachen wie Python, Java, C++ und Go analysieren, erklären und generieren. Das soll auch sprachübergreifend funktionieren.

Google stellt neue KI-Beschleuniger vor

Basis für das Training von Gemini bilden die von Google selbst entwickelten Tensor Processing Units (TPUs). Der Hersteller spricht von maßgeschneiderten KI-Beschleunigern, die KI-gestützte Produkte wie die Google Suche, YouTube, Gmail, Google Maps, Google Play und Android antrieben. Parallel zu Gemini hat Google mit Cloud TPU v5 ein neues System für das Training aktueller KI-Modelle angekündigt. Cloud TPU v5p werde die weitere Entwicklung von Gemini beschleunigen und Anwenderunternehmen dabei helfen, groß angelegte generative KI-Modelle schneller zu trainieren.

Darüber hinaus hat Google mit dem KI-Hypercomputer eine Art Supercomputer-Architektur angekündigt. Dabei handelt es sich laut Hersteller um ein integriertes System aus leistungsoptimierter Hardware, offener Software, ML-Frameworks und flexiblen Nutzungsmodellen. KI-Hypercomputer basiert Google zufolge auf einem Co-Design auf Systemebene, um die Effizienz und Produktivität beim KI-Training, -Tuning und -Service zu steigern.

Die Google-Verantwortlichen betonten außerdem die Zuverlässigkeit ihres neuen KI-Modells. Gemini könne die bisher umfassendsten Sicherheitsbewertungen aller Google-AI-Modelle, auch hinsichtlich Voreingenommenheit und Toxizität, vorweisen, hieß es. Man habe verschiedene Untersuchungen zu potenziellen Risikobereichen wie Cyber-Angriffen, Einflussnahme und Autonomie durchgeführt beispielsweise Benchmarks wie Real Toxicity Prompts, eine Reihe von 100.000 Prompts mit unterschiedlichen Toxizitätsgraden aus dem Internet, die von Fachleuten am Allen Institute of AI entwickelt wurden.

Darüber hinaus hat Google eigenen Angaben zufolge spezielle Sicherheitsklassifikatoren entwickelt, die Inhalte identifizieren, kennzeichnen und aussortieren, in denen beispielsweise Gewalt oder negative Stereotype vorkommen. In Kombination mit weiteren Filtern soll Gemini damit sicherer für Nutzerinnen und Nutzer werden. Außerdem beschäftige man sich mit bekannten Herausforderungen für KI-Modelle, wie beispielsweise sachliche Richtigkeit sowie Quellenangaben und -verifizierungen. Details, wie Google an dieser Stelle arbeitet, blieb der Hersteller jedoch schuldig.

Gemini soll in alle Google-Produkte integriert werden

Google will Gemini 1.0 sukzessive über seine gesamte Produkt- und Plattformpalette ausrollen. Ab sofort sei Gemini Pro für den Chatbot Bard verfügbar. Dies sei die größte Qualitätsverbesserung seit der Einführung von Bard, hieß es. Bard werde zunächst in mehr als 170 Ländern und Regionen auf Englisch verfügbar sein. In naher Zukunft seien zusätzliche Funktionen und die Unterstützung weiterer Sprachen geplant.

Google will Gemini auch auf die Pixel-Geräte bringen. Das Pixel 8 Pro werde das erste Smartphone sein, das mit Gemini Nano ausgestattet ist. Der Hersteller verweist auf neue Funktionen wie die Zusammenfassung in der Rekorder App sowie die Einführung des Features "Intelligente Antwort" in Gboard, beginnend mit WhatsApp. Weitere Messaging-Apps folgen im nächsten Jahr.

In den kommenden Monaten werde Gemini dann in weiteren Produkten und Diensten verfügbar sein, kündigten die Google-Verantwortlichen an - unter anderem in der Google Suche, in Ads, Chrome und Duet AI. Ab dem 13. Dezember könnten Entwicklerinnen und Entwickler über die Gemini API in Google AI Studio oder Google Cloud Vertex AI auf Gemini Pro zugreifen.

Google will neue KI-Ära einläuten

Für die größte Modellvariante Gemini Ultra liefen derzeit Vertrauens- und Sicherheitsprüfungen, hieß es. Darüber hinaus werde das Modell im Vorfeld der Einführung durch Feinabstimmung und Reinforcement Learning aus menschlichem Feedback weiter getunt und optimiert. Als Teil dieses Prozesses will Google Gemini Ultra ausgewählten Kunden, Entwicklern, Partnern, Sicherheitsteams und Experten für Corporate Responsibility vorab zur Verfügung stellen. Deren Feedback will Google erst einmal auswerten, bevor das Tool Anfang 2024 allgemein verfügbar gemacht werden soll. Anfang nächsten Jahres will Google außerdem mit Bard Advanced ein neues Tool auf den Markt bringen, das Anwendern den Zugriff auf verschiedene Modelle und Funktionen bieten soll, beginnend mit Gemini Ultra.

Das Google-Management spricht im Zusammenhang mit Gemini von einem Meilenstein und einer neuen Ära der eigenen KI-Entwicklung. "Ich glaube, dass der Wandel, den wir gerade mit KI erleben, der tiefgreifendste in unserem Leben sein wird, weitaus größer als die Umstellung auf das Mobiltelefon oder das Internet zuvor", sagt Alphabet-Chef Pichai. KI werde neue Wellen der Innovation und des wirtschaftlichen Fortschritts auslösen und Wissen, Lernen, Kreativität und Produktivität in einem Ausmaß vorantreiben, wie wir es noch nie zuvor gesehen haben. "Da herrscht eine unglaubliche Dynamik, und doch kratzen wir gerade erst an der Oberfläche dessen, was möglich ist."

Mit Gemini setzt Google neue GenAI-Maßstäbe

Auch wenn in den vergangenen Monaten meist OpenAI mit seinen GPT-Modellen die Schlagzeilen beherrschte, dürfe man Google keineswegs abschreiben, sagt?Daryl Plummer, Distinguished VP Analyst & Gartner Fellow. Mit Gemini und seinen multimodalen Funktionen habe sich der Hersteller eindrucksvoll im GenAI-Rennen zurückgemeldet und einen neuen Maßstab gesetzt. Google habe auch viel Zeit in das Training des Modells für wichtige Grundfunktionen investiert, was sich jetzt auszahle.

Mit Gemini kann Google im GenAI-Markt wieder deutlich Boden gut machen, sagt Gartner-Analyst Daryl Plummer.
Mit Gemini kann Google im GenAI-Markt wieder deutlich Boden gut machen, sagt Gartner-Analyst Daryl Plummer.
Foto: Gartner

Plummer zufolge kann Google mit Gemini wieder zu OpenAI und dessen aktuellen GPT-Modellen aufschließen. Wer derzeit die Nase vorn hat, lasse sich aber schwer sagen, konstatiert der Gartner-Analyst. Das Duo OpenAI und Microsoft sei nach wie vor stark aufgestellt. Auch Amazon habe gerade erst auf seiner Konferenz re:Invent einige interessante neue KI-Funktionen vorgestellt. "Ich habe allerdings das Gefühl, dass Google in vielerlei Hinsicht in eine führende Position gerutscht ist", sagt Plummer. Der Anbieter könne mehr GenAI-Funktionen in der allgemeinen Verfügbarkeit vorweisen als andere. Allerdings müsse Google noch besser herausarbeiten, wie seine KI-Angebote Unternehmensprobleme lösen könnten.

KI-Technik entwickelt sich unglaublich schnell weiter

"Gemini scheint einige beeindruckende Fähigkeiten zu haben", bestätigt Neil Ward-Dutton, VP für AI, Automation & Analytics bei IDC in Europa. Vor allem die multimodalen Fähigkeiten des Modells sorgten für Aufmerksamkeit. Google befinde sich dem Analysten zufolge in einem Innovationswettlauf mit OpenAI, Microsoft und AWS - aber auch mit IBM, Cohere, Mistral, Aleph Alpha und einer schnell wachsenden Open-Source-Community. "Der Stand der Technik entwickelt sich unglaublich schnell weiter", so Ward-Dutton.

IDC-Analyst Neil Ward-Dutton bescheinigt Googles Gemini-Modell beeindruckende Fähigkeiten.
IDC-Analyst Neil Ward-Dutton bescheinigt Googles Gemini-Modell beeindruckende Fähigkeiten.
Foto: IDC

Es sei derzeit sehr schwierig zu sagen, wer im GenAI-Rennen die Nase vorn hat. Aber das ist aus Sicht des IDC-Analysten auch gar nicht so wichtig. Unternehmen seien vielmehr daran interessiert, dass Sicherheit, Datenschutz, Kostenmanagement, Reaktionsfähigkeit und Qualität in die GenAI-Anwendungsfälle eingebaut werden. "Das ist es, was für Unternehmen wichtig ist."