Bei Imagen handele es sich um ein "Text-Bild-Diffusionsmodell mit einem noch nie dagewesenen Grad an Fotorealismus und einem tiefen Sprachverständnis", das vom Brain Team bei Google Research entwickelt worden sei. Als Vorbild gilt DALL-E, einer Anfang 2021 vorgestellten KI von OpenAI, die ebenfalls aus Texteingaben fotorealistische Bilder erzeugt. Version 2 kam erst vor wenigen Wochen heraus und liefert einen Editor mit, um den Output nach Bedarf zu bearbeiten. Die Software befindet sich - genauso wie Google Imagen - noch im Forschungsstadium und steht nur einer begrenzten Zahl von Entwicklern und Testern zur Verfügung. Laut OpenAI ermöglicht sie das Erstellen von Bildern anhand von Beschreibungen, Konzepten und Stilvorgaben.
Google indes erhebt den Anspruch, realistischere Bilder als DALL-E zu erzeugen. Um Imagen im Vergleich zu anderen Text-Bild-Modellen (einschließlich DALL-E 2, VQ-GAN+CLIP und Latent Diffusion Models) zu bewerten, entwickelten die Google-Forscher einen Benchmark namens DrawBench. Dabei handelt es sich um eine Sammlung von 200 Textaufforderungen, die in jedes Modell zwecks Ergebnisvergleichs eingegeben wurden. Laut Google kamen menschliche Bewerter zu dem Schluss, dass Imagen den anderen Modellen überlegen sei.
Noch ist Imagen nicht ausgreift
Das Webzine Engadget weist allerdings daraufhin, dass alle auf der Imagen-Website gezeigten Beispiele offensichtlich kuratiert worden seien. Es handele sich vermutlich um die besten der besten Bilder, die das Modell erzeugt habe. Sie spiegelten wohl nicht realistisch wieder, was das Modell zum heutigen Zeitpunkt an Output liefern könne.
Google hält es - genauso wie OpenAI mit DALL-E - aus mehreren Gründen für zu früh, Imagen der Öffentlichkeit zur Verfügung zu stellen. Hintergrund ist, dass Text-zu-Bild-Modelle in der Regel auf großen Datensätzen trainiert werden, die aus dem Internet stammen und nicht kuratiert sind - was eine Vielzahl von Problemen mit sich bringt. Zwar seien durch dieses Vorgehen in den vergangenen Jahren schnelle Fortschritte bei den Algorithmen möglich geworden, so die Forscher, doch die Datensätze spiegelten soziale Stereotypen wieder - einschließlich rassistischer Vorurteile, abfälliger Sentiments oder "anderweitig schädlicher Assoziationen zu marginalisierten Identitätsgruppen".
Google habe zwar einen Teil der Trainingsdaten gefiltert, um "Rauschen" und unerwünschte Inhalte wie pornografische Bilder oder Hate Speech zu entfernen. Doch es sei auch der LAION-400M-Datensatz verwendet worden, von dem man wisse, dass er viele unangemessene Inhalte enthalte, darunter pornografische Bilder, rassistische Verunglimpfungen und schädliche soziale Stereotypen.
Training mithilfe von Internet-Daten sorgt für Verzerrungen
Imagen habe die "sozialen Verzerrungen und Einschränkungen großer Sprachmodelle geerbt" und könne "schädliche Stereotypen und Darstellungen" abbilden. Dem Google-Team zufolge deuten vorläufige Ergebnisse daraufhin, dass die KI soziale Vorurteile spiegelt und beispielsweise dazu neigt, Bilder eher von Menschen mit heller Hautfarbe zu erstellen oder bestimmte stereotype Geschlechterrollen zu stützen. Würde Imagen im jetzigen Zustand der Öffentlichkeit zugänglich gemacht, könnte das KI-System nach Einschätzung der Forscher missbräuchlich eingesetzt werden. "Wir arbeiten daran, einen Rahmen für eine verantwortungsvolle Externalisierung zu stecken", kündigten die Forscher an.
Interessenten können auf der Imagen-Webseite zumindest schon ein bisschen spielen, indem sie aus vordefinierten Phrasen auswählen und sich so ein Foto oder "Ölgemälde" konfigurieren lassen. Wenn Sie also das Porträt einer Perserkatze mit schwarzer Lederjacke und Cowboyhut sonnenbebrillt auf einem Skateboard am Strand erleben wollen, haben Sie die Gelegenheit dazu, wenn Sie auf der Imagen-Website ein bisschen weiter nach unten scrollen.