ChatGPT für die Ohren

Googles MusicLM verwandelt Text in Musik

31.01.2023
Von 


Manfred Bremmer beschäftigt sich mit (fast) allem, was in die Bereiche Mobile Computing und Communications hineinfällt. Bevorzugt nimmt er dabei mobile Lösungen, Betriebssysteme, Apps und Endgeräte unter die Lupe und überprüft sie auf ihre Business-Tauglichkeit. Bremmer interessiert sich für Gadgets aller Art und testet diese auch.
Ein neues KI-System von Google kann anhand einer Textbeschreibung Musik eines beliebigen Genres erzeugen. Anders als ChatGPT ist MusicLM nicht allgemein verfügbar – aus Gründen.
MusicLM macht aus Beschreibungen wie Beschreibungen wie "eine beruhigende Geigenmelodie, unterlegt mit einem verzerrten Gitarrenriff" einen Song.
MusicLM macht aus Beschreibungen wie Beschreibungen wie "eine beruhigende Geigenmelodie, unterlegt mit einem verzerrten Gitarrenriff" einen Song.
Foto: Andrey Suslov - shutterstock.com

Nach dem Bohei um ChatGPT sah sich Google offenbar veranlasst, die Dominanz von Open AI im Bereich Generative AI in Frage zu stellen. Mit MusicLM, das auf Basis einer Textbeschreibung dazu passende Musikstücke eines beliebigen Genres erzeugen kann, dürfte das gelungen sein. Neben Textbeschreibungen können die mehrminütigen Musikstücke auch auf Grundlage von Pfeifen oder Summen oder als Reaktion auf ein Bildbeschreibung erzeugt werden. In dem zu MusicLM veröffentlichten Research Paper führt Google als Beispiel Salvador Dalis Gemälde "Die verflossene Zeit" oder Edvard Munks "Der Schrei" auf, zu denen, beziehungsweise deren Beschreibung MusicLM einen eigenen Song komponiert.

MusicLM verwendet ein KI-Modell, das auf einem, wie Google es nennt, "großen Datensatz mit nicht gekennzeichneter Musik" trainiert wurde - zusammen mit Beschriftungen aus MusicCaps, einem neuen Datensatz mit über 5.500 Musik-Text-Paaren. Die frei verfügbare Sammlung bezieht ihre Textbeschreibungen von menschlichen Experten und die passenden Audioclips aus Googles AudioSet, einer Sammlung von über zwei Millionen beschrifteten, zehnsekündigen Soundclips aus YouTube-Videos.

"Möglicherweise Copyright-geschütztes Material verwendet"

Google behauptet, dass MusicLM frühere KI-Musikgeneratoren in Bezug auf Audioqualität und Einhaltung von Textbeschreibungen übertrifft. Auf der Demo-Seite für MusicLM liefert Google zahlreiche Beispiele für das KI-Modell in Aktion, das Audio aus "reichhaltigen Beschreibungen" erzeugt, die das Gefühl der Musik und sogar den Gesang beschreiben.

Anders als ChatGPT ist das Tool selbst (noch) nicht für jedermann zugänglich. Google begründet dies mit der Möglichkeit, dass MusicLM urheberrechtlich geschütztes Material produziert. Das würde in etwa einem Prozent der Fälle passieren.