Nach dem Bohei um ChatGPT sah sich Google offenbar veranlasst, die Dominanz von Open AI im Bereich Generative AI in Frage zu stellen. Mit MusicLM, das auf Basis einer Textbeschreibung dazu passende Musikstücke eines beliebigen Genres erzeugen kann, dürfte das gelungen sein. Neben Textbeschreibungen können die mehrminütigen Musikstücke auch auf Grundlage von Pfeifen oder Summen oder als Reaktion auf ein Bildbeschreibung erzeugt werden. In dem zu MusicLM veröffentlichten Research Paper führt Google als Beispiel Salvador Dalis Gemälde "Die verflossene Zeit" oder Edvard Munks "Der Schrei" auf, zu denen, beziehungsweise deren Beschreibung MusicLM einen eigenen Song komponiert.
MusicLM verwendet ein KI-Modell, das auf einem, wie Google es nennt, "großen Datensatz mit nicht gekennzeichneter Musik" trainiert wurde - zusammen mit Beschriftungen aus MusicCaps, einem neuen Datensatz mit über 5.500 Musik-Text-Paaren. Die frei verfügbare Sammlung bezieht ihre Textbeschreibungen von menschlichen Experten und die passenden Audioclips aus Googles AudioSet, einer Sammlung von über zwei Millionen beschrifteten, zehnsekündigen Soundclips aus YouTube-Videos.
Google's new music model MusicLM is the breakthrough of the week.
— Pete (@nonmayorpete) January 27, 2023
Here it is in action.
Just describe the music and it'll generate the track: pic.twitter.com/xAhzHfGnMH
"Möglicherweise Copyright-geschütztes Material verwendet"
Google behauptet, dass MusicLM frühere KI-Musikgeneratoren in Bezug auf Audioqualität und Einhaltung von Textbeschreibungen übertrifft. Auf der Demo-Seite für MusicLM liefert Google zahlreiche Beispiele für das KI-Modell in Aktion, das Audio aus "reichhaltigen Beschreibungen" erzeugt, die das Gefühl der Musik und sogar den Gesang beschreiben.
Anders als ChatGPT ist das Tool selbst (noch) nicht für jedermann zugänglich. Google begründet dies mit der Möglichkeit, dass MusicLM urheberrechtlich geschütztes Material produziert. Das würde in etwa einem Prozent der Fälle passieren.