10-fach höhere Komprimierung als MP3

Meta stellt KI-gestützten Audiocodec vor

02.11.2022
Von 


Manfred Bremmer beschäftigt sich mit (fast) allem, was in die Bereiche Mobile Computing und Communications hineinfällt. Bevorzugt nimmt er dabei mobile Lösungen, Betriebssysteme, Apps und Endgeräte unter die Lupe und überprüft sie auf ihre Business-Tauglichkeit. Bremmer interessiert sich für Gadgets aller Art und testet diese auch.
Die von Meta vorgestellte Technik könnte dank der hohen Komprimierung auch bei schlechten Verbindungen Anrufe und Musik in hoher Qualität ermöglichen.
Die EnCodec-Technologie soll Audio-Dateien auf das Wesentliche reduzieren.
Die EnCodec-Technologie soll Audio-Dateien auf das Wesentliche reduzieren.
Foto: Harbucks - shutterstock.com

Facebook- und WhatsApp-Mutter Meta hat in der vergangenen Woche eine KI-gestützte Audiokomprimierungsmethode namens "EnCodec" angekündigt. Die Technik könne dem Bericht zufolge Audiodaten zehnmal kleiner als das MP3-Format mit 64 KBit/s komprimieren, ohne dass darunter die Qualität leidet. Laut Meta ließe sich mit dieser Technik die Klangqualität von Sprache bei Verbindungen mit geringer Bandbreite, z. B. bei Telefongesprächen in Gegenden mit sporadischem Service, erheblich verbessern. Die Technik funktioniert auch bei Musik und könnte somit künftig MP3 ersetzen. Den Unterschied zwischen verschiedenen Kompressionstechniken demonstrierte Meta AI an einem Klangbeispiel.

Meta stellte die Technologie am 25. Oktober in einem Papier mit dem Titel "High Fidelity Neural Audio Compression" vor, das von den Meta AI-Forschern Alexandre Défossez, Jade Copet, Gabriel Synnaeve und Yossi Adi verfasst wurde. Meta hat die Forschungsergebnisse auch in seinem Blog zu EnCodec zusammengefasst.

Meta behauptet, dass sein neuer Audio-Encoder/Decoder Audio 10-mal kleiner komprimieren kann als MP3.
Meta behauptet, dass sein neuer Audio-Encoder/Decoder Audio 10-mal kleiner komprimieren kann als MP3.
Foto: Meta AI

Diskriminatoren als Schlüssel

Meta beschreibt seine Methode als ein dreiteiliges System, das darauf trainiert ist, Audio auf eine gewünschte Zielgröße zu komprimieren. Zunächst wandelt der Encoder unkomprimierte Daten in eine Darstellung mit niedrigerer Bildrate um. Der "Quantisierer" komprimiert dann die Darstellung auf die Zielgröße und behält dabei die wichtigsten Informationen im Auge, die später zur Wiederherstellung des Originalsignals verwendet werden. Dieses komprimierte Signal wird über ein Netzwerk gesendet oder auf der Festplatte gespeichert. Schließlich wandelt der Decoder die komprimierten Daten mithilfe eines neuronalen Netzwerks auf einer einzigen CPU in Echtzeit wieder in Audiodaten um.

Ein Blockdiagramm veranschaulicht die Funktionsweise der EnCodec-Komprimierung von Meta.
Ein Blockdiagramm veranschaulicht die Funktionsweise der EnCodec-Komprimierung von Meta.
Foto: Meta AI

Der Schlüssel zur Entwicklung einer Methode, mit der Audiodaten so stark wie möglich komprimiert werden können, ohne dass Schlüsselelemente eines Signals verloren gehen, ist der Einsatz von Diskriminatoren. Diese haben die Aufgabe, zwischen echten und rekonstruierten Samples zu unterscheiden, erklärt Meta. Das Kompressionsmodell versucht, Proben zu erzeugen, um die Diskriminatoren zu täuschen, indem es die rekonstruierten Proben dazu bringt, den ursprünglichen Proben wahrnehmungsmäßig ähnlicher zu sein.

Was das Anwendungsgebiet angeht, sieht Meta vor allem die Möglichkeit, mit der KI-gestützten "Hyperkompression von Audio" bei schlechten Netzbedingungen "schnellere Anrufe in besserer Qualität" zu ermöglichen. Wenig überraschend weisen die Forscher aber auch darauf hin, dass die Technologie schließlich "reichhaltige Metaversum-Erfahrungen ohne größere Bandbreitenverbesserungen" bieten könnte.