Facebook- und WhatsApp-Mutter Meta hat in der vergangenen Woche eine KI-gestützte Audiokomprimierungsmethode namens "EnCodec" angekündigt. Die Technik könne dem Bericht zufolge Audiodaten zehnmal kleiner als das MP3-Format mit 64 KBit/s komprimieren, ohne dass darunter die Qualität leidet. Laut Meta ließe sich mit dieser Technik die Klangqualität von Sprache bei Verbindungen mit geringer Bandbreite, z. B. bei Telefongesprächen in Gegenden mit sporadischem Service, erheblich verbessern. Die Technik funktioniert auch bei Musik und könnte somit künftig MP3 ersetzen. Den Unterschied zwischen verschiedenen Kompressionstechniken demonstrierte Meta AI an einem Klangbeispiel.
Meta stellte die Technologie am 25. Oktober in einem Papier mit dem Titel "High Fidelity Neural Audio Compression" vor, das von den Meta AI-Forschern Alexandre Défossez, Jade Copet, Gabriel Synnaeve und Yossi Adi verfasst wurde. Meta hat die Forschungsergebnisse auch in seinem Blog zu EnCodec zusammengefasst.
Diskriminatoren als Schlüssel
Meta beschreibt seine Methode als ein dreiteiliges System, das darauf trainiert ist, Audio auf eine gewünschte Zielgröße zu komprimieren. Zunächst wandelt der Encoder unkomprimierte Daten in eine Darstellung mit niedrigerer Bildrate um. Der "Quantisierer" komprimiert dann die Darstellung auf die Zielgröße und behält dabei die wichtigsten Informationen im Auge, die später zur Wiederherstellung des Originalsignals verwendet werden. Dieses komprimierte Signal wird über ein Netzwerk gesendet oder auf der Festplatte gespeichert. Schließlich wandelt der Decoder die komprimierten Daten mithilfe eines neuronalen Netzwerks auf einer einzigen CPU in Echtzeit wieder in Audiodaten um.
Der Schlüssel zur Entwicklung einer Methode, mit der Audiodaten so stark wie möglich komprimiert werden können, ohne dass Schlüsselelemente eines Signals verloren gehen, ist der Einsatz von Diskriminatoren. Diese haben die Aufgabe, zwischen echten und rekonstruierten Samples zu unterscheiden, erklärt Meta. Das Kompressionsmodell versucht, Proben zu erzeugen, um die Diskriminatoren zu täuschen, indem es die rekonstruierten Proben dazu bringt, den ursprünglichen Proben wahrnehmungsmäßig ähnlicher zu sein.
Was das Anwendungsgebiet angeht, sieht Meta vor allem die Möglichkeit, mit der KI-gestützten "Hyperkompression von Audio" bei schlechten Netzbedingungen "schnellere Anrufe in besserer Qualität" zu ermöglichen. Wenig überraschend weisen die Forscher aber auch darauf hin, dass die Technologie schließlich "reichhaltige Metaversum-Erfahrungen ohne größere Bandbreitenverbesserungen" bieten könnte.