比MP3档案还小10倍,Meta开源全新音频压缩技术 EnCodec

比MP3档案还小10倍,Meta开源全新音频压缩技术 EnCodec

Meta 最近公布了全新的开源音频压缩技术 EnCodec,号称压缩文件大小比 MP3 格式小 10 倍。

Meta 旗下基础人工智能研究 (FAIR) 团队在 AI 驱动的音频超压缩领域取得了成功,构建了一个由三部分组成的系统,并对其进行端到端训练,以将音频数据压缩到目标大小,然后可以使用神经网络对这些数据进行解码。

与64 kbps的MP3相比,Meta的新技术EnCodec实现了大约10倍的压缩率,而且没有音质损失。

比MP3档案还小10倍,Meta开源全新音频压缩技术 EnCodec

EnCodec 的三部分包括:

  • 编码器:获取未压缩的数据并将其转换为更高维度和更低影格率的表示(representation)。
  • 量化器:将这个表示压缩到目标大小,通过训练量化器给想要的大小(或大小集),同时保留最重要的信息来重建原始讯号。 这种压缩表示是储存在磁盘上或通过网络传送的,相当于电脑上的.mp3 文件。
  • 解码器:将压缩讯号转换回与原始讯号尽可能相似的波形,失真压缩的关键是识别人类无法感知的变化,因为在低位率下完美的重建是不可能的。 为此,EnCodec 使用识别器来提高生成样本的感知质量,建立了一个类似猫捉老鼠的游戏,其中识别器的工作是区分真实样本和重建样本。 压缩模型试图通过推动重建的样本在感知上与原始样本更加相似来生成样本来欺骗鉴别器。
比MP3档案还小10倍,Meta开源全新音频压缩技术 EnCodec

Meta表示,该技术尚未应用在视频上,但目前已在计划中,其目标是改进视频会议、流媒体电影以及在VR中与朋友玩游戏等的音频体验。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表评论

登录后才能评论