谷歌首个处理语音的AI编解码器,SoundStream最新技术详解,高效压缩且降噪

智东西(公众号:zhidxcom)
编译 |  李慧楠
编辑 |  江心白

智东西8月14日消息,据外媒VentureBeat报道,美国时间8月12日,谷歌公司对旗下音频编解码器SoundStream进行了技术详解,该编解码器不仅可以处理不同的类型声音,而且可以提供高质量的音频。同时,SoundStream是首个可以处理语音和音乐的AI编解码器,并且编解码器还能在智能手机上运行。

据了解,SoundStream是一款从端到端的“神经”音频编解码器,可处理的音频包括语音、音乐和环境声音。同时,SoundStream可同时进行压缩和增强音频以消除背景中的噪音。

据谷歌介绍,3kbps SoundStream的性能接近9.6kbps的美国EVS处理器,并且性能超过了12kbps Opus编解码器。此外,在相同比特率下,SoundStream的性能比当前版本的Lyra更好。

用户利用SoundStream来压缩音频,可缓解对高存储量和带宽需求。同时,解码后的音频与原始音频在感知上没有较大差别。

在传统的音频处理管道中,压缩音频和增强音频通常由不同的板块执行。但SoundStream是同时进行压缩和增强。

今年5月,谷歌发布了一款名Lyra为神经音频编解码器,可用于压缩低比特率的音频。Lyra是由SoundStream利用编码器、解码器和量化器组成的系统构建。

但谷歌称,SoundStream仍处于试验阶段,后续计划是还会更新Lyra的版本,更新后音频质量会更高,复杂性也降低。

“当人们在传输音频时,有效的压缩是必要的。SoundStream是改进机器驱动的音频编解码器的重要一步,它的性能已优于最先进的Opus和EVS编解码器,并可以根据需要增强音频。”谷歌科研人员Neil Zeghidour说道。

谷歌另一名科研人员Marco Tagliasacchi也在博客中写道,通过将SoundStream与Lyra集成,开发者可以利用现有的工具来进行研发,既很好利用资源,又能提供更好的音质。

结语:SoundStream后续版本值得消费者期待

据悉,SoundStream目前已具备市场最好的音频编解码器的功能和特性。SoundStream高效的音频处理器,不但节约了消费者时间,还能提供更好的音质。因此,SoundStream在音频编解码器的市场中,可能会更受消费者青睐。

虽然目前SoundStream仍是处于试验阶段,但随着谷歌推进技术发展,未来SoundStream或许会被广泛使用。

来源:VentureBeat