日产有声书500万字,效率碾压真人配音,这家AI公司如何做到?

智东西(公众号:zhidxcom)
作者 | 韦世玮
编辑 | 心缘

不到半年,仅成立两年的TTS(语音合成)科技创企倒映有声又开启新一轮融资了。

如今,电子书、广播剧等以声音为载体的“耳朵经济”快速兴起,其中有些堪比专业播音员的声音,其实是由人工智能(AI)合成出来的。

相比真人播音员,AI语音合成技术不仅大大缩短配音时间,而且更加节约制作成本和人力成本。以提供语音合成系统及解决方案起家的倒映有声,即是在做这样的事。

过去一年,倒映有声上线的有声读物制作平台,其AI主播每日单机生产速度已超500万字,录制成本可节约超90%。今年3月,它与中央广播电视总台音频客户端“云听”APP达成合作,开展基于央广总台IP和融媒体领域的AI产品研发,这意味着其业务已成功打入“国家队”。

倒映有声的核心团队大多出身于百度、微软、阿里等公司,早期小爱同学、小度智能音箱、百度语音导航、百度呼叫中心等语音产品底层技术的构建,都少不了这群技术专家的身影。

基于端到端神经网络和深度学习合成器,倒映有声自研了情绪和情感控制模块,在音色模拟、情感展现、定制化服务、多语种等方面都已达行业领先水平。

其融资也在快速推进中。此前,这家创企已完成2019年5月300万元的天使轮融资、今年5月千万级人民币的Pre-A轮融资,并正在启动A轮融资,目标规模为2000-3000万元,以加快技术研发、加速垂直场景的产品落地。

在北京建外SOHO的一间办公室里,这家团队规模不到20人的新兴企业,正酝酿着一场围绕语音合成领域的新一轮抢位赛。

近日,智东西走进他们的北京总部,通过与其创始团队展开深入交流,我们了解到更多这家公司的诞生与成长故事,也看到了不少他们对AI语音技术创新的探索和坚持。

日产有声书500万字,效率碾压真人配音,这家AI公司如何做到?

▲从左到右分别为倒映有声联合创始人兼CTO李骁、倒映有声创始人兼CEO肖朔、倒映有声联合创始人兼CMO何培成

一、助推百度小米智能音箱诞生,倒映有声的起航

2013年左右,硕士毕业于北京航空航天大学云计算专业的肖朔,加入了百度语音技术部工作。同期加入的,还有刚从英国帝国理工大学人工智能专业硕士毕业回国的李骁。这时,百度的人工智能(AI)业务才刚刚起步。

在百度期间,肖朔与李骁所在的团队开发了国内首款情感语言合成系统,并先后研发了小度智能音箱、百度呼叫中心等产品,给未来百度智能语音生态的构建和丰富打下了重要基础。

此外,二人还曾任职于猎豹移动投资的AI创企——猎户星空,在一年时间里与初创团队共同参与了小米首款小爱智能音箱的开发项目。

在这几年摸爬滚打的过程中,正是这两段从0到1构建技术方案的经历,让肖朔与李骁逐渐产生了创业的想法。恰好在猎户星空打拼的经历,也让他们接触了许多创意知识和经验,“消除了对创业的恐惧感。”

2019年,随着百度语音技术已步入成熟发展的正轨,其语音技术战略重点已不在语音合成,更多是聚焦在语音交互。与此同时,得益于硬件设施的完善、算力的增强,以及深度学习应用场景的进一步拓展,曾一直处于早期发展阶段的语音合成技术终于有了变革性突破。

因此,肖朔和李骁决定离开百度,开启创业生涯。2019年3月,倒映有声于杭州正式注册成立,由于跟随他们一同出来创业的还有不少原百度团队的伙伴,他们也选择将公司总部“落户”北京,并在成立两个月后拿下300万人民币的天使轮融资。

肖朔和李骁的创业之旅正式起航,倒映有声的挑战也才刚刚开始。

日产有声书500万字,效率碾压真人配音,这家AI公司如何做到?

二、押注有声书和AI新闻播报,语音合成想象空间巨大

不过,AI语音的赛道如此广泛,倒映有声为何坚定地选择语音合成赛道?

在肖朔看来,语音识别是最早爆发的语音技术,科大讯飞、云知声等公司已深耕多年,做出了智能医疗、智能翻译笔、智能会议录入系统等成熟产品,给新玩家留下的市场机会并不多。

技术方面,李骁认为目前语音识别技术已进入了单纯比拼识别准确率的成熟阶段。相比之下,语音合成仍有许多待发掘的细分场景,包括广播剧、有声书、游戏配音,甚至亚文化中的虚拟偶像等,都是未来的落地方向,想象空间巨大。

例如,以往有声书、广播剧等长音频作品在制作过程中,需要人工对大量文字脚本进行前期画本、中期配音、后期剪辑等工作,整套流程要花费几个月时间,还涉及不少人工成本。但如果使用语音合成技术,能极大地压缩各个环节中的时间和财务成本,只需几天甚至几个小时,就能完成一个长音频作品的制作。

日产有声书500万字,效率碾压真人配音,这家AI公司如何做到?

再比如影视和游戏配音中,为了保证用户的观影及游戏体验,制作团队需要花大量时间筛选适合角色的配音员,同时还需考虑配音员的休息时间、续集声音的连贯性等,这些也对制作周期带来了许多不确定性。若采用语音合成技术,只需输入脚本就能快速生成适合人物形象和作品需求的声音。

不过,由于用户对语音合成技术的体感要求非常高,如果技术无法达到媲美真人的效果水平,就很难有用户愿意付费,同时用户付费的意愿与技术效果的提高成正比。

“因此语音合成技术是整个语音交互技术链路上最后爆发的赛道,一旦爆发,市场空间会更大。”肖朔评价。

目前,倒映有声主要以有声书和AI新闻播报两大场景为切入点,为创作者、版权方和融媒体平台等客户提供高产能、低成本的音频制作服务。

有声书方面,倒映有声主要提供有声读物交易制作平台,用户通过该平台可实现从覆盖文稿画本到配音录制,再到音频剪辑的全流程云端制作,还可自主选择全自动/半自动制作,以及纯AI主播、AI人声+真人主播录制等。

例如在前期处理环节,平台可实现对文稿的筛选和清洗,如果是广播剧级别的内容,还能对内容进行深层次的改造,包括配音的角色划分、性格描述刻画、情绪风格等要素,以改编成适合收听的文本。

AI新闻播报方面,倒映有声与中央广播电视总台音频客户端“云听”APP合作打造AI新闻主播,提供音频内容服务的一站式解决方案。和国内其他AI新闻主播相比,倒映有声的播音效果情绪更加饱满、自然,在音色模拟、情感展现、多语种等方面都已达业内领先水平。

▲倒映有声语音合成技术在云听APP上的应用实例

三、背后的技术城池构建,语音合成的三大优势

不管是有声书还是AI新闻播报背后,都离不开倒映有声在语音合成领域的技术积累和创新。

李骁谈道,以前传统的语音合成技术主要有两种方式,分别为拼接法和参数法。例如最初的小米小爱同学就是采用拼接法,几乎使用真人的声音片段进行算法拼接组合,优势是音色和自然度等效果好,缺点在于操作复杂度极高,对数据量需求也非常大。

“当时我们让配音员录了将近半年时间,前后加起来上百个小时,才将小爱同学打磨到一个非常好的水平。”李骁说。

随着端到端深度学习逐步拓展到语音合成领域,语音合成技术得到了质的飞跃。

一方面,基于深度学习的语音合成技术,其内部计算模块和网络构建更为复杂,不管是参数量还是技术复杂度,都远远超过以往水平;另一方面,内部结构的复杂也使得模型搭建完成后,后续的使用会变得非常简单,无需再用大量数据去做底层支撑。

日产有声书500万字,效率碾压真人配音,这家AI公司如何做到?

▲智能语音合成结构(图源:头豹研究院)

整体来看,倒映有声的语音合成技术主要拥有三方面核心优势。

一是拟真度,这是语音合成技术的核心。语音合成通常覆盖有声绘本、有声读物、新闻播报、呼叫中心等多个应用场景,不同场景下的技术表达方式与操作逻辑都有着较大区别,例如小孩儿、成年人、老年人等不同音色,或是模拟不同动物、怪兽的发音,都是一个较大的课题。

倒映有声则能大大减少语音合成和真人表达之间的差异性,拉近合成声与真人之间的距离,合成后的声音采样率达48kHz,更接近真人在录音棚中录制的声音,而市场上主流合成采样率为16kHz。

在多情感方面,倒映有声的语音合成技术还能将情感表达得更精准、细腻和丰富。同时,它还支持英文、中英文混合合成,跨语种定制成本低。

二是定制化能力。基于过去两年的数据积累,倒映有声在自己平台上已沉淀了上千位真人主播,其语音合成定制化能力已达到只需200句话(约30分钟时长),就能几乎100%还原一个人的声音,并且能达到商业化落地的水平。

甚至用户只需录10-15句话,倒映有声就能将声音以90%的相似度“克隆”下来,但“克隆”下来的主要是声线,句子数非常小,所以在情绪还原上还需其他算法技术进行弥补。

三是语音合成技术的结合性。除了语音合成这一单点技术外,倒映有声还很关注与之强相关的上下游技术点。例如在有声读物场景,倒映有声已落地了全自动画本能力,每句话该用哪个音库、该用什么情感风格,都与语音合成技术有着强相关的绑定关系。

日产有声书500万字,效率碾压真人配音,这家AI公司如何做到?

四、有声书行业高速发展背后,倒映有声的下一步规划

从2019年3月成立至今,倒映有声将近花了一年多时间在做底层技术的打磨和积累,直到2020年5月开始正式商业化。2020年间,他们9月跑通有声书赛道,12月进入广电融媒体赛道……其中最大的变化在于联合创始人兼CMO何培成的加入。

“何校长补齐了我们的市场商务团队,让倒映有声从一家纯粹的技术输出型公司,转变成了产品服务公司。”肖朔提到,在这个转变中,公司针对几个垂直场景形成了完整的产品服务,在打开市场局面的同时进一步扩充了公司营收。

“去年公司主要聚焦在技术和产品阶段,营收基数较低。”何培成谈道,今年公司营收出现了明显爆发,预计将有大几百万的收入,同比增长700%。

今年,倒映有声的主要目标还是集中在技术和市场两个方面,一是夯实已切入的有声书和AI新闻播报市场,做出标杆客户,实现更大规模收入的同时提升市场占有率,这也是今年他们最核心的目标;二是希望基于自身的语音合成技术,延伸到更多商业场景。

日产有声书500万字,效率碾压真人配音,这家AI公司如何做到?

至于技术方面,李骁认为目前语音合成的关键挑战是如何让情绪表达更加细腻,“这将是我们持续深挖的点,只有把它攻克了,我们才有可能让语音合成技术进入到更多场景中。”他说,如何加强语音合成在长音频中的自然和流畅感也是一个难点,因为目前语音合成仍聚焦在单句的合成上。

简单来说,现阶段语音合成技术的最大瓶颈已不在算力上,而是语音合成技术本身,如何才能用更好的数学模型来解释人们发音的生理构造和原理,也许是语音合成技术下一个最重要的突破口。

因此倒映有声的下一步技术研发方向,一方面将从深度出发,持续挖掘情感的细腻表达,更好地控制在长文本上连贯的渐强、渐弱自然表达。同时,更低成本的定制化也是重点之一。

另一方面则从广度出发,加强和语音合成强相关的上下游技术链路,包括自然语言处理(NLP)方面的自动角色划分、文本级情感预测等重点。李骁认为,再往下游走也有不少需要通过音频驱动的场景,例如语音驱动虚拟人物的面部表情或肢体表达。

“整体来看,语音合成在有声书和融媒体方向的落地都比较清晰了,真正挑战是开拓增量场景。”肖朔谈道,未来他们也将向东南亚地区,以及俄罗斯、日本、韩国等非英文母语国家提供服务,进一步拓展海外业务范围。

结语:语音合成技术爆发潜力巨大

智能语音作为当下发展如火如荼的技术,已成为各产业智能化过程中不可或缺的重要工具,尤其是语音交互和语音识别技术,已深入到人们生活、工作的方方面面。相比之下,语音合成技术确实还未来到全面爆发的节点。

但目前在语音合成赛道中,有声书行业的市场规模正保持着高速增长。据市场研究机构艾媒咨询数据,中国有声书行业规模已从2016年的23.7亿元增长至2019年的63.6亿元,连续三年增速超30%,预计2020年将达到95亿元左右。

倒映有声的成立,无疑为语音合成技术在更多领域的融合创新提供了一个值得借鉴的商业样本。这支创业团队让我们看到了语音合成技术更广阔的想象空间,从有声书到AI新闻播报,从游戏到影视剧,从机器人到虚拟主播……似乎一切有视听内容输出的场景,都有着不少潜在机会。

未来,随着语音合成技术逐步进入爆发阶段,我们也期待它能给各行各业带来更多创新性的突破和蜕变。