AI的新故事,藏在李彦宏的《智能交通》音频书里

智东西(公众号:zhidxcom)
作者 | 李水青
编辑 | 漠影

近日,百度董事长兼CEO李彦宏新书《智能交通》的音频版上线喜马拉雅APP,值得一提的是,它是由李彦宏亲自献声。

打开音频,只听到一个干净、富有磁性而不失温柔的声音娓娓讲述,这些年来发生在人、车、路之间的无声变化,让人似乎亲眼看见这场或许影响人类未来10-40年的重大变革的场景。

▲《智能交通》有声书片段截取

不得不说,虽然不是专业播音,但由作者李彦宏本人亲自讲述,这套有声书已经接近专业播音水平,且更有真情实感。

实际上,究其背后制作,这并不是由李彦宏自己在录音棚配音完成,而是来自他的一位助理——人工智能(AI)。

AI在对李彦宏的一段不到1小时的录音素材学习后,自动生成了这本超20万字作品的逼真音频版。

AI的新故事,藏在李彦宏的《智能交通》音频书里

你永远可以相信AI在音视频创作上的天赋。此前我们刚刚报道了AI修复张国荣2000年《热·情》演唱会的案例,今天,AI又再次显现出改变音频产业的潜力。

那么,AI是怎样合成李彦宏的声音的?背后又有什么样的技术难点?在本文中,我们通过对话这一项目的深度参与者,来解读背后的技术和产业奥秘。

一、AI学习300句话后,帮李彦宏完成20万字配音

首先,让我们来听几个《智能交通》有声书里的片段,感受一下。

2015年,在李彦宏刚刚带领团队做自动驾驶两年时,他就开始关注包括驾驶安全、道路拥堵等更宏大的交通方面的问题。7年后成书之际,他在《智能交通》里坦言,自己看待自动驾驶的维度发生了显著变化:

▲《智能交通》有声书片段截取

“随着我对交通问题的关注越来越深,看待自动驾驶的维度也发生了显著的变化。百度的发展方向也从自动驾驶,逐渐延伸到车路协同、智能交通、数字城市运营。在这个过程中,有很多的实践,也踩过很多的坑。但是,我越来越确定以下的事情。”语气恳切,语调自然起伏。

那么李彦宏确定了什么事情呢?他在书中娓娓道来:

▲《智能交通》有声书片段截取

“一个智能交通系统,可以大大降低交通事故发生的概率……随着无人驾驶进一步成熟,“聪明的车”、“智能的路”、车路协同、智能的交通管理系统等,都会让交通事故发生的概率降低,无论是骑自行车的人、骑摩托车的人,还是步行的人,出行都更加安全。”

▲《智能交通》有声书片段截取

拥堵问题,也可以通过智能交通更好地解决。“通过测算,以车路协同为基础的智能交通,将能够提升15%—30%的通行效率……10年之内,靠交通效率的提升,基本上拥堵问题就可以解决了。”

▲《智能交通》有声书片段截取

而在自序的最后,李彦宏还讲述到自己写这本书的初衷——“越来越大的城市、越来越多的汽车、越来越多的人口,让交通问题变得前所未有的迫切、前所未有的严峻。这也是本书出版的初衷,为交通安全、交通拥堵、碳排放等问题,寻找最优解,让我们每个人的出行变得安全、高效、经济和绿色。”

总之,听完这个李彦宏亲自讲述的自序,我已经被成功安利了这本书。

因为这就好像李彦宏本人亲自在来到我身边,真诚恳切地述说这些年他的所见、所闻、所想,也邀我一起打开这幅智慧交通变革的大画卷。这本书会探讨智能交通解决三大问题、六大创新理念,以及智能交通7个领域12个案例,作者本人李彦宏的讲述都会陪伴着我去一一解锁它们。

而当我知道“配音”工作其实由总裁AI助理完成的时候,更是对背后的技术产生了兴趣。

因为它完全不像印象中的AI语音,非常呆板、僵硬,仿佛不这样就不能表现出这是人工智能一样。但本次的《智能交通》有声书,却几乎听不出来机器合成的痕迹。

本项目的参与者告诉我们,这次《智能交通》的语音合成项目,只是基于李彦宏参加某访谈节目中的1小时视频内容完成。其中的可用数据只有约300句左右,训练语料少,可以说与此前我们看到的AI合成语音有很大的进步。

二、方言英语都搞定,AI“举一反三”的奥秘是什么?

AI生成这样一本音频书大概需要多久呢?

这位项目人士告诉我们,整体制作仅花了大概2-3天的时间,这是远低于专业配音演员亲自参与的。

简单来说,整个项目流程主要分为模型制作和音频生成两步:

1、AI模型制作,大概需要花费几天时间。其中流程包括数据音字标注、特征提取和模型训练。

2、AI生成《智能交通》音频,一本书接近20万字,只需数小时就可以生成完毕。

项目人士告诉我们:“目前大部分流程都是自动化的,数据音字标注部分需要人工操作,从耗时讲,自动化比例占80%以上。”可以看到,AI在合成《智能交通》作者声音这件事情上,是游刃有余。

不过,在这个项目中,AI其实也遇到了一些难题。

其中,最大的难题主要还是如何解决训练语料数量少、质量低和期望得到媲美原声的合成效果之间的矛盾。

具体来说:

首先,如何只利用300句话,高度还原李彦宏的说话风格?为此,团队使用了百度最新研发的端到端细粒度建模技术,可以更加高效的利用数据,提升风格还原度。

然后,如何只利用中文数据,合成出音色、风格一致的中、英文混合播报效果?团队引入了独创的解耦式建模技术,它可以对说话的内容、风格、音色进行区分,并独立建模,通过大数据的学习,迁移英文能力。

接着,如何只利用少量单一语境的数据,保证各语境下合成效果的流畅自然?团队则采用了百度研发的前后端联合建模技术,依托百度在语言处理上的优势,联合学习了大量不同文本语境下的发音方式。

除此之外,针对训练语料音质不好的问题,团队还采用了百度独创的通用声码器合成技术,以修复错误发音并提升合成音频的质量。

总的来说,AI要成功来为你读书,还是需要很强的“举一反三”的能力的。

AI合成语音的效率是没的说了,那么如何来衡量效果质量呢?

该项目人员告诉我们,百度基于专业的MOS评测来考察最终的合成效果,主要包括以下几个维度:

1、可懂度——播报是否能让用户听懂,发音是否正确。

2、流畅度——字与字、句子成分之间的连接是否流畅自然。

3、拟人度——音色还原度是否与原声相近,音质水平是否满意。

最终的结果显示,在以上几大评测纬度中,此次AI合成语音的得分甚至明显优于用来对比的原始录音。

据悉,目前百度已面向企业用户提供不同领域、不同规模的私有化合成服务部署,支持300句定制化合成技术。

三、AI成“外挂”,让普通人胜任专业播音

其实,近年来,我们已经看到了不少AI合成语音进入应用场景中。

比如,在百度地图上线各家明星的语音包,是由AI学习明星的说话风格后生成。还比如,一些智能音箱厂家也公布过学习主人喜爱的声音,来自定义语音助手的功能,不过这一功能好像还没有大范围推广应用。

本次百度项目的相关人士告诉我们,近年来,AI语音合成已从自然、流畅的大库语音合成,走向追求拟人度的高表现力语音合成,走向追求小数据量的个性化、定制化语音合成以及支持风格迁移的多风格语音合成。

这位项目人士回顾,百度的语音合成在2019年进入到了全面深度化的阶段,此时无论是前端的文本处理技术,还是后端的声学、声码器技术,都已经升级到了深度学习的新技术架构。

团队花了约半年时间,推进了各业务线的产品更迭,也在产品升级中发现了诸如文本错误如何快速修复,英文与中文发音风格不一致,新音库的制作周期长,发音人的风格少等问题。正当团队准备着手解决的时候,新冠疫情不期而至。

发音人在家中无法录制新数据,数据源头断了大半;第三方数据公司停摆,数据标注工作进展缓慢……最终,团队开启了向少量数据、少量人工参与的合成方案突进,并尝试降低合成系统对训练语料的敏感度。

不能录制英文,那就考虑从别的英文发音人那里借鉴;没有专业录音棚,就在家里录制低质量数据,或者直接从网上已有的音视频节目里抽取;数据标注困难,就研发无需韵律标注的语音合成技术;至于制作周期长,就把制作过程流程化、自动化。

可以说,新冠疫情从一个侧面,加快了百度语音合成技术向自动化方向的发展。

而将视野拉得更远一些,过去十几年,从自然语言处理到语音交互领域,百度已投入了大量研发资源。目前,百度在业内首批实现大规模离/在线部署全深度神经网络合成,并在系统响应时间、高并发及可靠性方面处于行业领先地位,支持百度信息流、小度音箱、百度地图等数十亿次的合成请求。

从今天我们聚焦的AI合成语音技术来看,百度拥有业内第一个9句小数据量个性化语音合成技术,只需要5分钟的等待,就可以实现对用户声音的复刻。该技术已在百度地图支持超过600位明星红人入驻语音广场,实现个性化定制语音包,每日播放次数达2亿。

目前,百度的AI合成语音技术已经逐步推进落地到百度的各个产品线中,包括智能呼叫中心、个性化语音导航、新闻播报、多情感有声小说、车载语音交互、智能家居助手等等。

结语:AI合成语音,智能助手“新故事”

作为人工智能技术的一颗“明珠”,智能语音正在孕育一个新故事——用AI合成语音,能用到个性化导航、多情感有声小说、智能家居助手等众多具有人机交互想象空间的场景。

百度在这一领域深耕多年,目前已实现5分钟9句小数据合成语音的工具链,并且面对企业客户提供300句话实现语音合成的服务。

百闻不如一试,从效果来看,AI语音生成可以说已经栩栩如生。相信不久之后,每一个普通人都可以享受这种AI“打工”服务。