AI的新故事，藏在李彦宏的《智能交通》音频书里

智东西（公众号：zhidxcom）
作者 | 李水青
编辑 | 漠影

近日，百度董事长兼CEO李彦宏新书《智能交通》的音频版上线喜马拉雅APP，值得一提的是，它是由李彦宏亲自献声。

打开音频，只听到一个干净、富有磁性而不失温柔的声音娓娓讲述，这些年来发生在人、车、路之间的无声变化，让人似乎亲眼看见这场或许影响人类未来10-40年的重大变革的场景。

▲《智能交通》有声书片段截取

不得不说，虽然不是专业播音，但由作者李彦宏本人亲自讲述，这套有声书已经接近专业播音水平，且更有真情实感。

实际上，究其背后制作，这并不是由李彦宏自己在录音棚配音完成，而是来自他的一位助理——人工智能（AI）。

AI在对李彦宏的一段不到1小时的录音素材学习后，自动生成了这本超20万字作品的逼真音频版。

AI的新故事，藏在李彦宏的《智能交通》音频书里

你永远可以相信AI在音视频创作上的天赋。此前我们刚刚报道了AI修复张国荣2000年《热·情》演唱会的案例，今天，AI又再次显现出改变音频产业的潜力。

那么，AI是怎样合成李彦宏的声音的？背后又有什么样的技术难点？在本文中，我们通过对话这一项目的深度参与者，来解读背后的技术和产业奥秘。

一、AI学习300句话后，帮李彦宏完成20万字配音

首先，让我们来听几个《智能交通》有声书里的片段，感受一下。

2015年，在李彦宏刚刚带领团队做自动驾驶两年时，他就开始关注包括驾驶安全、道路拥堵等更宏大的交通方面的问题。7年后成书之际，他在《智能交通》里坦言，自己看待自动驾驶的维度发生了显著变化：

▲《智能交通》有声书片段截取

“随着我对交通问题的关注越来越深，看待自动驾驶的维度也发生了显著的变化。百度的发展方向也从自动驾驶，逐渐延伸到车路协同、智能交通、数字城市运营。在这个过程中，有很多的实践，也踩过很多的坑。但是，我越来越确定以下的事情。”语气恳切，语调自然起伏。

那么李彦宏确定了什么事情呢？他在书中娓娓道来：

▲《智能交通》有声书片段截取

“一个智能交通系统，可以大大降低交通事故发生的概率……随着无人驾驶进一步成熟，“聪明的车”、“智能的路”、车路协同、智能的交通管理系统等，都会让交通事故发生的概率降低，无论是骑自行车的人、骑摩托车的人，还是步行的人，出行都更加安全。”

▲《智能交通》有声书片段截取

拥堵问题，也可以通过智能交通更好地解决。“通过测算，以车路协同为基础的智能交通，将能够提升15％—30％的通行效率……10年之内，靠交通效率的提升，基本上拥堵问题就可以解决了。”

▲《智能交通》有声书片段截取

而在自序的最后，李彦宏还讲述到自己写这本书的初衷——“越来越大的城市、越来越多的汽车、越来越多的人口，让交通问题变得前所未有的迫切、前所未有的严峻。这也是本书出版的初衷，为交通安全、交通拥堵、碳排放等问题，寻找最优解，让我们每个人的出行变得安全、高效、经济和绿色。”

总之，听完这个李彦宏亲自讲述的自序，我已经被成功安利了这本书。

因为这就好像李彦宏本人亲自在来到我身边，真诚恳切地述说这些年他的所见、所闻、所想，也邀我一起打开这幅智慧交通变革的大画卷。这本书会探讨智能交通解决三大问题、六大创新理念，以及智能交通7个领域12个案例，作者本人李彦宏的讲述都会陪伴着我去一一解锁它们。

而当我知道“配音”工作其实由总裁AI助理完成的时候，更是对背后的技术产生了兴趣。

因为它完全不像印象中的AI语音，非常呆板、僵硬，仿佛不这样就不能表现出这是人工智能一样。但本次的《智能交通》有声书，却几乎听不出来机器合成的痕迹。

本项目的参与者告诉我们，这次《智能交通》的语音合成项目，只是基于李彦宏参加某访谈节目中的1小时视频内容完成。其中的可用数据只有约300句左右，训练语料少，可以说与此前我们看到的AI合成语音有很大的进步。

二、方言英语都搞定，AI“举一反三”的奥秘是什么？

AI生成这样一本音频书大概需要多久呢？

这位项目人士告诉我们，整体制作仅花了大概2-3天的时间，这是远低于专业配音演员亲自参与的。

简单来说，整个项目流程主要分为模型制作和音频生成两步：

1、AI模型制作，大概需要花费几天时间。其中流程包括数据音字标注、特征提取和模型训练。

2、AI生成《智能交通》音频，一本书接近20万字，只需数小时就可以生成完毕。

项目人士告诉我们：“目前大部分流程都是自动化的，数据音字标注部分需要人工操作，从耗时讲，自动化比例占80%以上。”可以看到，AI在合成《智能交通》作者声音这件事情上，是游刃有余。

不过，在这个项目中，AI其实也遇到了一些难题。

其中，最大的难题主要还是如何解决训练语料数量少、质量低和期望得到媲美原声的合成效果之间的矛盾。

具体来说：

首先，如何只利用300句话，高度还原李彦宏的说话风格？为此，团队使用了百度最新研发的端到端细粒度建模技术，可以更加高效的利用数据，提升风格还原度。

然后，如何只利用中文数据，合成出音色、风格一致的中、英文混合播报效果？团队引入了独创的解耦式建模技术，它可以对说话的内容、风格、音色进行区分，并独立建模，通过大数据的学习，迁移英文能力。

接着，如何只利用少量单一语境的数据，保证各语境下合成效果的流畅自然？团队则采用了百度研发的前后端联合建模技术，依托百度在语言处理上的优势，联合学习了大量不同文本语境下的发音方式。

除此之外，针对训练语料音质不好的问题，团队还采用了百度独创的通用声码器合成技术，以修复错误发音并提升合成音频的质量。

总的来说，AI要成功来为你读书，还是需要很强的“举一反三”的能力的。

AI合成语音的效率是没的说了，那么如何来衡量效果质量呢？

该项目人员告诉我们，百度基于专业的MOS评测来考察最终的合成效果，主要包括以下几个维度：

1、可懂度——播报是否能让用户听懂，发音是否正确。

2、流畅度——字与字、句子成分之间的连接是否流畅自然。

3、拟人度——音色还原度是否与原声相近，音质水平是否满意。

最终的结果显示，在以上几大评测纬度中，此次AI合成语音的得分甚至明显优于用来对比的原始录音。

据悉，目前百度已面向企业用户提供不同领域、不同规模的私有化合成服务部署，支持300句定制化合成技术。

三、AI成“外挂”，让普通人胜任专业播音

其实，近年来，我们已经看到了不少AI合成语音进入应用场景中。

比如，在百度地图上线各家明星的语音包，是由AI学习明星的说话风格后生成。还比如，一些智能音箱厂家也公布过学习主人喜爱的声音，来自定义语音助手的功能，不过这一功能好像还没有大范围推广应用。

本次百度项目的相关人士告诉我们，近年来，AI语音合成已从自然、流畅的大库语音合成，走向追求拟人度的高表现力语音合成，走向追求小数据量的个性化、定制化语音合成以及支持风格迁移的多风格语音合成。

这位项目人士回顾，百度的语音合成在2019年进入到了全面深度化的阶段，此时无论是前端的文本处理技术，还是后端的声学、声码器技术，都已经升级到了深度学习的新技术架构。

团队花了约半年时间，推进了各业务线的产品更迭，也在产品升级中发现了诸如文本错误如何快速修复，英文与中文发音风格不一致，新音库的制作周期长，发音人的风格少等问题。正当团队准备着手解决的时候，新冠疫情不期而至。

发音人在家中无法录制新数据，数据源头断了大半；第三方数据公司停摆，数据标注工作进展缓慢……最终，团队开启了向少量数据、少量人工参与的合成方案突进，并尝试降低合成系统对训练语料的敏感度。

不能录制英文，那就考虑从别的英文发音人那里借鉴；没有专业录音棚，就在家里录制低质量数据，或者直接从网上已有的音视频节目里抽取；数据标注困难，就研发无需韵律标注的语音合成技术；至于制作周期长，就把制作过程流程化、自动化。

可以说，新冠疫情从一个侧面，加快了百度语音合成技术向自动化方向的发展。

而将视野拉得更远一些，过去十几年，从自然语言处理到语音交互领域，百度已投入了大量研发资源。目前，百度在业内首批实现大规模离/在线部署全深度神经网络合成，并在系统响应时间、高并发及可靠性方面处于行业领先地位，支持百度信息流、小度音箱、百度地图等数十亿次的合成请求。

从今天我们聚焦的AI合成语音技术来看，百度拥有业内第一个9句小数据量个性化语音合成技术，只需要5分钟的等待，就可以实现对用户声音的复刻。该技术已在百度地图支持超过600位明星红人入驻语音广场，实现个性化定制语音包，每日播放次数达2亿。

目前，百度的AI合成语音技术已经逐步推进落地到百度的各个产品线中，包括智能呼叫中心、个性化语音导航、新闻播报、多情感有声小说、车载语音交互、智能家居助手等等。

结语：AI合成语音，智能助手“新故事”

作为人工智能技术的一颗“明珠”，智能语音正在孕育一个新故事——用AI合成语音，能用到个性化导航、多情感有声小说、智能家居助手等众多具有人机交互想象空间的场景。

百度在这一领域深耕多年，目前已实现5分钟9句小数据合成语音的工具链，并且面对企业客户提供300句话实现语音合成的服务。

百闻不如一试，从效果来看，AI语音生成可以说已经栩栩如生。相信不久之后，每一个普通人都可以享受这种AI“打工”服务。

一、AI学习300句话后，帮李彦宏完成20万字配音

二、方言英语都搞定，AI“举一反三”的奥秘是什么？

三、AI成“外挂”，让普通人胜任专业播音

结语：AI合成语音，智能助手“新故事”

相关推荐