边看PPT边思考!搜狗“AI翻译官”同传3.0逆天了

智东西(公众号:zhidxcom)

文| 李水青

近日,搜狗推出了业内首个带有“语境引擎”的同声传译系统3.0版,新增多模态和自主学习能力。以大会同传为例,搜狗同传3.0系统在听声的过程中,还能够实时阅读PPT,并将它所看到的内容拓展成知识网络,从而经“思考”后让实时翻译变得更准确。

据统计,针对演讲核心内容,搜狗同传3.0识别正确率提升了21.7%,翻译正确率提升了40.3%。

边看PPT边思考!搜狗“AI翻译官”同传3.0逆天了

随着国际交流日趋频繁,国际交流中的现有同声传译服务成本高、人才不足,难以满足需求。搜狗CEO王小川说,全球20%的人口是说中文,但是全球95%的信息是用英文所写的,因此如何帮助中国人跟外国人进行更好的交流,变成了一个重大的技术课题。

在同传行业中,翻译从业者并没有减少,但满足专业同传需求的人才却更加稀缺。面对大会传译中专业术语识别和翻译,许多英语出身的普通翻译工作者难以驾驭,现有的同传机器也大多采用通用模型,因此许多医疗、物理、经济、人工智能领域的专业术语及新兴概念翻译成为一大难点,弄不好就“驴头不对马嘴”。

其实,针对这些行业痛点,搜狗早在2018年推出的同传2.0就具备了“个性化定制”功能。同传2.0通过对大会嘉宾的文稿、PPT、百科知识进行提前学习,使得现场传译更加准确。

但是,现实很骨感。当真正一场大会举办起来时,一些演讲人的PPT和材料很难提前获取,因此定制环节也变得难以在会前完成。搜狗同传3.0由此应运而生。3.0版本通过实时捕捉PPT上的内容,进而发挥“语境引擎”作用优化翻译效果。

一、“投子”、“罗辑思维”都能翻对,与人工差距缩短60%

以大会同传为例,当嘉宾说出“投子”,机器很可能识别为“投资”,但是搜狗同传3.0通过识别PPT上的“阿尔法狗”和“李世石”,能够扩展出“投子”这样的术语;

当听到“罗辑思维”,搜狗同传3.0会根据PPT上的“罗振宇”进行知识图谱扩展,从而直到此“罗辑”非彼“逻辑”;

当听到“INI”,人们不太熟悉这个缩写,搜狗同传3.0会查询中英文知识库后,把相应的中文解释“国际神经科学研究所”给翻译出来。

边看PPT边思考!搜狗“AI翻译官”同传3.0逆天了
▲搜狗同传3.0的对众多易错词汇的翻译准确率大大提高

从某权威论坛的数据评测得分上可以看到,相比于人工同传4.08的得分,3.0版本的系统得分从2.0版本的3.41分上升为3.82分,与人工同传的差距缩短60%左右。

除了大会演讲的同传之外,搜狗同传3.0作为一套完整的技术体系,在众多场景中都有用途。比如记者采访、跨国办公会议、中英文视频直播、字幕翻译、法院庭审等等,都可以在搜狗语境引擎的辅助下完成更简单的表达和信息获取。

二、语境引擎、知识图谱加持,5步优化翻译

简单来说,搜狗语境引擎最主要的创新是为同传系统增加了视觉通道。同样以大会同传为例,利用“语境引擎”进行“边听边看边思考”地翻译大致包括以下5个步骤:

1、通过OCR技术识别PPT页面上的内容;

2、针对识别结果,生成与PPT对应的领域词汇表;

3、利用领域词汇表进行知识图谱的扩展,从而形成扩展词汇表;

4、针对扩展词汇表,查询搜狗中英专业术语库;

5、在语音识别端和机器翻译端使用扩展词汇表进行增强,提升整体翻译效果。

通过语境引擎技术,搜狗将能“视听合一”的多模态思路应用到新的同传系统,它带有一些简单的思考能力,通过知识图谱能够实时地把它看到的东西拓展成知识网络,放到同传生态系统中去,从而优化翻译效果。

边看PPT边思考!搜狗“AI翻译官”同传3.0逆天了
▲搜狗同传3.0技术架构图

三、三年上千场大会,搜狗同传“过三关”

早在2016年,搜狗就在第三次世界互联网大会上发布了大会同传1.0。在当时,语音识别准确率便超过97%,机器翻译准确率达90%。

但是,搜狗AI交互技术部总经理陈伟告诉智东西,当时的准确率是在一定的测试集上测出来的,但当面临实践中的方言口音、专业术语、中英混说等问题,系统的波动性很大。

而这种只有深入行业后才能真实体会到的行业痛点,也成为搜狗同传产品不断迭代的动力。

2018年,搜狗同传进入2.0的阶段,可以实时根据用户语料进行定制;而近日推出的同传3.0,主要强调的是多模态和自主学习的过程,能听会看,能理解和推理大会场景下演讲人到底在说什么。

从搜狗同传3.0技术框图可知,搜狗同传系统主要包括语音识别、机器翻译和语音合成。

边看PPT边思考!搜狗“AI翻译官”同传3.0逆天了

从语音识别模块的演进来看,1.0系统仅仅输入语音;2.0的时候开始做到语音+个性化,以及说话人的语境背景输入;3.0的时候则加入了知识图谱,把这些信息作为语音识别的输入。

边看PPT边思考!搜狗“AI翻译官”同传3.0逆天了

AI交互技术部总经理陈伟说,目前,行业内传统的AI同传的运作方式仍介于1.0和2.0之间,我们根据图谱方式,已经到3.0时代了。

从机器翻译模块来看,1.0的时候采用RNN的模型结构,这种模型结构的问题是只能记忆低至10字左右;2.0版本则升级为Transformer翻译模型,从而解决了对历史的依赖;现在,3.0又升级了翻译系统,采用基于上下文流式解码方式和基于搜狗百科知识图谱的方式。

边看PPT边思考!搜狗“AI翻译官”同传3.0逆天了

结语:找准行业痛点,开辟机器同传新路径

搜狗同传3.0在业内首次推出音视觉结合的语境引擎,为同传行业中的机器参与实践开辟了新思路。从仅依赖语音进行识别和翻译,到利用PPT等场景视觉载体,并通过知识图谱、流式解码等技术实现知识推理、优化翻译,搜狗带来了具有行业“Know How”的新路径。

搜狗同传的技术迭代和翻译准确率提升,来自于上千场同传会议的实践中对应用场景的深入洞察,也来自于搜狗国内首屈一指的输入法和搜索引擎为其带来的海量互联网数据和语言基因。

对于同传行业来说,机器翻译在短期内仍然难以实现人工翻译的“信达雅”的“雅”,甚至在“达”上也还欠缺火候。但是,通过音视结合的多模态技术、知识图谱等知识计算技术,机器能够率先攻破一些涉及专业知识的特定应用场景,做得比普通翻译人员更好。