12种方言秒转文字!用一支录音笔撬动的AI革命,科大讯飞赢在哪?

智东西(公众号:zhidxcom)
文 | 韦世玮

智东西5月27日消息,今日,科大讯飞针对其讯飞智能录音笔进行录音、转写和编辑三大性能升级,新增支持声源定位、12种方言和10种语种转写、支持智能摘要等13项功能,进一步为用户带来更便捷高效的录音体验。

去年5月,科大讯飞一枪打在了传统录音笔市场创新赛道上,推出业内首款带屏录音笔——讯飞智能录音笔SR系列,直接催生了一个潜力不可小觑的新品类市场。

至今,SR系列已覆盖媒体、商务、教育、律政等应用领域,进入全球115个国家、646座城市的市场,并拿下2019年双11天猫&京东双平台录音笔品类和单品销售额第一的成绩。

如今,随着今年全国两会如火如荼地召开,讯飞智能录音笔亦成为人民网、文汇报、齐鲁晚报、21世纪经济报道4家媒体记者团,报道两会的指定录音笔,协助记者等专业团队提高报道效率,更好地记录民声民意。

12种方言秒转文字!用一支录音笔撬动的AI革命,科大讯飞赢在哪?

实现这一系列成果,讯飞智能录音笔只花了一年。

在这背后,既是讯飞自2016年成立消费者事业群以来,在To C市场不断摸索和布局,也是讯飞智能语音技术21年来的技术积累,在转写赛道上不断研发创新。

在这个千万级规模的录音笔市场下,讯飞哪来的信心和底气选择以带屏录音笔杀入这个几乎饱和,却玩家拥挤的市场?自敲开录音笔新品类市场后,讯飞在过去一年又取得了哪些重要的成绩?市场又发生了哪些变化?

为此,智东西再度独家对话科大讯飞联合创始人&执行总裁胡郁、科大讯飞副总裁兼消费者事业群副总裁李传刚,在直击讯飞三大重磅升级的同时,进一步揭开这些答案的真实面纱。

一、三大升级亮点:支持超20种语言语种,远程拾音准确率提升30%

“作为AI录音笔的龙头厂商,我们应该尽快让用户体验到AI技术与录音笔融合的真正效果。”胡郁谈到,在过去一年,讯飞不断地对录音笔AI性能进行优化和升级,选择在今天进行重要的三大升级,也是为了让原有的录音笔用户率先体验更新颖的智能化功能。

12种方言秒转文字!用一支录音笔撬动的AI革命,科大讯飞赢在哪?

▲科大讯飞联合创始人&执行总裁胡郁

此次,讯飞智能录音笔主要围绕智能录音、语音转写和智能编辑三个方面,进行13项重要升级,包括声源定位、方言转写、语义分段、个人词库等功能。

1、智能录音:360度声源定位,准确率提升30%

针对录音的专业性,讯飞智能录音笔新增了录音声源定位、非人声过滤和高增益降噪三项功能。

一是声源定位,录音笔能够通过判断声源方位,实现更好的拾音效果;二是非人声过滤,其与AI算法相配合,可将录音中空白或嘈杂等无用声去掉,保留有用人声;三是高增益降噪,在5至15米的录音范围内,转写准确率提升30%,人声也更加清晰。

12种方言秒转文字!用一支录音笔撬动的AI革命,科大讯飞赢在哪?

▲科大讯飞副总裁兼消费者事业群副总裁李传刚

2、语音转写:支持22种语言+语种,7大专业领域转写

这方面升级中的最大亮点在于新增了粤语、河南话、云南话和重庆话等12种方言转写,维吾尔语和藏语两种少数民族语言转写,以及西班牙语、越南语、俄语、英语、日语和韩语等8种语种转写,进一步扩大录音笔的语言应用场景。

同时,针对不同领域的专业术语转写,讯飞还更新了7大专业领域的转写支持,覆盖IT科技、财经贸易、文化体育、医疗、政法、运营商和教育领域。同时,还新增中英文混合转写功能功能。

3、智能编辑:个性化词库,文字编辑更清晰

面对不同录音场景、多个说话人和口语表达习惯,讯飞在智能编辑方面新增了智能语义分段、自动区分讲话人、口语规整、个人词库和智能摘要5项功能,让录音笔能更智能地进行文字编辑。

例如,在区分讲话人方面,录音笔采用了讯飞的声纹识别技术,能根据录音及转写结果,自动区分并标注讲话人。

12种方言秒转文字!用一支录音笔撬动的AI革命,科大讯飞赢在哪?

“这次三大方面的功能升级,不仅能更加满足消费者的需求和体验,也更利于我们对市场的开拓和认知。”李传刚说。

三大升级之于讯飞智能录音笔,不仅是对产品性能和体验的进一步丰富完善,提升讯飞在录音笔新品类市场的优势和竞争力,同时它之于录音笔之上的讯飞消费者事业群,亦为其深入布局AI+办公这一细分市场提供了新的技术储备和解决方案。

“拳头”升级,讯飞打响的带屏智能录音笔新战局再度升温。

二、21年深耕与积累,讯飞智能语音技术的硬核力量

罗马并非一日建成。讯飞智能录音笔能在短时间内站稳市场,并占据一定身位的领先优势,是其长达21年的智能语音技术迭代和积累。

“过去几年,我们的智能语音技术曾经历了三次较大的革新与升级。”胡郁提到,这主要集中在语音识别、方言识别,以及多语种的录音转写、翻译上,而这些技术性能亦是讯飞大举进攻细分市场的差异化竞争点。

在语音识别领域,讯飞语音识别模块采用了基于深度全序列卷积神经网络的语音识别框架,识别准确率达98%,同时还通过多麦克风阵列去混响和多麦克风波束成形,进一步提升信噪比。如今,其麦克风阵列与录音笔回传的数据进行叠加后,能够在几十米的范围内获得更好的拾音效果。

在多语言识别领域,不管是中国方言的识别,还是全球多语种的录音转写和翻译,讯飞都下足了功夫。

简单地说,针对方言识别,讯飞采用统一的建模技术,通过少量的方言数据,进一步提升录音笔在方言语境场景的录音效果;另一方面,讯飞通过语音识别技术的不断研发和优化,将多语种的转写和翻译性能效果都实现了提升。

尤其在多语言识别方面,胡郁透露,目前中国科学院专门支持中国科学技术大学开展了一项多语识别先导项目,目标研发超过50个语种以上的核心技术,涉及语音识别、语音合成以及自然语言处理等技术。

“这是目前国内投资规模最大的多语种研发项目,现阶段还没有任何一家公司有这样的资源和能力,对这种规模的多语种系统进行研发。”胡郁谈到,这将进一步促进讯飞在多语言技术领域的研究。

如今,讯飞智能录音笔的研发团队已突破百人规模,包括硬件、软件、UI交互等均由讯飞的核心研发力量设计。

值得一提的是,随着讯飞在智能语音领域长达21年的布局和深耕,已打下了坚实的技术根基,技术储备力量不断丰富。

其中以语音识别技术为例,早在2016年,讯飞就已在国际多通道语音分离和识别大赛CHiME-4中,一鼓作气拿下了三个项目第一。在2020年CHiME-6上,讯飞不仅在给定说话人边界的多通道语音识别任务中夺冠,更刷新了自己在CHiME-5中的语音识别错误率记录,从46.1%降至30.5%。

这二十余年的技术成果与积累,无疑为讯飞敲开录音笔市场新品类的大门,带来了十足的信心与底气。

三、打响带屏录音笔市场第一枪,技术融合下的小爆发

一面是人工智能不断赋能各行各业的技术浪潮,一面是当下传统录音笔和录音技术的转写痛点,讯飞浇灌了21年的智能语音技术,终于在带屏录音笔这块新市场中破了土,发了芽。

讯飞入局录音笔市场的第一枪,为何瞄准了带屏录音笔?

“加入讯飞前我就在想,AI作为未来的一个技术发展方向,除了在手机、智能穿戴设备和智能音箱等智能硬件方面赋能,还能在哪里找到突破口?”李传刚谈到,作为北大MBA的导师,他经常到北大与学生们进行案例讨论,当时他发现,学生几乎人手备有一个传统录音笔,主要用在对知识的记录与巩固上。

12种方言秒转文字!用一支录音笔撬动的AI革命,科大讯飞赢在哪?

但问题是,他们常常需要自己再花时间重复听一遍录音,才能将内容记录下来。这一大量的时间和人力成本,让李传刚抓到了新的突破口——传统录音笔与AI的技术融合。

在与胡郁进行了一番沟通后,李传刚发现讯飞也正在考虑这一方向,两人一拍即合。经历将近半年的硬件研发与打磨,2019年5月,讯飞智能录音笔SR系列终于面世。

12种方言秒转文字!用一支录音笔撬动的AI革命,科大讯飞赢在哪?

一石激起千层浪,SR系列的推出直接点燃了传统录音笔市场的热情。

一方面,讯飞智能录音笔SR系列一上市,就在2019年京东“618”中获得录音笔品类成交金额第一的成绩,目前已进驻全国超2000家线下门店;另一方面,现阶段SR系列也已拓展至国际市场,进入全球115个国家,646个城市中销售。

“讯飞智能录音笔SR系列最大的创新性并不在于带屏,而在于将它是一个独立的智能录音设备。”在胡郁看来,在不同的场合下,用户对录音笔的心理依赖程度不同。

一个单独的录音笔,并不会像手机录音软件一样受到各种干扰,它能持续独立地使用,同时又能通过统一的账号在手机和PC上进行后台处理。基于后台操作的需求,才进而衍生出大屏的需求,让用户的操作更加便捷。“一个独立的能够进行智能转写的设备,这才是它的颠覆性所在。”胡郁说。

12种方言秒转文字!用一支录音笔撬动的AI革命,科大讯飞赢在哪?

随着讯飞智能录音笔SR系列的推出,讯飞消费者事业部的智能硬件产品线得到了很大的丰富。除了SR系列智能录音笔外,讯飞听见系列也正逐步朝更大的市场迈进,同时与录音转写相关的硬件设备也在预期中迅速增长。

在此影响下,讯飞的AI广告和内容服务业务,以及与政府、国企之间的业务也在加速发展。据科大讯飞2019年财报,在2019年度,讯飞的营收首次突破100亿人民币,达到100.79亿元,同比增长27.30%。其中,消费者业务营收36.25亿人民币,同比增长43.99%,占总营收比进一步攀升至35.96%。

To B+To C的双线战略驱动下,讯飞正加速发展。

四、创新=蓝海,讯飞消费者业务的三驾马车

从一支小小的录音笔,到如今多了一块屏幕与AI技术协同发展成一个新品类,在讯飞智能录音笔SR系列推出后的短短一年内,录音笔市场经历了翻天覆地的变化。

“对于整个录音笔市场来说,我们打开的并不是一个存量市场,而是一个新的增量市场。”李传刚说。

一面是整个行业在思考录音笔市场的未来走向,不断解决消费者的多样化转写需求;一面是传统玩家与新玩家携手,共同建立产业联盟,以加速推进包括转写技术、智能语音识别技术在传统录音笔中的融合发展。

随着玩家的不断转型和创新发展,又将会给讯飞带来哪些挑战?

“整体上看,更多玩家的加入我觉的是一件好事。”胡郁谈到,由于现在从传统录音笔向智能录音笔转换的过程中,最大的障碍仍然是用户教育——如何让用户意识到使用智能录音笔更有价值。

尽管讯飞开拓了新的录音笔品类市场,但纵观整个产业的发展,它仍是一个螺旋式上升的过程,智能化发展也将是这一产业逐渐演变的方向。在这一过程中,既要靠消费者消费习惯的转变,也需要靠传统录音笔厂商自身的转型推动。

“不管有多少玩家加入,讯飞在这市场中仍是一个龙头地位。”胡郁说,讯飞非常有信心在这个市场中持续保持自己的领先优势,这一信心也来自于讯飞所提供的多样性服务,例如面向政府部门的会议宝,以及涉及面向教育、商务和律政等应用场景下的智能硬件产品。

12种方言秒转文字!用一支录音笔撬动的AI革命,科大讯飞赢在哪?

据产业研究机构新思界最新发布的《2019-2023年录音笔行业深度市场调研及投资策略建议报告》,2018年,我国录音笔行业的产量约为452.12万台,出货量与2017年的431.97万台基本持平。

整体来看,我国录音笔市场出货量较为稳定,市场规模仍较小。那么,在这之下的AI+录音笔市场又将如何发展呢?

“创新永远是蓝海。”李传刚谈到,传统录音笔市场的需求在过去二、三十年并未产生太大变化,但随着AI技术的赋能,录音笔除了录音之外,还将具有智能转写、智能翻译和智能编辑等更多功能,市场规模也将进一步扩大,激发出更多原有录音技术不足而未开发的市场。

市场仍在潜滋暗长,科大讯飞的下一步在哪里?

纵观讯飞的消费者事业群,胡郁谈到,讯飞将持续以平台(iFLYOS操作系统)、硬件(智能硬件)、服务(广告和运营商互联网服务)为发展重心,进一步拉动“AI+翻译”、“AI+办公”、“AI+教育”三驾马车同时往前走。

往后看,是讯飞在智能语音领域长达21年的技术基因和积累;往前看,是讯飞在AI技术热潮下敢于尝试技术跨界与融合创新的信心和勇气。

结语:以AI为刃,传统录音笔市场的创新与变革

回顾智能录音笔市场过去一年的发展,科大讯飞按下的,不仅是自身消费者业务加速布局智能市场的“快进键”,也是录音笔行业与AI技术跨界融合下催生新市场的“启动键”。在这一节点下,讯飞智能录音笔三大技术的升级,也将为公司以及市场竞争的发展添加新的差异化竞争优势。

谈及智能录音笔的未来,胡郁认为将有两条路,一是与手机APP等结合,朝着极简的方向发展,二是向更高端、更专业的定制化独立设备前进。这条路究竟走向何方,我们尚不得而知。

但我们能看到的是,在当下传统录音笔结合新兴技术的转型下,有越来越多的玩家投入这片蓝海市场,他们单打独斗也好,互相结盟也罢,同一个目标无疑都是抢下这块蛋糕。在这场愈发激烈的长跑赛道上,最终谁将真正拔得头筹?我们拭目以待。