十年,起底旷视AI技术创新之路

智东西(公众号:zhidxcom)
作者 | 心缘
编辑 | 漠影

旷视,这家国内头部AI企业,已经走过了十年。

这十年,第三代AI浪潮汹涌奔流。从深度学习初崭头角、AlphaGo战胜围棋冠军名声大噪,到AI公司野蛮生长、融资与估值不断冲高,又因落地速度不及预期而开始回落冷潮。

当各种事物都贴上AI的标签,各路公司涌进智能市场,良莠不齐的AI算法开始“烂大街”,AI公司的核心价值似乎被稀释。有人质疑,堪比“烧钱机器”的AI独角兽,其投入产出比,究竟值不值?

旷视给出的答案显而易见。

在近日的技术开放日上,旷视首席科学家、旷视研究院院长孙剑领衔旷视技术团队,分享了其十年以来的AI创新经验和最新思考,解读在基础科研、行业落地、基础设施这中国AI价值跃迁的三大阶段,旷视如何回应“AI有没有用?AI在哪里用?AI易不易用?”等核心问题。

迄今AI算法尚未突破创新边界,处于将成熟但还未成熟、将落地但尚未大规模落地的境地。算法供给还远远不够

伴随中国AI价值的成长,旷视如何塑造出自身的创新研发路径与价值务实文化?这些核心技术的积累,能为它开辟走向AI未来的通途吗?

十年,起底旷视AI技术创新之路▲旷视首席科学家、旷视研究院院长孙剑在旷视技术开放日上进行分享

一、基础科研:追逐单点技术的性能天花板

AI刚普及时,时不时因各种“智障”行为被嘲,比如人脸识别分辨不出真人和广告牌,语音助手听不懂人话就装傻,目标追踪把秃头错认成足球。

这些大型AI翻车现场,本质上是算法精度不足。

如今AI应用形态千千万万,复杂的AI产品逻辑背后,都是公用的底层基础技术在支撑。这些基础技术决定了智能应用的“智商”水平上限。

AI真的有用吗?2011年起,以深度学习为代表的AI研究兴起阶段,要回答的就是这个关键问题。

细拆基础AI科研技术,有学术型、竞赛型、实用型三类。以汽车来类比,学术型科研好比概念车,着重呈现前沿创新的灵感;竞赛型会极度挑战性能极限,不计成本不计消耗;实用型则更像量产车,强调科研有用,能直接用到产品中。

无论是学术研究、竞赛刷榜,还是将AI技术转化成落地应用,旷视的身影都不可能被忽视。

由旷视首席科学家、旷视研究院院长孙剑参与发明的ResNet(深度残差网络),是世界上第一个上百层的深度神经网络,当时一度封神计算机视觉领域,其论文在过去十年全球机器学习领域最高学术影响力一直排名前十,引用量超过6万。

不仅包揽多项竞赛冠军,这篇研究还搅动了后续深度学习应用的风云。例如谷歌母公司Alphabet旗下DeepMind在2018年发布的进阶版AI围棋选手AlphaGo Zero,就采用了ResNet算法。

面向移动端低功耗设备,孙剑团队在2017年提出更为高效的轻量化卷积模型——ShuffleNet,它在大幅降低模型计算复杂度的同时,识别精度优于其他网络,并被应用到多款移动设备中。

十年,起底旷视AI技术创新之路

这种专注于围绕软硬协同、与时俱进的基础科研技术优化理念一直延续至今。

以最新研究成果RepVGG为例,面向服务器和新一代AI芯片,旷视重拾7年前的经典神经网络架构VGG,通过采用结构重参数化的设计方法,提出运行速度高、节省内存RepVGG系列模型。

该模型在计算机视觉的四大基本任务(分类、定位、检测、分割)中均可使用,研究成果已被国际计算机视觉学术顶会CVPR 2021接收。

十年积累至今,旷视共计有85篇论文入选顶会,斩获40项顶级竞赛冠军,积累了699个AI领域专利,参与制定20多个AI领域标准。

二、行业落地:深入真实场景,较量实际准确率

快速迭代成熟的AI技术,逐渐走出学术高塔,广泛渗入人们的日常生活和企业生产。但新的问题接踵而至,开源催化了AI算法落地速度,却也导致许多质量不及格的算法在市面上横行。

这涉及到一个长期有争议的话题:0.01%、0.1%的算法精度之差,有那么重要吗?

这需要分具体应用场景来看。如果是美颜美妆、虚拟换装、AR导航、游戏之类的应用,出了错顶多体验差一些,倒还无伤大雅。但如果用在金融支付、工业质检或自动驾驶的算法出问题,轻则伤乎财产,重则危及生命。

即便在常规智能应用场景中,精度提升和强泛化能力也会带来润物细无声的价值。

比如在人流量高峰期,以前刷卡过闸机的方式会导致排队时间长,而旷视神行面板机基于安全快速的识别、光线姿态泛化性等,1小时能通过2万人,大幅提升通勤效率。

另一个大家经常遇到的情况是晚上拍照质量差。 旷视展示的一个Demo很令我印象深刻,肉眼看上去完全乌漆墨黑的环境,经过单目黑光技术优化,竟能呈现出清晰明亮的画面。应用这样的技术,仅需搭配一个摄像头。

十年,起底旷视AI技术创新之路▲旷视单目黑光Demo

除了改善设备和产品体验外,算法精度的提升还能带来产品形态的升级。

在数码电子产品领域,全面屏概念一直是大势所趋,也就是整个屏幕完全无孔,可以直接把手指按在屏幕上解锁。相比传统光学屏下指纹技术,旷视正在研发的AI光学指纹能完全不损害精度。

不仅是视觉算法,工业自动化领域同样有大量能由借助优质算法改善的空间。旷视研究员范浩强分享了一个需要让400多台机器协同作业的标杆项目案例,相比以往的调度方法,旷视的全局最优解调度算法为其实现了200%以上的优化。

如今让机器清晰感知三维世界正成为研究热点,在工业检测、仓储物流等领域已落地应用的双目3D相机对AI算法有很高要求。从旷视展示的Demo可以看到,如果算法精度够高、抗环境干扰能力强,相比市面其他产品能够呈现出被测物体丰富的深度细节。

十年,起底旷视AI技术创新之路▲旷视双目3D相机Demo

从这些案例来看,对算法的考量需要在产品最早的定义、设计、研发阶段全生命周期纳入考虑。算法不再仅仅是产品软件的附属品,而成为各种日常产品的核心组件。

三、基础设施:降低开发门槛,加速规模化复刻

当AI应用量显著增加,下一步要解决的核心问题,就是降低单位成本,打造能实现规模化生产的基础设施。

真实环境中,算法生产要经过复杂的流程,覆盖从需求分析、数据处理、模型训练、上线部署到落地应用的全链条,提供高效、好用的技术工具及服务。

传统的算法生产流程因为非标准化,其过程充满不确定性,这些不确定性导致牵制住了整体AI算法的生产效率,并可能带来大量的试错成本。

十年,起底旷视AI技术创新之路

如何构建标准化流程,实现真正的AI有效供给?

旷视给出的答案是Brain++,一个旷视内部全员都在用的AI算法规模化生产平台。

AI生产力平台Brain++将旷视10年积累的算法模型和策略都统一公式化管理起来,包括深度学习框架引擎、数据管理平台、算力管理平台三大模块。其中,深度学习框架引擎旷视天元MegEngine已于去年3月正式开源。

这一旷视科研及工程能力的集大成者,可实现流水线般规模化生产和供给海量算法,自动进行数据管理、质检,并为用户推荐最适合其需求的算法及策略,大幅缩短从需求到落地的时间。

例如,旷视的客户侧算法自升级技术,能让算法在客户部署本地实现自动升级,不断提升模型精度,不仅能显著降低数据标注和模型升级成本,而且有效保护客户信息安全,整个升级过程完全不需要人工干预。一个工件检测案例用该技术半个月后,召回准确率从80%提升至90%。

借助Brain++平台,用户无需掌握AI算法的实现原理,也不用学习如何分析调参,而将更多精力放在业务本身的需求上。从图像标注到生产出符合真实场景要求的算法,整个流程仅花几个小时。

四、预研一代、孵化一代、交付一代

从科研到落地,旷视如今已经形成消费物联网、城市物联网和供应链物联网的战略业务版图,以深度学习、计算机视觉、AIoT为核心的算法能力和AI生产力平台Brain++构成了旷视完整的AI技术体系,也是旷视最核心的底气。

以这些技术为基础,旷视在基础科研、行业落地、打造基础设施三大核心能力上层层加码。在这背后,旷视“预研一代、孵化一代、交付一代”的技术创新研发模式,正支撑着长、中、短期目标的达成。

旷视首席科学家、旷视研究院院长孙剑分享说,以最好的科研为基础,旷视会面向长期目标做很多前瞻性方向的预研,提供一个敢尝试新想法、敢失败的环境和氛围。

预研的初步成果需要孵化成可能有用的技术或产品,这需要耐心与坚持。

很多初步研究成果在转换成产品时还需解决大量困难,旷视将秉承着使命必达的理念将最好的产品级技术交付给客户。

当然,只有商业应用的成功,才能为长期的技术创新储备充足的动力。

结语:AI产业孕育尚需时日,落地应用初见曙光

回顾过去十年AI发展进程,我们可以看到,基于深度学习的技术创新正持续拓宽AI应用的边界。一边是AI技术红利快速释放,成为越来越多商业创新与竞争的主战场;另一边,AI行业应用场景愈发复杂,倒逼AI技术持续进化。

在这场落地长跑中,AI技术已经顺着互联网、物联网和工业互联网,快速渗入各行各业和千家万户,带来各种效率提升,创造越来越大的价值。

但如今AI还处于商业化早期阶段,算法有效供给远远不足,提升AI规模化生产效率仍是当务之急。要实现真正的技术领先和价值务实,可能还需付出数年甚至更久的时间。

打好这场AI落地持久战,需要AI公司具备极强的前瞻意识和定力,坚持以原创技术研发创新为根基,探索可持续发展的商业模式,也需要社会给AI企业的成长和磨炼多一些耐心。