十年，起底旷视AI技术创新之路

智东西（公众号：zhidxcom）
作者 | 心缘
编辑 | 漠影

旷视，这家国内头部AI企业，已经走过了十年。

这十年，第三代AI浪潮汹涌奔流。从深度学习初崭头角、AlphaGo战胜围棋冠军名声大噪，到AI公司野蛮生长、融资与估值不断冲高，又因落地速度不及预期而开始回落冷潮。

当各种事物都贴上AI的标签，各路公司涌进智能市场，良莠不齐的AI算法开始“烂大街”，AI公司的核心价值似乎被稀释。有人质疑，堪比“烧钱机器”的AI独角兽，其投入产出比，究竟值不值？

旷视给出的答案显而易见。

在近日的技术开放日上，旷视首席科学家、旷视研究院院长孙剑领衔旷视技术团队，分享了其十年以来的AI创新经验和最新思考，解读在基础科研、行业落地、基础设施这中国AI价值跃迁的三大阶段，旷视如何回应“AI有没有用？AI在哪里用？AI易不易用？”等核心问题。

迄今AI算法尚未突破创新边界，处于将成熟但还未成熟、将落地但尚未大规模落地的境地。算法供给还远远不够。

伴随中国AI价值的成长，旷视如何塑造出自身的创新研发路径与价值务实文化？这些核心技术的积累，能为它开辟走向AI未来的通途吗？

十年，起底旷视AI技术创新之路 ▲旷视首席科学家、旷视研究院院长孙剑在旷视技术开放日上进行分享

一、基础科研：追逐单点技术的性能天花板

AI刚普及时，时不时因各种“智障”行为被嘲，比如人脸识别分辨不出真人和广告牌，语音助手听不懂人话就装傻，目标追踪把秃头错认成足球。

这些大型AI翻车现场，本质上是算法精度不足。

如今AI应用形态千千万万，复杂的AI产品逻辑背后，都是公用的底层基础技术在支撑。这些基础技术决定了智能应用的“智商”水平上限。

AI真的有用吗？2011年起，以深度学习为代表的AI研究兴起阶段，要回答的就是这个关键问题。

细拆基础AI科研技术，有学术型、竞赛型、实用型三类。以汽车来类比，学术型科研好比概念车，着重呈现前沿创新的灵感；竞赛型会极度挑战性能极限，不计成本不计消耗；实用型则更像量产车，强调科研有用，能直接用到产品中。

无论是学术研究、竞赛刷榜，还是将AI技术转化成落地应用，旷视的身影都不可能被忽视。

由旷视首席科学家、旷视研究院院长孙剑参与发明的ResNet（深度残差网络），是世界上第一个上百层的深度神经网络，当时一度封神计算机视觉领域，其论文在过去十年全球机器学习领域最高学术影响力一直排名前十，引用量超过6万。

不仅包揽多项竞赛冠军，这篇研究还搅动了后续深度学习应用的风云。例如谷歌母公司Alphabet旗下DeepMind在2018年发布的进阶版AI围棋选手AlphaGo Zero，就采用了ResNet算法。

面向移动端低功耗设备，孙剑团队在2017年提出更为高效的轻量化卷积模型——ShuffleNet，它在大幅降低模型计算复杂度的同时，识别精度优于其他网络，并被应用到多款移动设备中。

十年，起底旷视AI技术创新之路

这种专注于围绕软硬协同、与时俱进的基础科研技术优化理念一直延续至今。

以最新研究成果RepVGG为例，面向服务器和新一代AI芯片，旷视重拾7年前的经典神经网络架构VGG，通过采用结构重参数化的设计方法，提出运行速度高、节省内存的RepVGG系列模型。

该模型在计算机视觉的四大基本任务（分类、定位、检测、分割）中均可使用，研究成果已被国际计算机视觉学术顶会CVPR 2021接收。

十年积累至今，旷视共计有85篇论文入选顶会，斩获40项顶级竞赛冠军，积累了699个AI领域专利，参与制定20多个AI领域标准。

二、行业落地：深入真实场景，较量实际准确率

快速迭代成熟的AI技术，逐渐走出学术高塔，广泛渗入人们的日常生活和企业生产。但新的问题接踵而至，开源催化了AI算法落地速度，却也导致许多质量不及格的算法在市面上横行。

这涉及到一个长期有争议的话题：0.01%、0.1%的算法精度之差，有那么重要吗？

这需要分具体应用场景来看。如果是美颜美妆、虚拟换装、AR导航、游戏之类的应用，出了错顶多体验差一些，倒还无伤大雅。但如果用在金融支付、工业质检或自动驾驶的算法出问题，轻则伤乎财产，重则危及生命。

即便在常规智能应用场景中，精度提升和强泛化能力也会带来润物细无声的价值。

比如在人流量高峰期，以前刷卡过闸机的方式会导致排队时间长，而旷视神行面板机基于安全快速的识别、光线姿态泛化性等，1小时能通过2万人，大幅提升通勤效率。

另一个大家经常遇到的情况是晚上拍照质量差。旷视展示的一个Demo很令我印象深刻，肉眼看上去完全乌漆墨黑的环境，经过单目黑光技术优化，竟能呈现出清晰明亮的画面。应用这样的技术，仅需搭配一个摄像头。

十年，起底旷视AI技术创新之路 ▲旷视单目黑光Demo

除了改善设备和产品体验外，算法精度的提升还能带来产品形态的升级。

在数码电子产品领域，全面屏概念一直是大势所趋，也就是整个屏幕完全无孔，可以直接把手指按在屏幕上解锁。相比传统光学屏下指纹技术，旷视正在研发的AI光学指纹能完全不损害精度。

不仅是视觉算法，工业自动化领域同样有大量能由借助优质算法改善的空间。旷视研究员范浩强分享了一个需要让400多台机器协同作业的标杆项目案例，相比以往的调度方法，旷视的全局最优解调度算法为其实现了200%以上的优化。

如今让机器清晰感知三维世界正成为研究热点，在工业检测、仓储物流等领域已落地应用的双目3D相机对AI算法有很高要求。从旷视展示的Demo可以看到，如果算法精度够高、抗环境干扰能力强，相比市面其他产品能够呈现出被测物体丰富的深度细节。

十年，起底旷视AI技术创新之路 ▲旷视双目3D相机Demo

从这些案例来看，对算法的考量需要在产品最早的定义、设计、研发阶段全生命周期纳入考虑。算法不再仅仅是产品软件的附属品，而成为各种日常产品的核心组件。

三、基础设施：降低开发门槛，加速规模化复刻

当AI应用量显著增加，下一步要解决的核心问题，就是降低单位成本，打造能实现规模化生产的基础设施。

真实环境中，算法生产要经过复杂的流程，覆盖从需求分析、数据处理、模型训练、上线部署到落地应用的全链条，提供高效、好用的技术工具及服务。

传统的算法生产流程因为非标准化，其过程充满不确定性，这些不确定性导致牵制住了整体AI算法的生产效率，并可能带来大量的试错成本。

十年，起底旷视AI技术创新之路

如何构建标准化流程，实现真正的AI有效供给？

旷视给出的答案是Brain++，一个旷视内部全员都在用的AI算法规模化生产平台。

AI生产力平台Brain++将旷视10年积累的算法模型和策略都统一公式化管理起来，包括深度学习框架引擎、数据管理平台、算力管理平台三大模块。其中，深度学习框架引擎旷视天元MegEngine已于去年3月正式开源。

这一旷视科研及工程能力的集大成者，可实现流水线般规模化生产和供给海量算法，自动进行数据管理、质检，并为用户推荐最适合其需求的算法及策略，大幅缩短从需求到落地的时间。

例如，旷视的客户侧算法自升级技术，能让算法在客户部署本地实现自动升级，不断提升模型精度，不仅能显著降低数据标注和模型升级成本，而且有效保护客户信息安全，整个升级过程完全不需要人工干预。一个工件检测案例用该技术半个月后，召回准确率从80%提升至90%。

借助Brain++平台，用户无需掌握AI算法的实现原理，也不用学习如何分析调参，而将更多精力放在业务本身的需求上。从图像标注到生产出符合真实场景要求的算法，整个流程仅花几个小时。

四、预研一代、孵化一代、交付一代

从科研到落地，旷视如今已经形成消费物联网、城市物联网和供应链物联网的战略业务版图，以深度学习、计算机视觉、AIoT为核心的算法能力和AI生产力平台Brain++构成了旷视完整的AI技术体系，也是旷视最核心的底气。

以这些技术为基础，旷视在基础科研、行业落地、打造基础设施三大核心能力上层层加码。在这背后，旷视“预研一代、孵化一代、交付一代”的技术创新研发模式，正支撑着长、中、短期目标的达成。

旷视首席科学家、旷视研究院院长孙剑分享说，以最好的科研为基础，旷视会面向长期目标做很多前瞻性方向的预研，提供一个敢尝试新想法、敢失败的环境和氛围。

预研的初步成果需要孵化成可能有用的技术或产品，这需要耐心与坚持。

很多初步研究成果在转换成产品时还需解决大量困难，旷视将秉承着使命必达的理念将最好的产品级技术交付给客户。

当然，只有商业应用的成功，才能为长期的技术创新储备充足的动力。

结语：AI产业孕育尚需时日，落地应用初见曙光

回顾过去十年AI发展进程，我们可以看到，基于深度学习的技术创新正持续拓宽AI应用的边界。一边是AI技术红利快速释放，成为越来越多商业创新与竞争的主战场；另一边，AI行业应用场景愈发复杂，倒逼AI技术持续进化。

在这场落地长跑中，AI技术已经顺着互联网、物联网和工业互联网，快速渗入各行各业和千家万户，带来各种效率提升，创造越来越大的价值。

但如今AI还处于商业化早期阶段，算法有效供给远远不足，提升AI规模化生产效率仍是当务之急。要实现真正的技术领先和价值务实，可能还需付出数年甚至更久的时间。

打好这场AI落地持久战，需要AI公司具备极强的前瞻意识和定力，坚持以原创技术研发创新为根基，探索可持续发展的商业模式，也需要社会给AI企业的成长和磨炼多一些耐心。

一、基础科研：追逐单点技术的性能天花板

二、行业落地：深入真实场景，较量实际准确率

三、基础设施：降低开发门槛，加速规模化复刻

四、预研一代、孵化一代、交付一代

结语：AI产业孕育尚需时日，落地应用初见曙光

相关推荐