商汤推出SenseCore AI大装置,要冲破AI大规模落地的围城

智东西(公众号:zhidxcom)
作者 | 心缘
编辑 | 漠影

智东西7月9日报道,在2021世界人工智能大会上,商汤科技展示并正式推出其人工智能(AI)的集大成者——AI大装置SenseCore。

近年来,商汤一直以知名AI独角兽的身份活跃于公众视野,无论是其开发的17000多个AI算法,还是算力高达3740 PFLOPS的新型AI计算中心,都在AI初创公司中鲜见敌手。

而这些,仅是商汤AI大装置的一部分能力。

超大规模算力、丰富算法模型、全链路AI开发工具,这些商汤沉淀了7年之久的能力,都被整合到AI大装置中,并打通了算力、算法和平台之间的连接与协同,构建成一整套端到端的架构体系。

在会前的深入交流中,商汤科技联合创始人、港中文-商汤联合实验室主任林达华教授告诉我们,AI大装置“标志着商汤科技内部的AI研发和生产进入到了一个全新的阶段”,“是将原来基于项目的定制化开发转向规模化落地的关键一步

据悉,这一新型AI基础设施建设完成后,将使得AI以自动化、自适应的方式进行生产和落地,大幅降低AI解决方案的研发与部署成本,并解决城市管理、企业服务和个人生活中的长尾应用问题。

商汤推出SenseCore AI大装置,要冲破AI大规模落地的围城

一、破解AI大规模落地挑战,商汤的三板斧

打造AI大装置的初衷,是为了解决许多AI解决方案存在的一个通病——面向某个具体需求而打造,方案与方案之间,关系并不紧密。

商汤发现,不同AI产品或解决方案在技术之间存在许多关联性,都会依赖于数据、算力、算法和最后部署的整体协同。如果让每个项目单独执行,那么高昂的AI生产要素成本,将成为限制AI进一步扩大落地规模的关键壁垒。

为此,商汤将多年积累的AI算法、底层系统和框架技术以及落地经验打通,融合到AI大装置。

商汤AI大装置由算力层、平台层、算法层组成。

在算力层,商汤自主建设的新型人工智能计算中心(AIDC),整合AI芯片及AI传感器,为算法模型的分析、训练和推理提供强大算力支撑。

目前上海临港在建的AIDC是亚洲最大AI算力中心,总算力达3740 Petaflops,据称1天内可处理时长23600年的视频。

今日商汤还宣布联合行业伙伴成立“人工智能算力产业生态联盟”,以连接AI算力产业各方,希望为中国AI开发者建立一个高效统一、资源丰富的异构计算开发平台。

在平台层,商汤打通从数据准备到模型生产、测试、部署的全链路AI开发及批量化应用流程,将数据平台、深度学习训练框架、深度学习推理部署引擎、模型生产平台打通。

林达华说,这是商汤在过去五六年间对行业落地深刻认知后形成的真正有效的、能在工业级里面使用的平台层,远不止是将开源的内容拼在一起就能做成的。

也正是在长期实践的沉淀下,商汤深度学习训练框架SenseParrots能高效利用GPU集群算力,训练单个大模型时可以在千卡上取得超过90%的加速效率,达到单卡900倍的效果,远高于开源方案。

在算法层,商汤已开发超过17000个算法模型,其算法开源框架OpenMMLab在GitHub上已经超过37000颗星,为亚洲最高。

据林达华透露,OpenMMLab将再一次进行升级,从一个开源算法体系演变为具备完整能力的开源开放平台,提供AI研发的全方位支持。

“它能从根本上提升AI研发的效率,降低所需要的各种要素成本。”林达华说,“我想,它所带来的,是整个AI的研发与生产范式全面的革新,所有需要AI赋能的行业,都将从中受惠。”

二、全自研、高性能推理引擎,满足云上多后端部署

商汤AI大装置不仅积累了丰富的算法研发成果,而且拥有多样的落地商用案例。

例如,上海长宁区江苏路街道基于商汤方舟城市开放平台SenseFoundry,构建多场景、一站式AI城市治理解决方案,有效解决了暴露垃圾识别、共享单车乱堆放、人群聚集等城市痛点问题。

在博物馆、展馆、景区、商场、机场、火车站等城市级文旅场景,商汤通过原创SenseMARS火星混合现实平台进行3D建模、AR应用部署。

这些应用的高效部署,离不开商汤最重要的计算引擎之——深度学习推理部署引擎SensePPL

SensePPL有通用性、全自研、高性能、多后端、开源五大亮点。

首先,在通用性方面,SensePPL覆盖各种应用领域,支持主流深度学习训练框架的各种模型,可将其转换成业界通行的ONNX标准模型格式

其次,商汤从五年前就认识到计算对于人工智能的关键价值,决定自研计算库,并建立一个能力顶尖的高性能计算团队。商汤将丰富的技术及落地经验融入SensePPL,能更好发挥各种国产芯片的性能,从而推动国产化进程。

目前国内在云端的推理框架基本上靠集成英伟达TensorRT和英特尔OpenVINO来获得性能保证,各芯片厂商也都会提供一些计算库。这些计算库在AI业务落地时,性能、内存占用、功耗等方面距离实际需求还有较大距离,全链条端到端的效率不高。而商汤完全自研的SensePPL,不依赖任何厂商的库,还能取得性能优势。

SensePPL设计了微架构友好的任务/数据/指令等多级并行策略,自研英伟达GPU、x86 CPU计算库,能充分发挥芯片算力,满足部署场景对神经网络推理、常用图像处理的性能需求

面向云端异构推理场景,SensePPL支持多平台部署,支持开源框架OpenMMLab检测、分类、分割、超分等系列的多种模型,同时提供模型前后处理所需的图像处理算子。

OpenMMLab开源后,商汤发现AI社区不仅需要开源的训练算法,对于推理部署也有殷切的需求。只有当训练和推理衔接在一起,才能形成AI整个价值链条的完整闭环。

因此,商汤从决定把SensePPL中云端推理的能力开源给社区,这就是OpenPPL计划。其目标是将从训练到推理的完整技术生态输出给社区,从而加速AI技术的普及与进步。OpenPPL现在开源的部分仅仅是一个开端,商汤未来将持续迭代完善OpenPPL,不断给社区开发者带来新的价值

三、3740 PFLOPS算力背后,商汤的基建底气

除了算法和平台外,AI大规模落地也离不开超大规模算力的支撑。

商汤决心建设AI大装置的原因之一,是看到了根本性的技术区别:AI大模型训练需要大规模的高性能异构计算能力、高速跨节点通信能力、以及海量数据随机访问的能力,这是现有互联网基础设施所难以支撑的

林达华告诉我们,高算力不是简单的堆砌就能实现,而需要整体系统设计能力的积累。AI广泛落地的前提是降低算力成本,而支撑海量数据的高速随机访问,当前主要基于昂贵的闪存,这与降低成本的目标相悖;同时,现有互联网厂商只是面向外界用户提供高并发的访问,但无法满足高密集的、高容量通信的AI训练过程。

从2018年起,商汤更加严肃地审视算力、硬件及它们与产业赋能的深刻联系,并做出重要战略决策,即建设新一代人工智能计算平台(AIDC)。

商汤推出SenseCore AI大装置,要冲破AI大规模落地的围城

经过审慎的项目筹备和科学论证后,2020年,这一平台正式启动建设,至今已有实质性进展,拥有3740 PFLOPS超大算力的上海临港新型人工智能计算中心预计将在年底建成。

一家以算法著称的AI初创公司,如何做到建设起如此庞大规模的算力基础设施?对此,林达华分享了商汤在三方面的底气。

首先是人才基石。商汤科技内部有一个专门做平台和技术系统的团队,团队既有顶尖大学毕业的博士、硕士,又有拥有丰富经验的业界老兵。这些人才正共同攻克很多AI带来的新技术挑战。

其次是长期积累。商汤一直将基础设施建设视作达成未来AI广泛赋能产业的战略基石。3740 PFLOPS,相当于3万块英伟达V100或者超过1万块英伟达A100的峰值算力的总和。截至现在,商汤内部已有约2万块GPU在用,因此具备构建万级GPU规模数据中心、支撑AIDC建设的能力。

最后是连接真实场景的客户需求。真正要优化一个系统,不仅要了解技术,还需知道工作负载是什么。商汤恰恰积累了来自真实场景的大量工作负载,承载了在许多场景、行业中的多样化客户需求,这样多样化的落地场景更成了打磨系统的“金矿”。

在这些底气的支撑下,商汤重点克服了AI系统设计的一大技术挑战——即兼顾合理的成本、海量的数据和高速的随机访问。为了实现深度学习训练框架足够高的加速效率,商汤还做了许多通信、计算、I/O等各种联合的优化。

林达华透露说,这几年AIDC首先在商汤内部使用,慢慢会向合作伙伴开放,后面持续拓宽应用边界,实现在更广的AI产学研范围赋能。

结语:降本增效,AI规模化落地的长期议题

近些年,大模型正成为显著提升AI业务能力的新兴发展方向,训练大模型固然离不开大量的资源和成本,但一旦完成,大模型成为一个公共的AI基础设施后,数以万计的行业模型将基于此,能快速满足AI应用的需求。

这与商汤构建AI大装置的思路契合,即最终降低AI生产的边际成本,大幅提升需求响应的效率。林达华相信,预训练会成为AI研发的重点,在此基础上,行业需求的响应将变得更加轻量化,最终实现真正的规模化赋能。

未来,商汤计划在AI大装置上支撑不同行业的算法模型生产链条,进一步连接和打通跨行业的技术体系,形成一个突破技术边界的技术生态。同时,林达华提到商汤希望将AI大装置从企业级设施变成开放服务的平台,让更多行业、企业受惠于AI大装置所带来的生产效率提升。