亚洲最大!上海“巨无霸”AI计算中心投用,支持万亿参数大模型训练

智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影

智东西1月24日消息,今日,位于上海临港新片区的商汤科技人工智能计算中心(AIDC)正式投入使用。

商汤从2018年4月开始布局人工智能(AI)计算原型机研制项目,到2020年3月,AIDC项目正式立项启动。从开工建设到主体结构封顶,AIDC仅用时168天,刷新了临港建设的新纪录。

这是亚洲最大的超算中心之一,也是华东地区首个落地运营的超大型人工智能计算中心,具有开放、大规模、低碳、节能等特点。

该计算中心建筑面积13万平方米、项目总投资约56亿元、一期共5000个等效8000瓦的机柜,满载运行时算力可达3740PetaFLOPS(1PetaFLOPS为每秒千万亿次浮点运算),二期正在规划中,大体会是一期体量的1~2倍。

截至2021年6月30日,商汤已经战略性地在主要区域市场建立了23个人工智能超级计算集群,拥有超过20000块GPU,总算力达到每秒1.17百亿亿次浮点运算。AIDC投入使用后,商汤总算力将超过每秒4.91百亿亿次浮点运算。

近日,商汤科技联合创始人、副总裁杨帆接受智东西等媒体的采访。杨帆透露道,AIDC的目标是在2025年成为商汤的支撑性业务之一。

据悉,AIDC当前可完成10000亿参数模型的完整训练。未来商汤内部研发体系都将架设在AIDC上,预计到2024年所有服务器到位时,AIDC的国产化硬件比例将超过50%。

亚洲最大!上海“巨无霸”AI计算中心投用,支持万亿参数大模型训练

 一、对内支撑AI大装置,对外提供三类业务

AIDC能做什么?

对内,AIDC是商汤通用AI基础设施SenseCore商汤AI大装置的算力底座,AI大装置所囊括的所有软件平台及服务均运行在AIDC的物理实体上。

对外,AIDC可以独立提供算力支撑。商汤将通过AIDC把AI大装置的技术能力开放给产学界合作伙伴,让更多客户在商汤的云平台上获取AI-as-a-Service服务,灵活订阅各种预训练AI模型,从而降低各行业大规模AI应用的准入壁垒。

从计算能力来看,AIDC堪称“巨无霸”。

其总算力达3740PetaFLOPS,1天内可处理时长相当于23600年的视频,等同于从旧石器时代晚期不间断录制到今天的长度。

当前AIDC在1天内可完成10000亿参数视觉领域大模型的完整训练。基于这一超大模型,可以衍生出超过2万多个商用模型,帮助产业界以极低的下游数据采集成本,快速验证多个新场景。

此外,基于超大规模弹性可扩展算力,AIDC可保障对外运营的AI模型训练大规模算力需求。

作为底层支撑,AIDC运行后主要提供三类业务路线:第一类,向医疗蛋白质折叠、量子科学等AI+Science基础科研提供算力支持;第二类,提供整合能力,帮助企业建设一整套生产工具体系;第三类,提供端到端的智慧化服务。

杨帆称,通过AIDC的支撑,一个算法的生产成本可能下降为过去的1/10,甚至更低。

亚洲最大!上海“巨无霸”AI计算中心投用,支持万亿参数大模型训练

通过直连新型互联网交换中心,AIDC不仅能够为客户提供就近接入服务,解决跨网访问等难题,还可以提高企业间信息交互效率、降低传输成本,提升传输质量和稳定性,实现多点、多用户的快速网间互联。

据悉,在正式建成前,商汤已有潜在的客户和合作伙伴在AIDC上进行了一些试运行。春节后,AIDC将进入正式使用状态。

比如商汤在上海做的一网统管,为上海政府的公共服务提供了涉及垃圾满溢、井盖丢失、灯箱损坏、自行车乱停乱放、违章占道等各种城市服务管理的约上百种AI算法应用,这些算法的迭代生产,依赖的即是AIDC这样的基础设施。

“通过AIDC,通过里面的软件整合,我觉得我们有信心在未来的两到三年之内,我们能够实现在同等规模算力下,国产的软硬一体的成本、对客户的成本,降得更低,这个其实是一个我比较期待的目标。”杨帆说。

二、低算力成本,加速国产AI芯片市场化进程

目前,商汤正在探索从国产芯片、国产服务器、自研训练框架、算法和落地行业应用的AI大生态建设。

在CAPEX投资成本方面,AIDC可以降低自研国产芯片单位算力成本;在OPEX运营成本方面,得益于算法优化的优势,训练时长更短、效率更高、占用资源更小。

我们计划是3740PetaFLOPS里面应该会不少于50%的国产芯片做核心AI芯片来使用。”杨帆说,临港AIDC只是一个,商汤还有更多区域的AIDC布局建设正在推进中,AIDC整体会以训练为主,也会有一些推理,但占比较低。

他提到过去两年,商汤与多家国内AI芯片厂商展开了大量合作,希望加快国产云端AI芯片及相应服务器在市场更大规模、更大范围地使用。

据悉,AIDC当前试运营机器里已有一部分国产化比例,该比例的提升对于AI全产业链整体成本的下降、整体服务水平的提升、在硬件侧形成更加良性的商业竞争环境等方面将带来很大的价值。

亚洲最大!上海“巨无霸”AI计算中心投用,支持万亿参数大模型训练

过去两年,商汤在持续推动国产AI核心软硬件之间的适配。为了促进这件事情,商汤在2021年7月上海世界人工智能大会上牵头成立了“人工智能算力产业生态联盟”,简称“ICPA智算联盟”。

商汤将基于AIDC,促进AI生态的构建,推动国产原创技术的落地应用。

杨帆分享道,从成立ICPA算力联盟开始,联盟每一季度都会组织一到两次的齐聚芯片设计专家、软件设计专家、软件设计专家、行业标准专家的深度闭门研讨会。

在前期,商汤希望形成一个足够标准、通用的软硬件接口层的定义。

作为亚洲最大AI软件平台公司,商汤既有核心平台层和操作系统层的软件能力,又有大量下游应用,跟各个国产硬件、芯片厂商做核心软件、系统的适配,能帮他们节省研发费用和时间成本。

中期的工作是,商汤在临港AIDC投入运营之后,会跟中国电子技术标准化研究院(工业和信息化部电子第四研究院)建立“CESI-SenseTime人工智能算力及芯片评测联合实验室”,开展AI算力和芯片标准制定、AI芯片测评工具开发,提供AI计算中心、芯片测试验证服务和人才培训等支持。

该实验室未来将成为中立的第三方AI芯片、AI服务器测评机构,为产业提供参考标准,也促进每个硬件厂商更好地提升自家产品。

面向长期,由于商汤自身有大量下游产业应用,商汤将不遗余力地把相对较好的国产AI芯片及其服务器,导入整合到自己及合作伙伴的解决方案,将它快速推向市场。

三、六大技术亮点,解读AIDC建设的硬实力

商汤的AIDC通过其大规模数据处理及高性能计算的能力,为研发提供支持。

杨帆强调说,AIDC的算力并非堆砌,其中涉及许多通信侧、存储侧的领先技术。在高性能计算、分布式调度、数据I/O、软硬件协同以及系统安全方面,AIDC均实现了多重突破。

亚洲最大!上海“巨无霸”AI计算中心投用,支持万亿参数大模型训练

1)高性能计算:商汤已开发一款高性能计算引擎,它包含丰富的高度优化的计算程序、编译器及运行时环境。与芯片供应商提供的计算引擎相比,商汤的计算引擎通过优化的算子及全图优化技术,显著提高端到端的运行效率,不仅涵盖神经网络计算,亦涵盖预处理及后处理阶段。

2)高效的分布式调度:AIDC具有分布式任务调度系统,可在成千上万个GPU上动态调度数以万计的计算任务。该系统每年调度超过2000万个任务,确保研发活动能及时及有效地进行。在多种调度策略的支持下,调度系统可保持算力的高利用率,大降训练一个模型所需的平均成本。

3)高速的数据I/O在数据集上训练模型时,每个数据样本都会以高频率和随机顺序加载和处理多次。商汤的AIDC可提供非常高的IO吞吐量,允许训练任务每秒加载超过200万张图片,保证训练任务可以全速运行而无需等待数据。

“2018年,我们做了一个原型机的预研项目,实现了把1000块GPU卡连在同一个网络上去加载数据进行运算。今天我们正在做更大的5000~10000张卡,把它连在同一个网络上去进行计算。”杨帆谈道。

4)硬件/软件协同设计:在分布式环境中,协同各计算节点GPU相互通信、频繁从分布式存储系统中获取数据的复杂操作,易造成运行时性能的显著损失。对此,商汤采用硬件/软件协同设计的方法,根据其对AI任务的理解来配置硬件设置,同时设计软件栈并进行跨层优化。通过这种设计,商汤的AIDC每年可生产数以万计的模型。

(5)高标准的系统安全:商汤在设计其架构时在多个层级确保系统安全。例如,商汤制订全面的指引,按照不同安全级别对数据进行分类,并授予相应的访问权限;商汤的存储系统包括先进的访问控制系统;敏感数据以加密的形式存储及传输;分配给不同授权组的计算资源实现了合理隔离。商汤的安全团队实时监控AIDC的运行,并在出现潜在风险时采取行动。

6)绿色低碳数据中心建设:AIDC采用了各种前沿的能源优化措施,预期AIDC启动后的功耗将比中国其他数据中心的行业平均水平低约10%,每年可节省约4500万千瓦时功耗。AIDC预期将在2025年前后达到碳排放峰值,估计峰值排放量不超过35万公吨二氧化碳当量,并于2050年前后达到净零排放。

四、建智算中心,应先评估地域产业升级需求

AI计算中心是否真正能带给产业应用价值?如何高效利用AI计算中心的资源?

谈及这些问题,杨帆说,商汤对于AIDC的未来应用场景非常有信心。商汤不仅自己做,还对一个地方产业升级的需求强度和规模做了很好的测算与评估。

在他看来,在一个地方建设智算中心,首要考虑的是评估这个地方的产业基础和未来三年的产业升级需求,然后测算今天的AI技术及产品供应商能否满足这些需求,才能知道应该建设多大规模的智算中心。

亚洲最大!上海“巨无霸”AI计算中心投用,支持万亿参数大模型训练

数据治理也是AI产业发展中的一大挑战。农业时代的生产资料是土地,工业时代的生产资料是能源,而数字时代的生产资料就是数据。

对于能源,一升油加一升油,是两升油。对于土地,一亩地加一亩地,是两亩地。

但数据不一样,就是1T数据加1T数据,虽然变成了2T的数据,但其实际价值是大于2T的。更多的数据放在一起,将带来非线性增长的价值。

“这个是跟过去农业时代,工业时代的生产资料全都不一样的、一个极其重要的新特性。”杨帆分享了一些看法,数据最大的价值是低成本、可复制性和聚合之后实现的非线性增长价值。

如何实现更多数据的连接,同时保障数据安全和隐私可控,又能够界定清楚中间的权属规定?这些需要行业继续探索,去找到一个清晰的答案。

杨帆说,商汤建设AIDC也是一种探索,可能在未来一到两年,在AIDC的试运营阶段开始后,商汤会在这个方面重点做一些思考、摸索和尝试,因为他认为这是未来最核心的几件事情之一。

结语:未来将在更多区域市场建立AIDC

在杨帆看来,商汤的核心优势不仅在于技术领先,还在于如何持续地实现创新技术商业化。

以前从创新的原始出发点到最终变成客户价值,其过程时间很长,并涉及非常多的环节。当做这件事的周期从三四年缩短到三四个月时,这就是商汤对于产业长期的核心竞争力所在。

仅有科技企业是做不好创新的,需要传统企业配合做迭代实验,进行相应的配合和投入,甚至需要一定的沉默成本。今天中国很多行业都在做数字化转型、智能化升级,那么客户愿意掏出时间、愿意开放共享来一起做这件事情的思维和态度也非常重要。

除了上海外,未来商汤也计划在中国四大超一线及核心区域中心城市建设AIDC,以使商汤的AI-as-a-Service服务扩展到更多地区。

杨帆相信,AIDC未来会持续迭代,朝着如何让一个技术创新的成本更低、效率更高去演进,向更多合作伙伴及客户分享商汤沉淀的能力,为AI产业带来更大的价值。