超30城火拼智算中心!从建起来到用起来,要翻过这五道坎

智东西(公众号:zhidxcom)
作者 | 李水青
编辑 | 漠影

近来,对话式AI模型ChatGPT一夜间刷屏圈内外,自动驾驶模型训练速度提升超百倍,AI助力靶向药研究成果频登顶刊……AI(人工智能)技术正更深入人们的生产生活,背后的算力需求呈现指数级增长态势。

智能计算中心(简称:智算中心)是一种面向AI技术研发与应用的数据中心,专门满足海量而多元化智能算力需求。

2023年1月10日,国家工业信息安全发展研究中心推出《智能计算中心2.0时代展望报告》(简称:《报告》),指出经过5年多发展,智算中心正由1.0粗放扩张阶段走向2.0精细规划阶段。

超30城火拼智算中心!从建起来到用起来,要翻过这五道坎

什么是智算中心2.0时代?我国智算中心发展面临什么样的真实挑战?随着当下各行各业数字化转型加快,作为数字化基础设施的智算中心的又遵循什么样的发展规律?回答这些问题具有很强的实际意义。

近日,智东西通过对话智算中心领域代表企业中科曙光相关负责人,对这些问题进行了深入探讨。《报告》收录了多项先锋实践,其中,曙光凭借5A级智算中心、浸没式相变液冷技术、全国一体化算力服务平台等多项方案成果成为典型样板。

一、超30城落地智算中心,1.0时代面临五大挑战

随着人工智能产业发展,我国智算中心建设自2017年以来按下快进键,进入十四五发展新时期更是被要求“适度超前发展”。根据《报告》,2017~2022年以来,我国超30城快速布局智算中心,涌现出包括京津冀大数据智算中心、长沙5A级智能计算中心等多个典型案例。

曙光相关负责人告诉智东西,当下智算中心主要分为企业自建和公共基础设施,全国30城智算中心大多是第二种情况,用于支持地方产业AI化、AI产业化及智能化治理等。

比如曙光目前在运营中的合肥、长沙等地中心,已为科学研究、工业制造、政务服务等多领域提供支撑,助药物研发、材料解析等近百项成果登上国际顶刊《Science》杂志,累计服务用户突破10万+。

根据《报告》,当下智算中心已逐渐赋能区域产业集群发展,但值得注意的是,其在多元算力融合、上下游协同、建设应用联动、能源消耗、使用价格等方面仍面临至少以下五大挑战:

1、通用算力和专用算力待融合。在自动驾驶、智慧医疗、智慧城市等不同场景中,算力需求不同。单一化算力方案难以满足多元算力需求,不能兼顾多产业和多领域。

2、算力、算法和数据协同不足。这些年来建设的智算中心,不同的芯片平台、算法模型、数据库、应用层面部分处于垂直一体化“孤岛”状态,软硬件兼容性问题有待改进。

3、投资建设运营有待联动。智算中心投资、建设和运营往往由不同主体负责。前期建设单位往往对建设后运营的模式、服务标准投入不足,出现了管头不管尾、建设运营割裂的现象,影响客户体验。

4、碳排放和能耗高。设备自身的能耗排放带来非常大的挑战,比如OpenAI公司的超大规模预训练模型GPT-3训练所需的耗电量为19万千瓦时,相当于2021年人均用电量的228倍。

5、投资成本和应用价格待规范。智算中心的投建成本较高,部分智算中心每100P半精算力的投资成本高达5-6亿元,远远高出正常市场价格,同时使用成本也较高,比如据保守估计GPT-3大模型训练费用超过1200万美元。

超30城火拼智算中心!从建起来到用起来,要翻过这五道坎

二、智算中心2.0时代:算力融合、告别烟囱、绿色低碳

按照《报告》对产业的洞察,我国智算中心产业发展正在克服1.0时代的挑战进入2.0时代,背后来自于产业和政策两方面的驱动。

一方面,各行业数字化转型加快,智慧城市、智能制造、无人驾驶、数字孪生等大量场景需求拉动了数据计算分析的需求。根据知名行研机构罗兰贝格报告显示,2030年人工智能的算力需求将是2018年的算力需求的390倍。

另一方面,“十四五”规划与中长期发展纲要明确强调,要加快构建全国一体化大数据中心体系,强化算力统筹、智能调度。2022年2月东数西算启动,我国智算中心在10大国家数据中心集群拉开新序幕。东数西算对数据中心提出集约化建设、能耗低碳等要求,催促智算中心由粗放式扩张走向精细式规划建设的2.0阶段。

超30城火拼智算中心!从建起来到用起来,要翻过这五道坎

智算中心2.0阶段为产业发展提供了新的指引,那么它有什么特征?

根据《报告》,智算中心2.0阶段标志着一个“有序发展”和“算网一体”建设新格局产生,赋予了以下7大新内涵:

1、算力融合,通用和专用算力融合供应。智算中心在1.0阶段主要提供同构计算、专用算力,2.0阶段则需要利用CPU、GPU等加速芯片的异构,实现“高精度通用算力+低精度专用算力”融合供应。包括谷歌、英特尔、阿里、曙光、百度等国内外企业都在研发异构计算结构。

2、软硬协同,加快增强产业发展协同性。在1.0阶段,智算中心主要采用垂直一体的软硬件烟囱式方案,通用性和兼容性较低;在2.0阶段,智算中心更强调产业链上下游的开放协同,要实现算力、模型和数据集的横向兼容,确保各层次灵活构建。

3、建运一体,逐步完善一体化服务体系。在1.0阶段,智算中心主要聚焦在算力基础设施建设上;2.0阶段,更加关注规划建设和服务的统筹全局性。

4、能耗低碳,加快部署能耗低碳化技术。传统的数据中心较多采用风冷方式,散热效率较低;在2.0阶段,数据中心的冷却方式需要绿色节能,液冷方式发展起来。

5、成本优化,持续优化成本实现价格的普惠。在1.0阶段,较高的投建成本稀释了算力的价值;2.0阶段应该发算力基础设施的公共属性,尤其要推进智能算力网络建设,促进不同地区、不同应用之间的算力普惠发展。

6、需求牵引,从建起来到用起来。1.0阶段,大多数智算中心是规划牵引的政府规划、财政拨款建设;2.0阶段,应更强调市场需求牵引、平台化运营,多元化的模式来进行智算中心建设。

7、安全可信,落实新基建安全要求。在1.0阶段,自主创新程度还是比较低;2.0阶段要充分考虑信息安全和产业安全,以自主“通用芯片+AI芯片+操作系统+硬件设备+框架模型”为基础技术体系来构建生态、发展应用。

可以看到,2.0阶段的智算中心正从拼规模向拼质量发展。

曙光相关负责人对智东西说,国家十四五数字经济发展规划中提及“有序发展”,意味着此前几年存在的一些无序状态将要改变;同时智算中心建设强调协同,从原来的单打独斗走向上下游软硬件厂商的协同作战,将算法、算力、数据厂商联动起来。

三、开放架构,曙光5A级智算中心打造行业样板

基于2.0阶段的要素特征,《报告》给出当前产业内示范样例,为智算中心从“建好”到“用好“提供借鉴与指导。值得一提的是,以曙光为代表的ICT企业凭借多个实际应用案例正成为典型样板。

《报告》指出,“中科曙光推出5A级智算中心可通过分布式异构并行体系结构,覆盖全算力精度,实现多样化算力供应。”开放是曙光5A级智算中心的最核心宗旨,通过硬件、算法、框架、模型的全面开放、兼容,构建多元集成的基础架构,实现算力底座最大程度的易用性,降低迁移成本。

当下国内智算中心推进格局就像“爬珠峰”一样,分化出南坡、北坡等不同的架构“爬坡”路线。有的企业选择用自己的芯片、操作系统、模型框架等技术形成一个垂直架构闭环,有的选择多方协作的开放架构。而曙光推出的5A级智算中心,是要做第二种路线的典范。

目前,5A级智算中心在长沙、合肥等多地投运,致力为千行百业注入AI活力,打造智能算力领域的行业样板。

结语:开放融合共建智算中心,从“建起来”到“用起来”

《报告》以2022年十四五规划及行业政策的陆续出台为分界点,将智算中心的发展划分为高速扩张的1.0阶段与行业引导的2.0阶段,2.0阶段的智算中心将从粗放扩张转向精细式规划建设。

如同“攀珠峰”一般,国内智算中心建设也开出了多条爬坡路径。无论何种路径,开放生态、绿色低碳、算力融合都是作为公共基础设施的智算中心规模落地的必由之路。