首部东数西算白皮书发布!什么数据适合“西算”?

智东西(公众号:zhidxcom)
作者 | 李水青
编辑 | 漠影

今年2月,国家发改委等多部门印发通知,建设10大国家数据中心集群,全面启动“东数西算”工程。这一项目意在用西部算力支持东部数字经济,同时拉动西部发展,截至今年4月已带动1900亿元新项目。

近几个月来,算力、网络一直是东数西算工程中的话题焦点。但本周,由知名机构中国智算产业联盟牵头发布的《东数西算下新型算力基础设施发展白皮书》(简称:白皮书)传递出一个新观点——海量温冷数据的“东数西存”或许才是首要课题,引起产业的广泛关注。

近日,智东西与中科曙光存储事业部副总经理张新凤线上通话,就这一话题进行了深入探讨。中科曙光是东数西算工程的重要参与者,目前已在成都、重庆等重要算力枢纽布局了智算中心等算力设施。

首部东数西算白皮书发布!什么数据适合“西算”?
▲中科曙光存储事业部副总经理张新凤

一、温冷数据占95%,“东数西存”引关注

作为国内首部关于东数西算智能算力设施的产业白皮书,报告指出:占据数据总量95%的温冷数据更适合“西算”。所谓温冷数据,简单来说,是指代对实时性要求较低的数据。这一说法明确回答了“什么数据适合‘西算’”的关键问题。

首部东数西算白皮书发布!什么数据适合“西算”?

我们知道,在信息传输中,无论网络带宽多大,传输时延都是客观存在的。因此,在 “东数西算”中,需要被计算节点频繁访问、网络时延要求高的实时在线类 “热数据” 不适合 “西算”,而离线类访问频率低、网络时延要求不高的“冷数据”,以及介于两者之间的“温数据”,更适合“西算”。

张新凤告诉智东西,占据数据总量的95%温冷数据对存储的需求凸显,要求东数西算注意算力和存储的协同发展。在实际应用中,一些重计算的应用场景将算力排在第一位,以存储辅助支撑;但有不少用户以数据密集型应用为需求,存储占比在数据中心中会更大。

作为东数西算的子场景,东数西存需求日益引起关注。张新凤看到,存储产业已经被东数西算工程带动。

从曙光存储自身来说,其今年已参与了多个相关项目;在这个过程中,团队看到了用户对于更大存储容量的需求,已从100PB规模发展到300~500PB。

当下,东数西算工程更强调应用的场景化。根据白皮书,温冷数据的“东数西存”,以及更细分场景,比如视频游戏应用所需的 “东数西渲”、AI模型训练所需的“东数西训”等,对存储、算力要求高,但对数据实效性要求不高的应用场景,都将成为“东数西算”未来应用的重要支点。

实际点说,东数西算更关注供需关系。通过对东西部算力、存力等资源供需关系的合理匹配,让“东数西算”融入到各个实际业务场景中,尤为重要。

而“东数西存”“东数西渲”“东数西训”等应用场景,是推动“东数西算”均衡发展的有效途径。

二、东数西算驶入快车道,存储面临四大转型需求

将算力资源提升到水、电、燃气等基础资源的高度,进行跨区域调配,东数西算倡导的战略价值已被各界认同。地方和产业龙头都采取了行动,表现在成果上,根据工信部数据,截至今年4月东数西算已带动1900亿元新项目,预计到年底这一数据可能达到4000亿元。

根据白皮书,“东数西算”工程的启动实施,将直接拉动新一轮数据中心建设投资,自2022年以来,全国10个数据中心集群中,新开工项目达到25个,新增数据中心规模达54万标准机架。通用、智算、边缘算力节点正在连成“算力一张网”。

张新凤说,东数西算已进入了快速落地的阶段,更丰富的适配场景和更细化、更系统的关键技术的评价指标,都加速了东数西算落地可行性。与此同时,东数西算也对数据中心提出了新的要求。具体到存储层面,张新凤谈到了以下几点:

1、东数西算中CPU、GPU等结合的异构计算较多,对存储要求高。如何打通数据高速共享,提升性能效率,是需要解决的首要问题。

2、容器、云原生等众多新技术及应用落地东数西算,对存储协议提出多样化需求,要求存储供应商提前做好技术布局和支持。

3、作为国家工程,东数西算更强调数据安全,需要存储系统从软、硬件等多个层面上做好国产化等全方位考虑。

4、东数西算对于PUE值要求的比较高,怎么保证存储系统绿色低碳,市面上的产品和厂家还比较少。

这些需求结合起来,实际上为企业入场东数西存设置了不小的门槛。而突破这些门槛,也成为了东数西算驶入快车道需要跨越的技术围栏。如果不跨越这些围栏,必将影响东数西算设施在后续规模化落地应用中发挥应有作用。

三、从10PB到300PB,曙光提早布局东数西存

曙光自2009年推出第一代分布式存储系统ParaStor以来,至今仍是国内为数不多掌握底层技术、实现代码级开发与优化的分布式存储系统厂商。

张新凤告诉智东西,经过超10年迭代,ParaStor单套规模已从16PB升级到100PB、300PB的超大项目。要知道,对于存储系统来说这是一个质变的过程。​它需要支持数百存储节点、数千计算节点的部署,还要打破网络架构的瓶颈。也正是一次次这样的突破,让客户认可了曙光存储深厚的技术功底。

作为东数西算项目中重要参与者,曙光存储从四大新需求切入,支持东数西算工程算力和存储的协调、创新发展。

曙光ParaStor单一存储节点同时支持文件、块、对象、HDFS四种存储服务,实现海量异构数据统一纳管,提升异构计算存储的性能效率,满足东数西算中人工智能、云计算、容器还有云原生等技术需求。

曙光存储通过代码级开发与优化,从部件、网络、节点、数据冗余等各层面保证数据的安全性及系统的稳健性,满足东数西算工程对海量存储的更高安全性级别的要求。

谈及绿色低碳发展,张新凤说,曙光正在把多年来积累的节能技术,从算力延展到存储上,并将发布业内首款液冷存储系统。未来将与计算节点形成一体化解决方案,帮助数据中心获得更高节能等级,实现更低的PUE值的目标。

根据白皮书,以西部(重庆)科学城先进数据中心为例,其采用了浸没液冷技术、余热回收、绿色建筑、清洁能源(光伏)等多种相关技术,使得项目年均PUE可达到1.144,年节省用电约为14624.8 MWh,年节省标准煤4870吨,年减少二氧化碳排放13149吨。

在谈到对东数西算智能化场景的应用支持时,张新凤说,以自动驾驶为例,从L1到L5阶段产生的数据量达百倍增长,其中大多是对温冷数据的进一步处理,从而实现研发速度、模型精度的提升。曙光一方面提供多种协议支持,满足自动驾驶数据在采集、存储、处理、分析等不同流程应用需求;一方面通过精细化的权限控制,保障数据存取安全和访问合规。

可以看到,随着东数西算驶入快车道,实际应用场景和客户需求正呼唤存储产业进行迭代,以曙光为代表的产业玩家已拿出看家本领,并吃到新的产业红利。

结语:东数西存,“全国算力一张网”建设的预备关

当下,东数西算成为支持数字经济发展的重要举措。根据中国信通院发布的数据,在算力中每投入1元,将带动3-4元经济产出;算力发展指数每提高1点,GDP增长约1293亿元。

值得一提的是,东数西算中的“算”非常重要,但“存”也应该被同等重视。东数西算对当下的存储产业提出了绿色、创新、安全等多方面新要求,关系到“算力一张网”建设大局。这为存储产业玩家带来了新挑战,也带来了新的市场空间。