数据中心能耗如何优化?清华AIR与英特尔组队分享心法

芯东西(公众号:aichip001)
作者 |  ZeR0
编辑 |  漠影

芯东西3月7日报道,昨日,清华大学智能产业研究院(AIR)、英特尔公司基于“双碳”的“绿色计算”暨数据中心能耗优化技术研讨会在北京举行。

清华大学智能产业研究院院长张亚勤谈道,随着AI(人工智能)发展,数据中心需要越来越强的算力,越来越大的模型需要建立大型数据中心和大的算力网络。因此,在“双碳”的背景下,清华AIR的一个重要研究方向就是将行业产生的碳排放降下来,用AI让计算、存储、传输工具变得越来越高效、越来越绿色,对产业、对整个社会都是一个大的课题。

数据中心能耗如何优化?清华AIR与英特尔组队分享心法▲清华大学智能产业研究院院长张亚勤

英特尔公司高级副总裁、英特尔中国区董事长王锐分享说,减碳是英特尔的一个非常重要的使命。一方面,数据中心本身是耗能大户,英特尔支持的全球所有数据中心加起来,如果在节能上有稍微一点点的进步,都能对世界带来积极影响;另一方面,英特尔在积极参与构筑产学联盟,推动学界、研究机关的成果在产业界、在整个生态落地,让节能算法真正能有益于整个社会。

数据中心能耗如何优化?清华AIR与英特尔组队分享心法▲英特尔公司高级副总裁、英特尔中国区董事长王锐

一、AI+IoT助力碳中和,新兴数据驱动决策优化方法潜力巨大

AIR助理研究员詹仙园发表以《面向绿色计算场景的数据驱动决策优化》为题的演讲。他介绍了清华AIR在高性能、高泛化以及不完美奖励下的离线策略优化方面的最新算法研究成果,以及离线强化学习方法在火力发电燃烧控制优化,并分享了与英特尔合作的数据中心能耗优化合作中的进展,最后基于AI+IoT(物联网)技术在绿色计算方面的潜力进行了展望。 

“碳中和”是人类能源结构的又一次变革,既是可持续发展的必然选择,也是产业结构调整和发展大机遇。在“碳中和”背景下,传统工业、能源,以及新兴的数据中心等高能耗产业面临着日益严峻的节能减排提效降耗压力。

提升相关系统的决策控制水平,不仅具有重要的产业价值,也对国家节能减排和可持续发展具有重要意义。传统决策优化方法由于建模能力有限,或者过分依赖仿真建模、业务知识和人类专家经验,瓶颈日益凸显。这些问题导致传统决策优化方法在真实场景中不再适用。

未来决策优化的思路包括代替人类专家经验、降低落地成本、研发可跨领域复用的算法等。以离线强化学习为代表的新兴数据驱动决策优化方法,在解决真实复杂系统决策优化问题方面具有巨大的潜力。

清华大学智能产业研究院跟英特尔合作,正在研究把数据驱动决策优化的方法用到高能耗数据中心联合优化上。因为这个系统本身非常复杂,同时又有很多的数据,只靠建仿真不太现实,所以采用了一套分层离线强化学习框架去解决问题,在上层会着重考虑IT系统能耗方面的优化,在下层则去做冷却系统跟上层的IT系统调度进行匹配,在满足负载和温度要求的情况下,实现冷却系统本身的节能优化。使用这样的模型进行控制之后,数据中心温场的变化相对平稳很多。

数据中心能耗如何优化?清华AIR与英特尔组队分享心法

二、英特尔的绿菜单12种维度让数据中心更节能

英特尔中国绿色数据中心与可持续发展项目组经理彭振飞发表了主题为《英特尔绿色数据中心与可持续发展近况》的演讲。

绿色计算涉及国际民生,也影响行业的发展。英特尔的愿景是从制造到产品再到解决方案,推动打造更可持续的计算产业,包括通过可持续制造和供应链合作伙伴关系减少英特尔的碳足迹;通过跨芯片、平台和软件,设计更可持续的产品,引领行业发展;在整个生态系统中协作、指定标准,构建可扩展、可持续的解决方案。

2022年,为减少数据中心服务器在使用过程中产生的碳排放,英特尔面向中国市场发布了“英特尔中国绿色数据中心技术框架1.0”(简称“绿菜单”),从XPU层、服务器层、机架基层和数据中心层,以及高能效与高功率密度、先进的散热技术及基础设施智能化等12种维度,帮助合作伙伴和客户让数据中心变得更加绿色。

数据中心能耗如何优化?清华AIR与英特尔组队分享心法

此外,液冷技术能够帮助数据中心适应极端环境,也可以把PUE(电源使用效率)进一步降到1.1以下,甚至是1.03。液冷分为浸没式和冷板式,2022年,英特尔跟21家上下游合作伙伴一起共同合作,发布了《绿色数据中心创新实践——冷板液冷系统设计参考》白皮书,希望通过标准化降低整个生态的入门门槛,突破系统功耗限制,降低成本,让解决方案加速落地。

数据中心能耗如何优化?清华AIR与英特尔组队分享心法

英特尔还举办了创新论坛与伙伴讨论相关话题,并与伙伴共同宣传绿色数据中心的成功案例。展望2023年,英特尔将按计划稳步前进。

此外,在可持续发展领域,英特尔发布了基于OCP的针对互联网与企业国际市场、更注重模块重用的DC-MHS(Modular Hardware System)服务器行业设计标准与更注重通用服务器市场、关注成本优化的OCSP(开放通用服务器平台)标准,可以简化设计降低成本,实现灵活配置,在构建标准的同时滋养不断增长的生态系统,助力可循环经济。

三、开发冷排液冷行业标准,加速数据中心部署液冷方案

英特尔数据中心平台及架构事业部主任工程师周绍荣分享说,因节能减排和低PUE的要求,以及CPU/GPU功耗持续增加以应对高性能高算力的发展趋势, 风冷不能或不能很经济地满足数据中心高功耗元器件的散热需求。数据中心部署液冷,包括冷板式液冷和浸没式液冷成为必然选择。

对于浸没式液冷,冷却液体的选择最为关键。在保证冷却液体与被冷却电子元器件之间的相容性和长期可靠性的前提下,冷却液体的环境友好性,换热能力以及购买成本也是重要考量指标。

数据中心能耗如何优化?清华AIR与英特尔组队分享心法

为了给数据中心液冷产品的设计、制造、测试和验证提供统一的规范,从而加速液冷方案在数据中心的部署,英特尔联合产业伙伴共同开发了冷板液冷关键部件的4个标准,其中冷板本身的标准在2023年3月15日正式实施,其余3个相关标准将在23年年底之前发布。对于浸没式液冷,英特尔独家发布了OCP规范。

四、数据中心纳入全国碳市场,交易机制解读

清华大学能源经济研究所副教授张达在报告中介绍了数据中心纳入全国碳市场后的碳排放配额分配方法、碳排放核算方法、数据质量控制与绿色电力交易等管理机制,并提出纳入全国碳市场的数据中心责任主体与规模边界建议。

他谈道,当前数据中心产业发展迅速,耗电量同步快速增长,导致了大量的间接温室气体排放。在“碳达峰、碳中和”目标提出的背景下,将数据中心纳入全国碳排放交易市场(简称碳市场)可以引导数据中心提升能效和使用清洁电力。

随着国家各部门与地方政府逐渐对数据中心PUE提出更高的要求,单纯使用PUE调控数据中心能效的收敛渐渐降低,因此将数据中心纳入全国碳市场需要从根本处着眼,设计合理的机制调控数据中心IT设备排放。

结语:做可持续计算是一个马拉松,第一步刚开始

最后,英特尔研究院副总裁、英特尔中国研究院院长宋继强进行总结陈词:英特尔长期专注于提高算力,摩尔定律的主要目的就是在同样尺寸里集成越来越多的晶体管,最近英特尔有一个愿景,到2030年实现在单个设备中集成约1万亿个晶体管。数字化转型需要越来越多设备、网络、算力的支持,在节能减排过程中有很多地方可以去考虑。

数据中心能耗如何优化?清华AIR与英特尔组队分享心法▲英特尔研究院副总裁、英特尔中国研究院院长宋继强

英特尔提供了一个“绿菜单”,从不同层面提供IT企业节能减排的参考,并与时俱进提供很多新的办法,同时也在与合作伙伴一起努力,比如说跟清华AIR合作,充分利用AIR在算法方面的优势,还有其它方面的创新型研究,在探讨如何更好地把通信和算力的工作负载进行平衡、切换,以减少新的算力设备的采购。

“做可持续计算是一个马拉松,现在刚开始第一步,英特尔已经聚集了不同方面的力量,共同去看怎么应对这个大挑战,”宋继强说,“希望后续各方面能更长期的通力合作,把这个马拉松跑到底。”