从安卓云游戏到AI修复老片,英特尔GPU如何破解智能视觉云挑战?

芯东西(公众号:aichip001)
作者 |  ZeR0
编辑 |  漠影

芯东西12月16日报道,近日,英特尔在数据中心GPU Flex系列媒体沟通会上分享了数据中心GPU Flex系列在应对算力挑战、满足新兴智能视觉云负载所需的多项软硬件创新。

期间,中科大洋、亿联网络、火山引擎、当虹科技针对媒体处理与传输、AI视觉推理、云游戏工作负载分别解析了Flex系列GPU的部署成果。

从安卓云游戏到AI修复老片,英特尔GPU如何破解智能视觉云挑战?

一、GPU应用场景快速增长,帮助解决复杂计算挑战

如今数据量正呈指数级增长,数据形态也日趋多元化。根据Altman Solon关于2021年全球像素和用途数据显示,全球累积产生的用户原创内容达每秒19万亿个像素,全球视频内容消费则达每秒7千亿个像素。

海量用户、海量应用及超高分辨率,要求当今的数据中心基础设施承担着计算、编码、解码、传输、存储和显示视觉信息的巨大压力。

英特尔公司市场营销集团副总裁、中国区云与行业解决方案部总经理梁雅莉谈道,不论是从数据“量”还是“质”上来看,传统的单一计算架构无法解决所有问题,我们需要用不同的架构处理不同类型的数据,真正做到“用好的工具解决好的问题”,从而更加高效地处理复杂计算。

在不同的计算架构中,GPU的主要任务是加速图形渲染:在2D屏幕上创建2D和3D图像。CPU旨在一次处理一两个复杂任务,而GPU旨在并行处理许多小任务,即绘制像素。当大家看屏幕展示的静态图时,GPU不需要做太多工作;但当系统运行逼真的3D游戏等任务时,像素就会不断变化,越是想在游戏中呈现身临其境的沉浸感,GPU需要做的工作就越多。

游戏仅仅是一个案例。GPU的应用场景正快速增长,除了绘制像素,在人工智能、深度学习和科学计算等领域也正在帮助解决复杂的计算挑战。

放眼于日益增长的算力需求,英特尔基于XPU战略打造了跨CPU、GPU、FPGA、IPU等多种架构的算力资源。尤其面向云计算,今年8月,英特尔推出数据中心GPU Flex系列(曾用代号 Arctic Sound-M),基于Xe-HPG微架构,可满足图像质量、部署密度和时延方面的要求。

Flex系列GPU采用了突破性设计,能够在不牺牲性能或质量的情况下,灵活处理多种工作负载,帮助客户突破孤立且封闭的开发环境的限制,同时降低数据中心对于不得不使用多个分离、独立解决方案的需求。

二、两种规格均已出货,系统设计超15

基于全方位的硬件和软件创新,英特尔数据中心GPU Flex系列可以灵活处理媒体处理与传输、云游戏、AI推理、VDI多种云工作负载,有效优化使用者的总体拥有成本。

英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰分享说,由像素爆炸带来的大量图形视频类数据,亟需功能强大的数据中心GPU来处理,而Flex系列GPU专门用于处理数据中心视觉云应用中的多种工作负载。英特尔和合作伙伴一起推出了超过15款基于Flex系列GPU的系统设计,助力终端用户实现业务数智化部署。

从安卓云游戏到AI修复老片,英特尔GPU如何破解智能视觉云挑战?

Flex系列GPU的两种规格均已向客户出货:

1Flex 14075W,半高PCIe卡,内置16个Xe内核和16个光追单元,配备12GB内存。

2Flex 170150W,全高PCIe卡,内置32个Xe内核和32个光追单元,配备16GB内存。

英特尔数据中心GPU Flex系列包含多达4个Xe媒体引擎、 XMX AI加速单元和AV1硬件编解码器,是英特尔在数据中心领域首款支持AV1编解码的独立GPU。在虚拟化方面,Flex系列GPU支持硬件SR-IOV技术,并且不需要软件授权费用。

该系列GPU单卡能够支持多达36路视频流的1080p60转码吞吐量,以及8路视频流的4K60转码吞吐量,能够以低于同类型解决方案的能耗,提供更出色的媒体转码吞吐性能和解码吞吐性能。此外,英特尔数据中心GPU Flex系列基于硬件的开源AV1编码器可节省s以上的带宽(vs. AVC)。

从安卓云游戏到AI修复老片,英特尔GPU如何破解智能视觉云挑战?

Flex 140的媒体引擎还支持包括HEVC、AVC和VP9在内的业界广泛使用的编解码器,并可以有效提高其性能。在软件层面,它可广泛支持主流媒体工具、API、框架和最新的编解码器。

为了降低开发门槛,英特尔开源软件工具oneAPI提供统一的编程架构,包括一整套开发者熟悉的编程语言和标准的跨架构库、工具和框架,使开发人员可以利用oneAPI支持的开放软件堆栈,轻松地开展面向Flex系列GPU的设计工作。

三、四类应用详解:从视频处理、云游戏到AI修复老片

目前英特尔数据中心GPU Flex系列已在媒体处理与传输、AI视觉推理、云游戏等应用场景部署,来自中科大洋、亿联网络、火山引擎、当虹科技的技术专家分别分享了基于Flex系列GPU的实际应用体验。

1、中科大洋媒体解码与转码:效率、质量优势明显

视频行业快速进入4K/8K时代,在为用户带来更出色的视频观看体验的同时,也对视频解码和转码系统的性能、总体拥有成本提出更高要求。

Flex系列采用的AV1编解码技术,相比H.264技术,在同样画质下可大幅降低码率和数据传输带宽,从而节省总体拥有成本。据介绍,Flex 140 GPU在多种编码格式的解码性能测试中均取得了远超英伟达A10 GPU的成绩。值得一提的是,Flex 140的功耗是75W,仅为友商产品的一半。

从安卓云游戏到AI修复老片,英特尔GPU如何破解智能视觉云挑战?

中科大洋利用英特尔数据中心GPU Flex 140,并使用涵盖英特尔oneVPL在内的英特尔oneAPI工具套件进行优化,其自研LeoVideo Cloud云转码产品在多媒体转码和视觉图形处理等方面能够实现解码16路4K并发、4路8K并发或60路高清并发,以及编码6路4K并发或30路高清并发,这一性能表现远超传统产品,而且具有更优异的性价比。

中科大洋技术研究院院长褚震宇透露道,他们使用了广电领域专业测试视频素材来保证测试的严格和严谨性,经测试,英特尔数据中心GPU Flex 140在相近的码率和编码参数下,该GPU的编码效率与编码质量有明显优势。

从安卓云游戏到AI修复老片,英特尔GPU如何破解智能视觉云挑战?

褚震宇说,未来,中科大洋与英特尔将持续深化在视频云编、转码应用场景以及计算机视觉AI推理方面的合作,共同推动产业化发展,助力广电行业“5G+4K/8K+AI”的战略格局。

2、亿联网络远程视频会议:全面升级混屏、编码、容灾等能力

数字化办公的推进也极大促进了视频会议的应用普及与发展。视频会议厂商都在不断升级优化音视频技术,以满足不断升级的市场需求。

为了打造全新数字化办公空间,追求行业前沿音视频技术,亿联网络运用Flex系列GPU的能力,全面升级了视频会议系统中的音视频性能,为用户带来如临其境的全能智会体验。

亿联网络高级解决方案架构师林振鹏谈道,利用Flex系列GPU的能力,能更好支持4K超清视频的编解码,带给用户更好的会议体验,同时GPU能更好支持H.265等新兴的编解码技术,从质量、性能、带宽等多角度全面升级亿联视频会议的服务能力。

从安卓云游戏到AI修复老片,英特尔GPU如何破解智能视觉云挑战?

亿联网络将Flex系列GPU全方位用来做图像的编解码、混屏、编码等功能。同时其原有的CPU也可以更专注在原有的业务使用上,将传统业务处理地更好,使得其业务的容灾、切换、使用更强大。在会议服务器宕机的情况下,亿联网络的容灾机制可以做到5秒内会议快速切换,用户使用无感知,整体业务在1分钟内可全部恢复,这是在其当前业务过程中最强、最高的应用。

“结合我们的CPU+GPU整体的编解处理方案,我们的整体业务架构在远程视频会议处理上可以做到更高的性价比,以及更好的业务场景深层次应用。”林振鹏说。

3、火山引擎云游戏:多路实时云游戏流提升游戏服务质量

云游戏正呈现快速增长趋势,亟需更灵活的解决方案来为用户提供更多的实时游戏流。Flex系列 GPU为提供更优的游戏服务质量而打造,可在各种设备上带来畅爽的游戏体验。

配有两张Flex 170显卡的系统,可同时支持120路以上的Android云游戏。像王者荣耀等当下热门游戏,单张Flex 170显卡在游戏画质为720p30时,可支持多达68路游戏同时运行。在最近版本发布上,它也能够支持Windows云游戏。

从安卓云游戏到AI修复老片,英特尔GPU如何破解智能视觉云挑战?

火山引擎系统架构师梁宇提到制定安卓云游戏解决方案过程中遇到的一些挑战:一是整个安卓实例单路的成本,具体有包括GPU在内的硬件服务器成本、网络带宽的成本;二是在安卓云游戏的场景,对GPU的硬件编解码能力的需求较大;三是端到端网络延时。

梁宇认为,Flex 140自带的强大硬件编解码功能,十分有助于软硬件的整合和成本控制。据他分享,在火山引擎技术支持的3D动作手游《航海王热血航线》中,Flex系列GPU以强大的图形渲染能力和多媒体编解码能力带来了流畅度、画质等方面提升。

从安卓云游戏到AI修复老片,英特尔GPU如何破解智能视觉云挑战?

从评测结果来看,在720p60帧的场景下,单张Flex 140的GPU编码达到60路,渲染为20路;在1080p60帧下,编码达到28路,渲染为10路。总体而言,Flex系列GPU提供了更多路实时云游戏流,保证了更优的游戏服务质量。

值得一提的是,Flex系列GPU的应用也可以显著降低总体拥有成本,以更多游戏路数和更少的基础架构为用户带来畅爽的云游戏体验。

4、当虹科技AI修复老片:一台GPU服务器堪比一机柜

随着新媒体的高速发展,各种显示设备的分辨率不断提高,人们对于影片清晰度的要求也越来越高。以AI画质增强技术为代表的技术革新,也让视频超分、插帧等算法在老片修复及4K生成等场景中得到广泛应用。

传统老片修复需要人工修复,工作人员一天能完成20-30帧的修复,一部90分钟的影片,通常需要几个月才能完成修复,修复进度十分缓慢。而当虹科技运用AI辅助老片修复的工具,大大解放了人力,提高了老片修复的效率。

基于此,当虹科技与英特尔开展合作,升级了一套用于老胶片电影修复、重要历史资料纪录片翻新和大数据人文素材修复等场景的解决方案。

当虹科技解决方案总监郑晓玲分享说,AI老片修复的技术主要涉及几类应用:一是AI插帧,把视频从标清、高清变成4K、8K;二是AI HDR转换,把色域空间变大为HDR的色域空间;三是AI超分,即提高分辨率,变为4K和8K;四是AI画质增强。所有这些应用都是为了让视频拥有更高画质、更高质量。

Flex系列GPU支持XeSS超级采样技术。通过AI超分的技术手段,在画面质量接近的前提下,大幅缩短渲染时间,进而提升运行效率。在4K的渲染下,如果用了XeSS超采样功能,可以大幅缩短渲染的时间。因此,对于很多标清转高清和修复老视频的应用,XeSS超采样技术是可以带来大幅度的性能的提升。 

从安卓云游戏到AI修复老片,英特尔GPU如何破解智能视觉云挑战?

当虹科技利用第三代英特尔至强可扩展处理器和英特尔数据中心GPU Flex系列170为硬件基础,以及应用到英特尔oneAPI工具套件和英特尔分发版OpenVINO工具套件进行编程和优化,使AI老片修复更加多样化、高效化和智能化。

郑晓玲说,当虹科技和英特尔的合作主要用在两个业务场景:一是直播业务场景,如1U服务器搭载英特尔Flex,最高可支持2通道的4K HDR超分信号增强和编转码处理;二是离线业务场景,1U服务器最高可支持3倍速4K HDR超分视频增强转换处理。这相当于真正实现了一台GPU服务器堪比以前一机柜的服务器。

从安卓云游戏到AI修复老片,英特尔GPU如何破解智能视觉云挑战?

面向AI推理,尤其在视频流编解码使用时,Flex也能带来明显的性能提升。以智能视觉推理场景为例,需要先对视频流进行解码处理,然后再进行AI运算。这是一个典型的多种工作负载融合的应用场景,需要GPU具有很好的灵活性。庄秉翰说,得益于Flex GPU的媒体计算引擎和Xe矩阵扩展(XMX),Flex 170在多种不同的编码格式和AI模型的组合中的性能测试表现,都超过了友商。

从安卓云游戏到AI修复老片,英特尔GPU如何破解智能视觉云挑战?

结语

仅上市数月,英特尔数据中心GPU Flex系列在国内已通过搭载新华三、浪潮、宁畅、宝德、超聚变4等众多OEM合作伙伴的系统陆续面市,同时在当虹科技、中科大洋、火山引擎、亿联网络等行业合作伙伴的实际使用场景中实现了针对不同视觉云工作负载的应用部署落地,在此过程中也获得了来自中国联通、天翼云、移动云的电信运营商的支持,整体生态呈现良好增长势头。

随着数字化转型进程加快,云计算、人工智能等技术步入协同发展时期。结合硬件优势以及对于开放软件生态系统的投入,英特尔数据中心GPU Flex系列正从媒体处理与传输、云游戏和AI推理等多个维度提供更具针对性的技术支持,满足日臻丰富的智能视觉云工作负载需求。