芯东西(公众号:aichip001)
作者 |  ZeR0
编辑 |  漠影

芯东西1月28日报道,1月27日,浙江杭州GPU创企曦望(Sunrise)披露未来三年产品路线图,发布新一代推理GPU芯片启望S3,并推出面向大模型推理的寰望SC3超节点方案推理云计划

启望S3支持从FP16FP4的多精度灵活切换,是国内首款采用LPDDR6显存方案的GPGPU芯片,号称取得了相比上一代“10倍以上”的推理性价比提升。

根据曦望“量产一代、发布一代、预研一代”的节奏规划,高性价比推理GPU芯片启望S3今年上市,高性能推理GPU芯片启望S4将于2027年上市,安全可控推理GPU芯片启望S5将于2028年上市。

国产推理GPU问世!首用LPDDR6,性价比飙10倍

过去8年,曦望研发投入累计达20亿元,成功量产了S1和S2,今天发布S3,目标将中国的推理成本拉到“百万token一分钱”的新水平。

国产推理GPU问世!首用LPDDR6,性价比飙10倍

除了启望S3芯片及超节点产品之外,S3的产品矩阵还包括智望系列PCIe计算卡和OAM计算模块、辰望系列PCIe服务器以及OAM服务器、寰望系列AI计算集群、熙望系列AI PC或AI液冷工作站。

国产推理GPU问世!首用LPDDR6,性价比飙10倍

一、脱胎商汤大芯片部门,IP授权索尼小米,去年完成约30亿元战略融资

曦望成立于2020年5月,前身是商汤科技大芯片部门,团队超过300人,主要来自英伟达、AMD、昆仑芯、商汤等企业,核心技术骨干平均有15年的行业经验。

“我们是一家更懂AI的GPU芯片公司,而且是国内第一家All in推理的GPU芯片公司。”曦望董事长徐冰说。

曦望的使命是把大模型推理做到极致,要让AI推理真正变得便宜稳定,而且随处可用。

负责研发的曦望联席CEO王勇,是前AMD、昆仑芯的核心架构师,有20年芯片研发经验。2020年加入商汤后,他带领百人团队主导了曦望两代芯片的研发和量产,均实现一次性成功点亮。

另一位联席CEO王湛,是百度创始团队成员、原集团副总裁,曾带领百度搜索8000人团队,有丰富的产品化经验及商业化的操盘经验,2025年初加入了曦望,负责产品化及商业化,同时牵头打造更有战斗力的组织文化。

国产推理GPU问世!首用LPDDR6,性价比飙10倍

过去一年,曦望累计完成了约30亿元战略融资,股东既有商汤、三一、杭州数据集团、范式、正大等行业龙头,又有多家国资平台及顶尖风投机构。

2025年,曦望推理GPU芯片交付量已突破1万片,收入大幅增长,拿下多个头部客户的订单。

国产推理GPU问世!首用LPDDR6,性价比飙10倍

“我们拒绝做跑分党,不希望用benchmark来定义芯片,而是希望能够做到帮客户赚钱的算力。”王勇说。

王勇谈道,曦望拥有全栈资源的GPGPU架构,覆盖从自研指令集、GPGPU IP、SoC到硬件系统,更早提出了用大容量DDR来替代HBM、用高性价比的大模型推理芯片来替代训推一体芯片的概念,在战略上率先All in推理GPU市场。

其团队从2018年开始研发第一代启望S1视觉推理芯片,2020年实现上万片量产。S1已实现IP授权给索尼小米,分别用在索尼AI摄像头及小米手机上。

国产推理GPU问世!首用LPDDR6,性价比飙10倍

2020年,曦望开始打造高性能GPGPU芯片启望S2,对标当时的国际巨头旗舰GPU。S2在2021年流片,在2023年实现产品化,在DeepSeek满血版适配上达到了国际巨头80%的推理性能,在国内处于第一梯队。

国产推理GPU问世!首用LPDDR6,性价比飙10倍

同时,曦望在软件栈上做到了95%的CUDA兼容,基本上能做到客户的推理业务无缝迁移。

据王勇透露,曦望已积累很多典型客户,比如适配了商汤全系列小浣熊模型,与中国电子旗下长城集团一起打造了基于国产CPU+GPU的国产信创一体机,与范式、星凡星启、玄武智能一起拓展更多的GPU垂直应用等。

国产推理GPU问世!首用LPDDR6,性价比飙10倍

二、启望S3:支持FP4、采用LPDDR6,单位token推理成本减少90%

徐冰说,为实现极致的成本效益,曦望抛弃了传统训推一体GPU为训练准备的冗余设计,不追求峰值TFLOPS这种纸面数据,把真实业务场景中每个token的成本、能耗以及SLA稳定性作为所有设计决策的根本出发点。

他强调,这三大指标直接决定了最终的业务毛利率,直接影响了终端客户群体的用户体验。

据王勇分享,曦望S3针对大模型做了极致的性能优化,取得了10倍以上的推理性价比提升,力争在这一代产品的整个生命周期里形成百亿级收入

S3是一款面向大模型推理深度定制的GPGPU芯片。其单芯片推理性能提升5倍,支持从FP16FP8FP6FP4等多精度灵活切换,释放低精度推理效率,这种设计更贴合当前MoE和长上下文模型在推理阶段的需求。

国产推理GPU问世!首用LPDDR6,性价比飙10倍

其核心研发特点包括:

1、追求极致PPA。在架构上,扬弃了一些训练相关的贵组件,采用了一些较新的、针对推理极致优化的架构和技术组件;在IP上,跟进最新GPU IP架构,选用国际巨头最先进的第三方高速接口IP。

2、采用目前合规的、最先进的国际工艺节点。

3、国内首款采用LPDDR6的GPGPU推理芯片。曦望团队做了很多架构研究,发现LPDDR6才是当前推理的最优解,相比LPDDR5带宽提升1倍以上、容量大幅提升,致使启望S3显存容量较上一代训推一体芯片提升4倍

国产推理GPU问世!首用LPDDR6,性价比飙10倍

除了算力和访存之外,曦望研究了大模型的本身特点,发现大模型有一个黄金的算力访存比,并在启望S3上遵循这一原则,达到算力访存比的“甜点”,不浪费一分算力和带宽。

在DeepSeek V3/R1满血版等主流大模型推理场景中,S3的单位token推理成本较上一代产品下降约90%

三、寰宇SC3超节点方案:全液冷、256卡互联,支持模块化交付

围绕S3,曦望同步发布了面向大模型推理的寰望SC3超节点解决方案,同样追求极致性价比。

寰望SC3从一开始即面向千亿、万亿级参数多模态MoE推理的真实部署需求进行设计,支持单域256卡一级互联,可高效支撑PD分离架构与大EP(Expert Parallelism)规模化部署,显著提升推理阶段的系统利用率与稳定性,适配长上下文、多并发、多专家并行等复杂推理场景。

交付形态上,寰望SC3采用全液冷设计,具备极致PUE表现,支持模块化交付与快速部署。

在大EP部署的情况下,其吞吐率相比非大EP部署可提高20~25倍,能取得非常好的推理效果。

王勇称,在同等推理能力量级下,该方案可将整体系统交付成本从行业常见的亿元级降低至千万元级,实现1个数量级的下降

曦望也在卡间互联上做了较多工作,可做到16到256卡的超节点产品,将多个超节点通过直出的RDMA连接时,还能构建千卡甚至几千卡的互联集群。

软件方面,曦望构建了与CUDA兼容的基础软件体系,覆盖驱动、运行时API、开发工具链、算子库和通信库,降低推理应用的迁移门槛。

国产推理GPU问世!首用LPDDR6,性价比飙10倍

该体系适配DeepSeek、通义千问、商汤日日新、腾讯混元3D等国内外百余种大模型,已适配ModelScope平台90%以上主流大模型形态。

国产推理GPU问世!首用LPDDR6,性价比飙10倍

四、推理云平台:与合作伙伴共建,迈向“百万token一分钱”

曦望围绕芯片+系统+生态来做整体布局,一方面提供推理GPU卡标准的一体化的服务器,整机、集群方案,另一方面与商汤、范式等AI龙头,以及各类算力厂商和芯片厂商深度合作,打造推理加速专区,让推理服务可以长期、稳定、可持续。

现场,曦望与商汤、范式宣布启动共建“百万Token一分钱”合作,并与杭钢数字科技、浙江算力科技等本地算力平台联手,将推理基础设施铺到浙江,辐射全国。

国产推理GPU问世!首用LPDDR6,性价比飙10倍

与此同时,曦望与三一、协鑫、游族等十几家生态伙伴集中签约,曦望把极致推理真正嵌入到制造、能源、C端、机器人等具体场景。

国产推理GPU问世!首用LPDDR6,性价比飙10倍

后续,曦望还计划开启推理即服务的新模式。

曦望联席CEO王湛谈道,基于自研GPU和全栈优化,曦望打造了新一代AI原生智算平台

(1)软硬件深度协同:曦望GPU内核、通信库都是自研的,所以软硬件协同能实现物理级优化,可实现从底层芯片到上层平台的全栈优化。

曦望采用量化压缩技术,使其既保持高精度算力的质量,又能够利用到低精度算力的效能,在实测中,精度损失极小,性能提升250%以上。

国产推理GPU问世!首用LPDDR6,性价比飙10倍

(2)资源极致弹性:通过云化的方式,采用GPU池化、动态扩缩容、智能负载预测等技术,实现算力资源的池化与按需供给。

(3)开箱即用:提供集成的模型市场开发工具,大幅降低技术门槛。

(4)稳定可靠:平台由专业人员维护,提供大量工具,具备高可用、安全隔离和智能运维的能力,有状态遥测、健康度分析、自动部署、故障快速隔离4大特点。

国产推理GPU问世!首用LPDDR6,性价比飙10倍

基于该平台,曦望商业模式进一步升级,将与合作伙伴共建推理云平台,形成芯片和生态共建的双轮驱动,使客户能够享有一体化、高效益、零门槛的算力服务。

通过GPU池化与弹性调度,曦望将底层算力整合为统一的推理算力池,并以MaaS(Model as a Service)作为核心入口,使企业无需关注底层硬件配置与集群运维,即可按需调用大模型推理能力。

这一体系也成为“百万Token一分钱”推理成本合作的重要技术基础。

在圆桌对话环节,王勇补充说,曦望设定的“百万token一分钱”目标,将会在S3、S4及S5阶段中逐步达成。

另据炜烨智算董事长兼CEO周韡韡分享,炜烨智算参与了曦望与中交的蓝翼大模型的适配工作,经测算,目前曦望每百万token的价格约为人民币0.57元,已经非常有竞争力,相比之下市场上现有算力价格通常在人民币7~14元之间。

综上,曦望致力于提供高性价比、极致能效的绿色算力,其商业模式是芯片硬实力+云基建软实力,形成“token as a service”,既提供公共的token服务,又提供定制化的token服务,还有混合token服务,以满足不同客户需求。

结语:让算力用得上、用得好、用得起

会上,中国工程院院士、浙江大学信息学部主任吴汉明分享说,推理算力价值的实现离不开协同,需要芯片设计、系统集成、软件开发到产业应用的全链条协作。

徐冰认为,推理的战略价值,决定的是国家和企业在AI下半场的竞争力,谁掌握高效、可控、可持续的推理基础设施,谁就能主导AI的落地速度。

他谈道,曦望致力于做好三件事:让算力更便宜,让部署更简单,让生态更开放。在推理时代,曦望要做让算力变得便宜、稳定、随处可用的核心底座。

“我们坚信,随着AI推理红利全面释放,曦望一定能走出一条中国企业自主发展推理GPU的特色之路,真正实现国产AI芯片从跟跑到差异化领跑的关键跨越。”徐冰说。