国产推理GPU问世！首用LPDDR6，性价比飙10倍

芯东西（公众号：aichip001）
作者 | ZeR0
编辑 | 漠影

芯东西1月28日报道，1月27日，浙江杭州GPU创企曦望（Sunrise）披露未来三年产品路线图，发布新一代推理GPU芯片启望S3，并推出面向大模型推理的寰望SC3超节点方案及推理云计划。

启望S3支持从FP16到FP4的多精度灵活切换，是国内首款采用LPDDR6显存方案的GPGPU芯片，号称取得了相比上一代“10倍以上”的推理性价比提升。

根据曦望“量产一代、发布一代、预研一代”的节奏规划，高性价比推理GPU芯片启望S3今年上市，高性能推理GPU芯片启望S4将于2027年上市，安全可控推理GPU芯片启望S5将于2028年上市。

过去8年，曦望研发投入累计达20亿元，成功量产了S1和S2，今天发布S3，目标将中国的推理成本拉到“百万token一分钱”的新水平。

除了启望S3芯片及超节点产品之外，S3的产品矩阵还包括智望系列PCIe计算卡和OAM计算模块、辰望系列PCIe服务器以及OAM服务器、寰望系列AI计算集群、熙望系列AI PC或AI液冷工作站。

一、脱胎商汤大芯片部门，IP授权索尼小米，去年完成约30亿元战略融资

曦望成立于2020年5月，前身是商汤科技大芯片部门，团队超过300人，主要来自英伟达、AMD、昆仑芯、商汤等企业，核心技术骨干平均有15年的行业经验。

“我们是一家更懂AI的GPU芯片公司，而且是国内第一家All in推理的GPU芯片公司。”曦望董事长徐冰说。

曦望的使命是把大模型推理做到极致，要让AI推理真正变得便宜稳定，而且随处可用。

负责研发的曦望联席CEO王勇，是前AMD、昆仑芯的核心架构师，有20年芯片研发经验。2020年加入商汤后，他带领百人团队主导了曦望两代芯片的研发和量产，均实现一次性成功点亮。

另一位联席CEO王湛，是百度创始团队成员、原集团副总裁，曾带领百度搜索8000人团队，有丰富的产品化经验及商业化的操盘经验，2025年初加入了曦望，负责产品化及商业化，同时牵头打造更有战斗力的组织文化。

过去一年，曦望累计完成了约30亿元战略融资，股东既有商汤、三一、杭州数据集团、范式、正大等行业龙头，又有多家国资平台及顶尖风投机构。

2025年，曦望推理GPU芯片交付量已突破1万片，收入大幅增长，拿下多个头部客户的订单。

“我们拒绝做跑分党，不希望用benchmark来定义芯片，而是希望能够做到帮客户赚钱的算力。”王勇说。

王勇谈道，曦望拥有全栈资源的GPGPU架构，覆盖从自研指令集、GPGPU IP、SoC到硬件系统，更早提出了用大容量DDR来替代HBM、用高性价比的大模型推理芯片来替代训推一体芯片的概念，在战略上率先All in推理GPU市场。

其团队从2018年开始研发第一代启望S1视觉推理芯片，2020年实现上万片量产。S1已实现IP授权给索尼和小米，分别用在索尼AI摄像头及小米手机上。

2020年，曦望开始打造高性能GPGPU芯片启望S2，对标当时的国际巨头旗舰GPU。S2在2021年流片，在2023年实现产品化，在DeepSeek满血版适配上达到了国际巨头80%的推理性能，在国内处于第一梯队。

同时，曦望在软件栈上做到了95%的CUDA兼容，基本上能做到客户的推理业务无缝迁移。

据王勇透露，曦望已积累很多典型客户，比如适配了商汤全系列小浣熊模型，与中国电子旗下长城集团一起打造了基于国产CPU+GPU的国产信创一体机，与范式、星凡星启、玄武智能一起拓展更多的GPU垂直应用等。

二、启望S3：支持FP4、采用LPDDR6，单位token推理成本减少90%

徐冰说，为实现极致的成本效益，曦望抛弃了传统训推一体GPU为训练准备的冗余设计，不追求峰值TFLOPS这种纸面数据，把真实业务场景中每个token的成本、能耗以及SLA稳定性作为所有设计决策的根本出发点。

他强调，这三大指标直接决定了最终的业务毛利率，直接影响了终端客户群体的用户体验。

据王勇分享，曦望S3针对大模型做了极致的性能优化，取得了10倍以上的推理性价比提升，力争在这一代产品的整个生命周期里形成百亿级收入。

S3是一款面向大模型推理深度定制的GPGPU芯片。其单芯片推理性能提升5倍，支持从FP16到FP8、FP6、FP4等多精度灵活切换，释放低精度推理效率，这种设计更贴合当前MoE和长上下文模型在推理阶段的需求。

其核心研发特点包括：

1、追求极致PPA。在架构上，扬弃了一些训练相关的贵重组件，采用了一些较新的、针对推理极致优化的架构和技术组件；在IP上，跟进最新GPU IP架构，选用国际巨头最先进的第三方高速接口IP。

2、采用目前合规的、最先进的国际工艺节点。

3、国内首款采用LPDDR6的GPGPU推理芯片。曦望团队做了很多架构研究，发现LPDDR6才是当前推理的最优解，相比LPDDR5带宽提升1倍以上、容量大幅提升，致使启望S3显存容量较上一代训推一体芯片提升4倍。

除了算力和访存之外，曦望研究了大模型的本身特点，发现大模型有一个黄金的算力访存比，并在启望S3上遵循这一原则，达到算力访存比的“甜点”，不浪费一分算力和带宽。

在DeepSeek V3/R1满血版等主流大模型推理场景中，S3的单位token推理成本较上一代产品下降约90%。

三、寰宇SC3超节点方案：全液冷、256卡互联，支持模块化交付

围绕S3，曦望同步发布了面向大模型推理的寰望SC3超节点解决方案，同样追求极致性价比。

寰望SC3从一开始即面向千亿、万亿级参数多模态MoE推理的真实部署需求进行设计，支持单域256卡一级互联，可高效支撑PD分离架构与大EP（Expert Parallelism）规模化部署，显著提升推理阶段的系统利用率与稳定性，适配长上下文、多并发、多专家并行等复杂推理场景。

交付形态上，寰望SC3采用全液冷设计，具备极致PUE表现，支持模块化交付与快速部署。

在大EP部署的情况下，其吞吐率相比非大EP部署可提高20~25倍，能取得非常好的推理效果。

王勇称，在同等推理能力量级下，该方案可将整体系统交付成本从行业常见的亿元级降低至千万元级，实现1个数量级的下降。

曦望也在卡间互联上做了较多工作，可做到16到256卡的超节点产品，将多个超节点通过直出的RDMA连接时，还能构建千卡甚至几千卡的互联集群。

软件方面，曦望构建了与CUDA兼容的基础软件体系，覆盖驱动、运行时API、开发工具链、算子库和通信库，降低推理应用的迁移门槛。

该体系适配DeepSeek、通义千问、商汤日日新、腾讯混元3D等国内外百余种大模型，已适配ModelScope平台90%以上主流大模型形态。

四、推理云平台：与合作伙伴共建，迈向“百万token一分钱”

曦望围绕芯片+系统+生态来做整体布局，一方面提供推理GPU卡标准的一体化的服务器，整机、集群方案，另一方面与商汤、范式等AI龙头，以及各类算力厂商和芯片厂商深度合作，打造推理加速专区，让推理服务可以长期、稳定、可持续。

现场，曦望与商汤、范式宣布启动共建“百万Token一分钱”合作，并与杭钢数字科技、浙江算力科技等本地算力平台联手，将推理基础设施铺到浙江，辐射全国。

与此同时，曦望与三一、协鑫、游族等十几家生态伙伴集中签约，曦望把极致推理真正嵌入到制造、能源、C端、机器人等具体场景。

后续，曦望还计划开启推理即服务的新模式。

曦望联席CEO王湛谈道，基于自研GPU和全栈优化，曦望打造了新一代AI原生智算平台。

（1）软硬件深度协同：曦望GPU内核、通信库都是自研的，所以软硬件协同能实现物理级优化，可实现从底层芯片到上层平台的全栈优化。

曦望采用量化压缩技术，使其既保持高精度算力的质量，又能够利用到低精度算力的效能，在实测中，精度损失极小，性能提升250%以上。

（2）资源极致弹性：通过云化的方式，采用GPU池化、动态扩缩容、智能负载预测等技术，实现算力资源的池化与按需供给。

（3）开箱即用：提供集成的模型市场开发工具，大幅降低技术门槛。

（4）稳定可靠：平台由专业人员维护，提供大量工具，具备高可用、安全隔离和智能运维的能力，有状态遥测、健康度分析、自动部署、故障快速隔离4大特点。

基于该平台，曦望商业模式进一步升级，将与合作伙伴共建推理云平台，形成芯片和生态共建的双轮驱动，使客户能够享有一体化、高效益、零门槛的算力服务。

通过GPU池化与弹性调度，曦望将底层算力整合为统一的推理算力池，并以MaaS（Model as a Service）作为核心入口，使企业无需关注底层硬件配置与集群运维，即可按需调用大模型推理能力。

这一体系也成为“百万Token一分钱”推理成本合作的重要技术基础。

在圆桌对话环节，王勇补充说，曦望设定的“百万token一分钱”目标，将会在S3、S4及S5阶段中逐步达成。

另据炜烨智算董事长兼CEO周韡韡分享，炜烨智算参与了曦望与中交的蓝翼大模型的适配工作，经测算，目前曦望每百万token的价格约为人民币0.57元，已经非常有竞争力，相比之下市场上现有算力价格通常在人民币7~14元之间。

综上，曦望致力于提供高性价比、极致能效的绿色算力，其商业模式是芯片硬实力+云基建软实力，形成“token as a service”，既提供公共的token服务，又提供定制化的token服务，还有混合token服务，以满足不同客户需求。

结语：让算力用得上、用得好、用得起

会上，中国工程院院士、浙江大学信息学部主任吴汉明分享说，推理算力价值的实现离不开协同，需要芯片设计、系统集成、软件开发到产业应用的全链条协作。

徐冰认为，推理的战略价值，决定的是国家和企业在AI下半场的竞争力，谁掌握高效、可控、可持续的推理基础设施，谁就能主导AI的落地速度。

他谈道，曦望致力于做好三件事：让算力更便宜，让部署更简单，让生态更开放。在推理时代，曦望要做让算力变得便宜、稳定、随处可用的核心底座。

“我们坚信，随着AI推理红利全面释放，曦望一定能走出一条中国企业自主发展推理GPU的特色之路，真正实现国产AI芯片从跟跑到差异化领跑的关键跨越。”徐冰说。

一、脱胎商汤大芯片部门，IP授权索尼小米，去年完成约30亿元战略融资

二、启望S3：支持FP4、采用LPDDR6，单位token推理成本减少90%

三、寰宇SC3超节点方案：全液冷、256卡互联，支持模块化交付

四、推理云平台：与合作伙伴共建，迈向“百万token一分钱”

结语：让算力用得上、用得好、用得起

相关推荐