刚刚，华为何庭波发表署名芯片论文，全文来了

芯东西（公众号：aichip001）
作者 | ZeR0
编辑 | 漠影

芯东西5月25日报道，今日，华为公司董事、半导体业务部总裁何庭波在中国科学院科技论文预发布平台上发表署名论文《多层电子系统的时间缩微理论（A Time Scaling Theory for Multi-Layer Electronic Systems）》。

该论文涉及了何庭波今日在国际电路系统研讨会ISCAS 2026上提出的指导半导体产业发展新原则“韬（τ）定律”的具体解读，并披露了华为麒麟芯片、昇腾芯片的部分路线图规划。

华为麒麟芯片SoC效率预计在3到5年内在典型使用下将提升1倍以上，AI硬件集成度预计到2035年将增长100倍以上，CPU性能核心频率的规划是：今年达3.1GHz，2027年达3.39GHz，2028年达3.71GHz，2029年突破4GHz。

刚刚，华为何庭波发表署名芯片论文，全文来了

▲华为麒麟CPU性能核心频率趋势（原表来自论文，芯东西制图）

昇腾AI芯片方面，2025年的昇腾910C、2026年的昇腾950以及随后的昇腾990将采用成熟技术的组合：Chiplet、2.5D扇出和通过微凸块及标准间距混合键合的3D堆叠。到2030年前后，昇腾990将把逻辑折叠引入AI芯片类别，从那时起3D折叠成为2035年前α的主要载体。沿此路径，到2035年其硬件集成度预计将增长100倍以上。

论文作者介绍显示，何庭波负责华为半导体业务，她带领的团队在2020年至2026年间设计并量产了381款芯片，涉及移动、人工智能（AI）、汽车和基础设施市场，并且是本文中描述的τ缩微方法和逻辑折叠（LogicFolding）、统一总线（UnifiedBus）和Hi-ONE光学I/O技术的来源。

何庭波在今天演讲中剧透道，华为将在2026年秋季面世的麒麟芯片，性能大幅提升；预计到2031年，基于τ定律的高端芯片晶体管密度将达到1.4nm制程的同等水平。

何庭波论文全文翻译如下：

摘要：

60年来，摩尔定律的几何缩微驱动着半导体产业的进步。这一产业契约已不再成立：纯粹的尺寸缩微所带来的回报已经趋于平缓，前沿芯片设计预算已超过十亿美元，最先进制程节点的每晶体管成本不再下降。

本文提出一种后继的缩微原则——τ缩微——以时间本身而非晶体管面积作为衡量进步的首要指标，将单一的特征时间常数τ作为横跨12个数量级（从晶体管的开关切换到数据中心工作负载）的统一优化目标。文中展示了两项量产级验证。

在移动SoC上，逻辑折叠——一种将数字、模拟和存储电路分配到垂直堆叠有源层中的方法论——在固定工艺节点下实现了55%的晶体管密度阶跃提升和41%的功耗效率增益。

在AI系统上，由内存语义统一总线互连架构、近封装光学Hi-ONE以及边缘到表面的3D Folding协同设计的系统堆栈，预计到2035年硬件集成度将增长100倍以上。

更深层的主张是方法论层面的：τ缩微是自Dennard以来，第一个在整个计算堆栈中建立共享优化目标的缩微原则。

引言：

自1960年代中期以来，半导体产业一直以纳米为单位衡量进步。每十八个月，晶体管缩小，频率提升，每个逻辑门的成本下降。

摩尔定律既是经验观察，也帮助建立了支撑整个计算堆栈的产业契约。这一产业契约已不再成立。在7nm节点之后，几何缩微已无法带来其历史上的红利。

光刻设备正在接近图案化的物理极限，EUV设备折旧主导了晶圆成本，每晶体管价格曲线已趋于平缓——在某些情况下甚至出现了逆转。对于那些难以获取最先进光刻设备的机构而言，这一约束来得更早、影响也更为严峻。

因此，产业面临的核心问题已经改变。它不再是“晶体管还能缩小多少？”而是“应该缩小什么，以及针对什么目标？”

在过去六年中，本文作者所在的华为半导体团队在移动SoC、AI加速器、系统互连架构和封装领域以硅片为实证对这一问题进行了深入研究。结论是：答案不在于另一个制程节点，也不在于另一种晶体管架构，而在于改变首要优化目标本身。

本文主张，未来十年电子系统的演进应由时间缩微（time scaling）——即在堆栈每一层系统性地缩减单一特征时间常数τ，从皮秒级的晶体管切换到秒级的数据中心工作负载响应——来引导，而非几何缩微。

τ缩微的论据将在下文中以科学方法论和产业路线图两个维度展开，其经验基础来自2020年5月至2026年5月期间量产的381款芯片。

一、几何时代的终结

在其大部分历史中，半导体产业只有一件事要做：把晶体管做得更小。戈登·摩尔（Gordon Moore）在1965年的观察——晶体管密度大约每两年翻一番——在十年后由罗伯特·登纳德（Robert Dennard）的缩微理论所补充，后者确立了电压和尺寸的等比缩小可以维持恒定电场。

几何缩微与Dennard缩微共同在近五十年间带来了性能功耗比和性能成本比的指数级提升。

这一格局分两个阶段瓦解。约2005年，Dennard缩微率先失效：电压不再随特征尺寸等比缩小，暗硅（dark silicon）时代开始。几何缩微持续了更长时间，依靠FinFET以及随后的全环栅极（GAA）器件架构得以延续。

然而，在7nm之后，纯尺寸缩微的回报已经趋于平缓。原因已有充分记录：速度饱和效应使本征延迟对沟道长度的依赖从二次方降为线性；局部互连的寄生电阻和电容日益主导标准单元的延迟预算；掩模成本、EUV折旧和设计规则复杂性已将2nm节点的前沿芯片设计预算推至超过十亿美元。

经济后果同样不可回避。在先进节点上，每晶体管成本已趋于平缓，而在最前沿，成本正在上升。过去五十年所依赖的产业契约——每一代以更低成本获得更多晶体管——已不再成立。

对于华为半导体而言，这一转变伴随着一个额外的约束：获取最先进光刻设备的渠道受限。假定另一个制程节点能解决问题已不再可行。

六年前，几何路线图遭遇了瓶颈，迫使我们直面一个更根本的问题——回顾来看，这是整个行业终将不得不面对的问题。

二、时间，而非空间：摩尔时代的真正货币

如果还原到对终端用户的本质影响，摩尔定律从根本上从来不关乎几何尺寸。更小的晶体管之所以能提升系统性能，是因为它们切换更快。更密集的互连之所以能提升性能，是因为信号传输距离更短。更高的集成度之所以能提升性能，是因为数据跨越的边界更少。

每一代技术本质上带来的是时间的缩减——在器件层面从皮秒到纳秒，在芯片层面从纳秒到微秒，在系统层面从微秒到秒。空间缩微不过是压缩时间的工具。

一旦认识到这一点，一个显而易见的重新框定便呈现出来。

时间本身应被采纳为首要指标。在堆栈的每一层——晶体管、电路、芯片和系统——都可以定义一个特征时间常数τ，并将其缩减作为统一优化目标。几何缩微由此成为缩减τ的众多技术手段之一，而不再是唯一的手段。

这一原则被称为τ缩微，在此作为几何摩尔缩微的后继者提出，以引导半导体演进。形式上，τ被视为一个分层构造，可以分解为：

τ = f(τ_transistor, τ_circuit, τ_chip, τ_system)

其中，τ_transistor、τ_circuit、τ_chip和τ_system分别代表晶体管、电路、芯片和系统层的时间常数。每一层的τ由其下层的τ以及该层引入的组织和通信开销共同构成。τ的工作空间跨越约十二个数量级的时间（皮秒到秒）以及相当范围的空间（纳米到千米）。

在每一层，都有不同的机制可用于缩减τ：

（1）晶体管层：本征开关延迟，通过迁移率增强、应变工程、高κ/金属栅极和GAA架构来解决，并且越来越多地通过降低局部互连的寄生R和C来解决——后者目前已超过本征渡越时间数倍。

（2）电路层：信号路径上的RC传播延迟，通过更低电阻率的导体、低κ介质来解决，而最具影响力的手段是通过垂直集成缩短布线长度。

（3）芯片层：计算和存储访问延迟，通过架构选择、流水线深度、存储层次结构和片上互连架构来解决。

（4）系统层：端到端消息传递和同步时间，通过互连拓扑、协议栈和互连架构设计来解决。

从这一分层公式中得出一条有用的代际规则：

τ_(n+1) = τ_n / α

其中缩微因子α是应用特定的，而非通用的。迄今的量产经验表明，功耗受限的移动设备α约为每年1.3倍，安全关键的自动驾驶系统α约为每年1.5倍，AI工作负载则可达每年10倍——在后者中，吞吐量直接转化为经济价值。

使τ成为一个有用的首要指标——而非既有指标的换标——的关键在于，它是跨越整个堆栈的同一个指标。频率、延迟、带宽和吞吐量在各自层面都受τ支配。工艺技术人员、电路设计师和系统架构师可以用相同的单位讨论同一个量。

τ是使端到端堆栈协同优化成为可能的语言——而各层独立优化、时序只是残差的时代已经结束。

三、逻辑折叠：一个移动SoC验证点

τ缩微的首个量产级验证在移动领域完成。智能手机SoC是一种特殊情况，一颗芯片即构成整个系统。多插槽并行不可用；没有千节点互连架构可以掩盖慢速链路。用户感受到的所有性能都来自单颗芯片，在几瓦的功耗包络下，受限于手持设备形态的热设计约束。

2020年之后，当通往前沿制程节点的路径受限时，面临的实际问题变成了：在固定的制程节点上，如何在单颗芯片上持续交付代际性能提升？

由此诞生的答案被称为逻辑折叠（LogicFolding）。

定义。逻辑折叠是一种设计方法论，将数字、模拟和存储电路分配到垂直堆叠的有源层中，遵循时间缩微原则联合优化性能、功耗和面积。

数字电路分为组合逻辑——寄存器之间的布尔网络——和时序逻辑——保持状态的触发器。数字系统的性能上限由相邻触发器级之间的关键路径延迟决定，而后者主要由该路径上的互连RC和门数主导。

传统优化将门放置在一个平面上，并通过上方的金属层布线；布线越长，寄生RC越大，关键路径越慢。

逻辑折叠摒弃了平面假设。关键路径上的门分布在两个（并最终更多个）垂直堆叠的有源层上，通过超细间距混合键合连接。

从电路设计师的角度来看，两个有源层表现为单一的连续布局基底，单元跨晶圆边界分布，如同那是一个额外的金属层。信号布线大幅缩短，寄生RC急剧降低，时钟偏斜收紧，芯片在相同的器件节点下以更高的时钟频率运行。

为使逻辑折叠充分发挥这些增益，保持混合键合间距与顶层金属间距之间的齿轮比（gear ratio）较低是有利的——实践中大致低于3，更低的比率通常更好。

以目前约720nm的顶层金属间距计算，这意味着混合键合间距需低于2μm——理想情况下齿轮比约为1，此时键合界面处的鸟笼式布线开销实际上消失。

实现这一间距，以及所需的对准精度（<0.5μm）、TSV缩微（CD和KOZ低于1.5μm，间距低于6μm）和良率（通过智能冗余接近100%），需要在供应商和合作伙伴生态系统中开展多年的工艺开发工作。

在麒麟2026（Kirin 2026）上测量的结果是具体的：

晶体管密度在单代之内从155MTr/mm²阶跃提升至238MTr/mm²（晶体管密度按公式2/(CELL*cell height)计算；麒麟SoC设计的面积利用率为68%）——这一提升幅度此前需要三年的几何缩微才能实现。
SoC性能核功耗效率提升41%，最大时钟频率提升近13%。
一条跨上下两层有源层构建的高速全局片上网络（Network-on-Chip）数据路径，将数据通路面积缩减55%，同时改善了供电稳定性。
一种后硅时钟偏斜调整方案独立贡献了超过5%的SoC性能提升。
在SRAM上——其访问速度、每比特能耗和面积强烈依赖于位线和字线长度——逻辑折叠缩短了关键路径，降低了每比特能耗，并将工作频率提升了40%以上。
在一个代表性处理器核心上，双层折叠架构将时钟缓冲器数量减少了50%以上，时钟偏斜降低了25%，布线长度缩短了约30%。

这些增益是在固定的器件节点上实现的，不是通过新的光刻步骤，而是通过逻辑在三维空间分布的拓扑重组。

麒麟2026中搭载的逻辑折叠实现有意采取了保守策略。混合键合间距达到1.5μm；TSV着陆仅在顶层金属下方推进了一步；折叠仅选择性地应用于关键路径，而非整个设计。即便如此，CPU性能核心频率今年回到了3.1GHz。

未来十年，逻辑折叠预计将从局部关键路径折叠演进到全面、多层折叠——每个封装三层、四层乃至更多有源层——这得益于更低温度的混合键合（放宽跨层热预算）以及TSV着陆从顶层金属向下迁移至M6，后者将释放超过30%的高层布线资源。从2026年到2035年，晶体管密度预计将朝400MTr/mm²及以上迈进。

与此同时，逻辑折叠使麒麟得以大幅提升CPU核心频率，并为迈向4GHz及以上铺平道路（见下表）。这一路线图可行，且在成本上具备经济可行性。

刚刚，华为何庭波发表署名芯片论文，全文来了

▲华为麒麟CPU性能核心频率趋势（原表来自论文，芯东西制图）

附栏A——逻辑折叠概览

混合键合间距：低于2μm（麒麟2026中为1.5μm；目标齿轮比≈1）
对准精度：低于0.5μm
TSV CD/KOZ：低于1.5μm；间距低于6μm；失效率<100ppm；修复率99.9%
良率：通过智能冗余接近100%
晶体管密度：155 → 238 MTr/mm²，单步实现
功耗效率/频率增益（SoC性能核心）：+41% / +13%
SRAM工作频率：提升40%以上
代表性核心的时钟缓冲器数量/时钟偏斜/布线长度：-50% / -25% / -30%

四、从皮秒到微秒：AI数据中心的τ缩微

一个自然的问题是，在毫瓦级智能手机体制下发展起来的原则，是否能存活地转化到AI训练和推理的吉瓦级体制中。AI工作负载处于τ光谱的另一端：不是单颗芯片，而是数百甚至数千颗芯片如同一台机器运行，在过去十年中总计算量增长了约六个数量级。

答案是肯定的——前提是τ被视为系统级目标，并贯穿整个链路，而非局限于单个加速器内部。

两个事实塑造了τ论证的AI侧面。

首先，AI系统在持续增长——从一颗芯片，到数十颗，到数百颗，再到越来越多的数万颗。

其次，现代AI系统的能源预算和材料预算由数据而非计算主导。大型AI集群中超过80%的能源被数据移动消耗；超过70%的系统成本分配给数据存储。

直接的含义是：缩减数据在传输中花费的时间——在芯片之间、机架之间和封装内部——至少与缩减计算所用时间同等重要。

τ缩微在AI规模上通过三个协调层来实现：系统互连架构（Unified Bus）、近封装光学引擎（Hi-ONE）以及封装本身的拓扑重组（3D Folding）。

4.1 Unified Bus——τ优先的系统互连架构

传统的多节点、多加速器架构通过多层堆叠协议移动数据：PCIe连接主机、NVLink或专有互连架构连接机箱内部、以太网或InfiniBand连接机箱之间，以及上层的软件栈远程内存访问。每一层都需要协议转换、额外的序列化、额外的DMA缓冲区和进一步的握手。每次转换都增加延迟、降低可靠性并产生额外成本。

Unified Bus（UB）以单一协议取代了这一堆栈——一种在机箱内部和机箱之间运行的全对等互连架构，在整个系统中原生暴露内存语义。数据移动被简化为无需转换的、对等的内存语义层传输，以硬件管理的一致性取代软件栈的消息传递。

测量到的收益约为两个数量级：端到端远程访问延迟从TCP/IP类堆栈典型的数十微秒降至约100ns——沿主要通信轴实现了约500倍的系统τ缩减。在机架规模上，这使系统渐近地接近于一台单一的、互连架构一致的机器——内部称为System-as-One-Chip（系统即单芯片）。

4.2 Hi-ONE——封装级光学I/O

一旦通信延迟被降低，下一个瓶颈便随之转移。在单个机架内增加芯片密度将功率密度和可靠性推至极限——也将电气SerDes推至极限。在每颗AI芯片400Gb/s时，铜缆布线仍然成熟可靠。但在每颗芯片多Tb/s时，铜缆变得不切实际：SerDes传输距离受限，布缆变得体积过大，面板安装变得不可行，热和供电裕度被耗尽。

华为半导体开发的方案是高密度光互连节点引擎Hi-ONE（High-density Optical-interconnect-Node Engine）——一种近封装光学引擎，每模块提供8Tb/s的带宽，在单根光链路上匹配一颗AI芯片的UB带宽。它将所需的SerDes传输距离从约100厘米缩短至约5厘米，消除了笨重的布缆，并将传输距离从不到1米扩展至100米——使分布式、吉瓦级数据中心的高密度互连在物理上成为可能。

Hi-ONE的设计哲学本身就是一个τ缩微论证。Hi-ONE并未采用重型DSP来实现高信号保真度，而是采用了线性方案——模拟均衡增强的驱动器和跨阻放大器——并允许UB协议容忍一个有意放宽的误码率。

协议层和物理层之间的这种跨层权衡降低了功耗、成本和集成复杂度，体现了τ优先方法论所鼓励的跨层优化。

4.3 N²与N的困境，以及为何3D Folding不可避免

AI加速器不会止步于2.5D扇出封装的最深层原因是几何性的，值得明确阐述，因为它决定了2030年后的路线图。

在传统的2.5D AI芯片中，逻辑裸片占据封装中心，HBM堆叠和SerDes排列在其边缘，电压调节器围绕封装。每条存储信号、每条互连信号以及每安培的供电电流都必须经过裸片边缘才能到达内部的计算资源。

如果裸片的边长为N，则：

计算能力按N²（面积）缩微，
但存储带宽、互连和供电——所有通过2.5D扇出沿边缘传输——仅按N（周长）缩微。

这条二次曲线与线性曲线之间不断加大的差距构成了扇出困境（fan-out dilemma），它解释了2.5D缩微的停滞，且与底层逻辑节点多么激进无关。没有任何晶体管级改进能弥补拓扑缺陷。

3D折叠（3D Folding）通过将边缘绑定的资源重新布局到表面上来解决这一困境。供电（通过背面供电和集成电压调节器）、高速存储（通过混合键合连接逻辑）和光学I/O（通过近封装Hi-ONE）全部从周长迁移到垂直表面——一旦位于表面，它们便按N²缩微，与计算的二次增长步调一致。封装不再是由存储和SerDes周长带围绕的逻辑裸片；它成为一个垂直集成堆叠，其中存储、互连架构、供电和逻辑共同缩微。

路线图将这一演进置于明确的时间线上。

大约到2030年，AI加速器（昇腾SuperPoD产品线——2025年的昇腾910C、2026年的昇腾950，以及随后的990）依靠成熟技术的组合：Chiplet、2.5D扇出和通过微凸块及标准间距混合键合的3D堆叠。

2030年前后，昇腾990将把逻辑折叠引入AI芯片类别，从那时起3D折叠成为2035年前α的主要载体。

沿此路径，到2035年硬件集成度预计将增长100倍以上，τ缩微分布在堆栈的每一层，而非集中在器件层面。

附栏B——AI系统规模上的τ

UB远程访问延迟：约数十μs → 约100ns（≈500倍τ缩减）
Hi-ONE每模块带宽：8Tb/s（匹配每芯片UB带宽）
Hi-ONE SerDes传输距离：约100cm → 约5cm；面板间传输距离：<1m → 100m
扇出困境：计算 ∝ N²，周长绑定的带宽/I/O/供电 ∝ N
3D折叠：将带宽、光学I/O和供电从边缘重新布局到表面，恢复N²对等
2026 → 2035年预计硬件集成度增长：>100倍

五、逻辑与存储：从解耦到再融合

τ缩微的一个含义值得单独讨论，因为其后果既是技术性的，也是产业性的。

在8086时代，行业通过标准化的存储总线有意将处理器和存储解耦。这种解耦使两个行业得以独立缩微：处理器性能沿摩尔曲线快速推进，而存储厂商则在其旁发展出一个巨大的独立市场。

AI时代正在逆转这种解耦。计算密度的持续扩大正在将存储带宽、延迟、功耗和封装推至其极限。HBM、混合键合和3D堆叠SRAM是一个单一底层事实的症状：对于现代AI工作负载，数据移动与计算本身同样关键，逻辑和存储正再次被推向紧密的物理集成。随着它们的融合，供应链中的影响力天平正在向存储和封装厂商倾斜。

技术方向是明确的，但经济上的解决方案尚未落定。

AI硬件时代的持久成功将属于那些能够在技术上融合逻辑与存储，并建立一种经济伙伴关系——使两个行业在长期内共享融合收益的企业。

这不仅仅是一个研究问题；这是行业在未来十年需要解决的结构性问题。通过使每一层分离的跨层成本变得可见，τ缩微确保了这一问题不能被推迟。

六、开放性挑战

将τ缩微呈现为一个完成的体系是有误导性的。若干实质性问题仍然悬而未决，在此一并指出，既为突出正在进行的工作，也为邀请合作。

工具链与方法论。当今的EDA是为一个面积、时序和功耗沿三个独立轴优化、系统τ仅作为残差出现的时代而开发的。

全面的逻辑折叠要求工具链将多个堆叠裸片视为单一的连续设计实体——以单元粒度而非模块粒度进行逻辑分割，在统一的成本函数下跨整个体积进行布局，并在裸片间路径上执行时序收敛，而在这些路径中，垂直互连寄生参数、KOZ排斥区和晶圆间工艺偏差以传统2D训练的工具无法充分应对的方式相互作用。

初步的内部工具已经开发并产出了有用的结果，方法论细节将在未来数月发布。一条τ原生的工具链——开放的、多物理场的、3D原生的——是未来十年最重要的赋能投资。

晶圆间工艺偏差。LogicFolding键合来自可能不同批次——在某些情况下甚至不同节点——的晶圆。Vth、驱动电流和互连RC的晶圆间偏差远大于晶圆内偏差，且最严重地影响时钟分配和保持时间裕度。智能冗余、自适应补偿和τ感知的签核流程是应对这一挑战的必要组成部分。

垂直互连开销。每个混合键合和每个TSV都会产生有限的电阻和电容惩罚，而TSV的KOZ会排斥标准单元。因此，LogicFolding必须通过以下简单不等式逐层证明其合理性：

τ_Before (existing signal + wire length reduction) > τ_After (vertical interconnect RC)

对于移动端的关键路径和存储，这一阈值已经被跨越；该阈值与工作负载相关，且随着键合间距的缩小，边界将持续移动。

能量。τ是时间法则，不是焦耳法则。一个运行速度快10倍但功耗也高10倍的超级节点不违反任何缩微原则，却超出了电网容量。

因此，τ缩微需要一个能量伴侣：消除堆栈开销的内存语义互连架构、将每比特皮焦耗能降低数个数量级的近封装/共封装光学器件、背面供电、存内/近存计算，以及将τ裕度换回功耗的审慎实践（数据中心规模的DVFS——与实现智能手机电池续航的机制相同）。

重要的是，τ裕度本身在朝该方向分配时就提供了能量裕度。

基准测试。行业当前的性能基准——Linpack、MLPerf、SPEC——是为每个工作负载一个标量即可满足需求的时代设计的。τ缩微的行业需要τ剖面基准——暴露系统每一层的主导τ以及该层剩余裕度的向量。主导τ层，根据定义，就是下一个投资方向。

七、六年回顾，十年展望

2020年5月至2026年5月期间，华为半导体设计并量产了381颗芯片，服务于移动、AI、汽车、工业和基础设施市场。在整个产品组合中，τ缩微论点经受住了考验：

在器件和电路层，晶体管密度已从155向400+ MTr/mm²（到2031年）提升。
在芯片层，LogicFolding在前沿移动SoC上已经证明，关键路径频率、功耗效率和密度可以在固定的器件节点上持续提升。
在系统层，Unified Bus和Hi-ONE已经证明，数百微秒的通信τ可以被压缩至数百纳秒，多机架AI集群可以表现为单一的一致性机器。

展望未来，CPU性能核心频率预计到2029年将迈向4GHz及以上，麒麟SoC效率预计在三到五年内在典型使用下将提升1倍以上，AI硬件集成度预计到2035年将增长100倍以上。

超越任何单一产品的更深层主张是方法论层面的。τ缩微是自Dennard以来第一个为整个堆栈提供共享优化目标的缩微原则。

它向工艺技术人员、电路设计师、架构师、系统工程师和软件团队发出信号：这些群体现在正在以相同的单位优化相同的量，任何单层的改进必须传导至系统τ才算有效。

它也向行业战略家和资本配置者表明，下一笔投资应跟随τ而非节点——竞争性的性能不再要求常驻在光刻技术的最前沿，而封装、存储带宽和互连架构设计现在承载着此前仅由前沿逻辑节点所拥有的战略权重。

对于在成长过程中将“摩尔定律”等同于“进步”的一代工程师而言，这是一个困难的转变。

几何时代事实上已经结束；否认这一事实不是可行的策略。通过缩微实现加速的时代正在让位于通过多层电子系统的τ优化实现加速的时代——而在未来六到十年中以τ为首要目标的公司、研究团体和生态系统，将决定此后十年计算的面貌。

未来十年的工作范围已经划定。许多开放问题仍然存在，没有任何单一组织可以独自解决——工具链、标准、基准、器件物理和经济模型都需要超越任何单一公司的贡献。

因此，本文既是一份来自前线的报告，也是一份邀请。

前方的路线图要求苛刻，但方向是明确的。

致谢

本文汲取了华为半导体及其晶圆代工、设备、EDA和系统合作伙伴生态系统中数千名工程师六年工作的成果。作者感谢那些以耐心使这项工作成为可能的客户。

延伸阅读

1. G. E. Moore, “Cramming more components onto integrated circuits,” Electronics, vol. 38, no. 8, pp. 114–117, Apr. 1965 (reprinted in Proc. IEEE, vol. 86, no. 1, Jan. 1998).

2. R. H. Dennard et al., “Design of ion-implanted MOSFETs with very small physical dimensions,” IEEE J. Solid-State Circuits, vol. 9, no. 5, pp. 256–268, 1974.

3. J. L. Hennessy and D. A. Patterson, “A new golden age for computer architecture,” Commun. ACM, vol. 62, no. 2, pp. 48–60, Feb. 2019.

4. M. Horowitz, “Computing’s energy problem (and what we can do about it),” ISSCC Dig. Tech. Papers, pp. 10–14, Feb. 2014.

5. International Roadmap for Devices and Systems (IRDS) — Interconnect and More-than-Moore chapters, 2023/2024 update.

6. P. Batude et al., “3D sequential integration: a key enabling technology for heterogeneous co-integration of new functions with CMOS,” IEEE J. Electron Devices Soc., vol. 3, no. 3, pp. 205–216, 2015.

一、几何时代的终结

二、时间，而非空间：摩尔时代的真正货币

三、逻辑折叠：一个移动SoC验证点

四、从皮秒到微秒：AI数据中心的τ缩微

五、逻辑与存储：从解耦到再融合

六、开放性挑战

七、六年回顾，十年展望

相关推荐