芯东西(公众号:aichip001)
作者 | ZeR0
编辑 | 漠影
芯东西美国圣何塞3月19日现场报道,美国科技圈最瞩目的AI技术盛会英伟达(NVIDIA)GTC大会正在火热举行。今日,英伟达创始人兼CEO黄仁勋在GTC大会上与芯东西等全球媒体进行交流,回应中美摩擦对英伟达的影响、对中国GPU产品出口计划、Blackwell GPU的定价与销售策略、台积电CoWoS供需情况等20个关键问题。
▲黄仁勋微笑聆听记者提问(芯东西摄)
英伟达最新发布的旗舰AI芯片Blackwell GPU为双芯设计方案,而上一代H100、H200是单芯片方案,在定价上不好做出直接的对比。黄仁勋强调说,不同系统会存在价格差异,相比只卖芯片,英伟达盯上的是整个数据中心的生意。
此外,据黄仁勋透露,在HBM3E竞争中严重掉队的三星已搭上英伟达这辆豪华巨轮——英伟达正在测试三星HBM,并宣布将使用它。
这两天,GTC大会肉眼可见地人气爆棚,圣何塞会议中心周围四处飘扬着英伟达GTC大会的道旗广告,街上到处都是佩带标志性英伟达绿badge的参会者。还有一些英伟达合作伙伴们花式助阵,比如宇树科技派出机器狗阵队,当街调戏美国本土狗;WEKA别出心裁地在附近街边停靠了几辆吸睛的紫色汽车,汽车前盖上大字写着“现已获得NVIDIA DGX SuperPOD认证”。
▲GTC会场附近路边停靠着吸睛的紫色汽车及广告标语(芯东西摄)
除了英伟达新品,黄仁勋还在接受媒体提问时分享了对OpenAI视频生成模型Sora、OpenAI CEO Sam Altman扩大芯片规模的计划、怎么预测AGI时间表、AI是否会灭掉码农、如何回应AI芯片创企Groq的叫嚣的观点。
特别是与Groq的交锋,快演成反转电视剧了,昨天英伟达GTC主题演讲刚结束,以碰瓷科技大佬出圈的大模型推理芯片创企Groq就发文,指名道姓地硬刚英伟达表态:“依然更快”。今天Groq又追加一句“……而且也依然功耗更少”。
在媒体沟通会上,被问到对此事的看法时,黄仁勋回应说:“我真的不太了解,无法明智地作出评价……芯片的存在是用来实现这个软件的。我们的工作是促进下一个ChatGPT的发明。如果是Llama-7B,我会感到非常惊讶和震惊。”
事情还没完,Groq创始人兼CEO Jonathan Ross随即在社交平台上发文并晒出跟黄仁勋的合照:“我之前见过黄仁勋,他的团队本周专门更新了GTC,以回应Groq,所以对Groq不太了解似乎不太可能。也就是说,***Groq运行700亿参数模型的速度比英伟达运行70亿参数模型的速度快。***体验一下:groq.com”
锋芒毕露的美国AI芯片公司们显然对GTC高度重视并紧密关注。
最近刚发布第三代晶圆级芯片的Cerebras,今日在距离GTC展区步行不到10分钟的地方举办Cerebras AI Day,在这里宣布“拥有4万亿颗晶体管的世界最快AI芯片CS-3”、“选择高通在AI推理中提供前所未有的性能”、算力达8EFLOPS的AI超级计算机G42破土动工,并分享了晶圆级架构的核心、AI能力鸿沟、GPU挑战、大模型在大芯片上训练得最好、新的多模态大模型发布。
▲路过Cerebras AI Day会场(芯东西摄)
Cerebras不忘发文踩一脚GPU:“在CS-3上,与GPU相比,我们能够以数量级的性能优势进行大规模训练。但即便是我们最大的集群本身也是作为单个设备运行的……现在👏🏻鼓掌!”
以下是黄仁勋媒体沟通会20个问答(为方便阅读,部分问题及回答在尽可能不违背原意的前提下进行了精编处理):
一、中美摩擦,对英伟达的影响有多大?
1、中美紧张局势如何影响生产制造和系统?
黄仁勋回答说:“是的,有两件事我们必须做,一是确保我们理解并遵守政策,二是尽我们所能地增强供应链的弹性。”
世界供应链很复杂,他举例说,HGX有35000个零件,其中8个零件来自台积电,其它中很大一部分来自中国,汽车和国防行业也是如此。
他相信各国的目标并不是对立的:“世界末日的情景不太可能发生,我希望这不会发生。我们能做的事情与弹性和合规性相关。”
2、英伟达与台积电的关系过去两年如何发展,包括芯片、封装以及Blackwell双芯设计?
黄仁勋称英伟达与台积电的合作关系是“业界最密切的合作关系之一”。英伟达做的事情很难,但台积电做得很好。英伟达有计算die、CPU die、GPU die、CoWoS基板,内存来自美光、SK海力士、三星,在台湾组装。供应链并不简单。这需要大公司的协调,替英伟达做这件事。
“他们也意识到需要更多的CoWoS。我们会全部解决的。”他谈道,跨公司协作是好的,你组装它们,另一家公司负责测试,再由另一家公司来构建系统,你需要一台超级计算机来测试超级计算机,制造层是一个巨大的数据中心。
“Blackwell是个奇迹,但我们必须在系统层面实现它。人们问我是否像SoC一样制造GPU,但我看到的是机架、电缆和开关,这是我对GPU的心理模型。台积电对我们至关重要。”黄仁勋说。
3、对于台积电,企业总是想要得到更多,能谈谈今年明年年英伟达的供需情况吗?比如今年英伟达的CoWoS需求是去年的3倍?
“你想要确切的数字,很有意思。”黄仁勋说,英伟达今年对CoWoS需求非常高,明年会更高,因为正处于AI转型的开始阶段——只有1000亿美元投入这一旅程,还有很长的路要走。
黄仁勋对台积电的增长非常有信心,称他们是很好的合作伙伴,理应成为现在的样子。他认为人们工作得非常努力,技术处在完美的位置。生成式AI正处于不可思议的位置。
4、英伟达新的网络技术计划出售给中国多少、能否告知中国在计算芯片上集成其他技术的具体倾向?
黄仁勋说:“我今年几乎没宣布过,有点贪心了哈。这是我们要宣布的。无论何时何地卖给中国,当然有出口管制,所以我们就会考虑这个问题。对于中国,我们有L20和H20。我们正在尽最大努力为中国某些客户优化它。”
5、当云计算厂商纷纷开始自研芯片,英伟达正转向云业务,你怎么看这一现象?他们自研芯片会影响价格吗?英伟达在中国的云计算战略和解决方案是什么?
黄仁勋解答说,英伟达生产HGX,然后卖给戴尔,戴尔把它放进计算机里,再卖出去。英伟达开发了在戴尔(设备)上运行的软件,创造了市场需求,来帮助销售这些计算机。
“我们与云服务提供商合作,将NVIDIA Cloud放到他们的云中。”他强调说,“我们不是云计算公司,我们的云叫DGX Cloud,但实际上我们是他们云中的一员,我们的目标是把客户带到云上,让客户在这台机器上交易。”
“我们将培养开发者,我们将创造对云服务的需求。”他谈道,“这与任何人的芯片无关——英伟达是一家计算平台公司,必须发展我们自己的开发者——这就是GTC存在的原因。”
“如果我们是x86公司,为什么还要办开发者大会?”黄仁勋犀利发问,“开发者大会是干什么的?因为架构仍在被接受,它的使用是复杂的,我们还没克服,所以DRAM不需要开发者大会,互联网不需要开发者大会,但向我们这样的计算平台需要,因为我们需要开发者,这些开发者会感激英伟达在每个云上都无处不在。”
二、解释Blackwell定价:没想卖GPU,数据中心才是追求
Raymond James分析师估计英伟达制造每个H100成本约为3320美元,B200成本约为6000美元,GB200解决方案成本远高于80GB内存的单芯片GH100;一个H100售价2.5万~3万美元,新GPU价格将比H100高出50%~60%。
不过英伟达并未公开其定价,这也是英伟达少见地没在官网直接列出B200的详情页,仅仅放出DGX B200和DGX B200 SuperPOD的介绍信息,Blackwell架构介绍页面也还没有上线。
▲英伟达官网目录截图拼接(绿色部分为本届GTC大会发布新品)
这周在接受CNBC专访时,黄仁勋透露新GPU架构的研发预算大概是100亿美元,Blackwell GPU的售价约为3万~4万美元。对于这一问题,黄仁勋在今日的媒体沟通会上做了补充说明:
6、Blackwell定价范围是多少?你之前提到每个Blackwell GPU价格是3万-4万美元。还有TAM,你想在2500亿美元TAM中占多大比例?
黄仁勋回复说:“我只是想让大家对我们产品的定价有大概的了解,并不打算报价——我们卖得不是芯片,而是系统。”
据他解释,Blackwell对不同系统的定价不同,不仅是Blackwell,系统还包括NVLink,分区是不同的,英伟达会给每个产品定价,定价将一如既往来自TCO。“英伟达并不制造芯片,英伟达构建数据中心。”黄仁勋强调道。
英伟达构建了全栈系统和所有软件,通过调试,使它具有高性能,构建数据中心。英伟达把数据中心分解成很多个模块,这样客户就能根据需求选择如何配置,自行决定买多少、怎么买。
一个原因是,也许你的网络、存储、控制平台、安全性、管理是不同的,所以英伟达和你一起分解所有的东西,帮你探索如何把它们整合到你的系统中,并有专门团队来提供帮助。
因此这不是买芯片,不是人们过去卖芯片的方式,是关于设计和集成数据中心的,英伟达的商业模式反映了这一点。
至于英伟达想在2500亿美元TAM中占多大比例?黄仁勋说,英伟达的机会不是GPU的机会,而是芯片的机会。GPU市场与英伟达所追求的市场截然不同,英伟达正在追求数据中心。全球数据中心大约是2000亿欧元,这是其中的一个建筑。英伟达的机会是这2500亿美元的一部分,现在将会增长,AI被证明是相当成功的,去年是2500亿美元,符合增长率为20-25%,长期机会将会是1万亿~2万亿美元,取决于时间表。
7、在构建像Blackwell这样的平台时,你是如何估计(客户)的计算需求的?目标基本上是增加计算,你如何考虑电力、效率和可持续性?
“我们必须弄清楚物理极限,达到极限,并要超越极限。”黄仁勋说,如何超越,是让事情变得更节能,例如,你可以用1/4的功率训练GPT。
Hopper需要用8000个GPU的任务,Blackwell只需2000个GPU,相同时间只消耗更少能效。因为能效更高,可以挑战极限。能源效率和成本效率是首要任务。英伟达把从大语言模型生成tokens提速30倍,以此节省很多能源,即生产相同tokens所需的能源减少到原来的1/30。
8、除了HBM之外,怎么看待三星和SK海力士的生产?
黄仁勋调侃说:“这就像问台积电,除了代工,除了GPU,你还喜欢英伟达吗?”
据他分享,HBM是复杂的,附加值很高。英伟达在HBM上花了很多钱!
“我们正在测试三星HBM,我们将使用它。”黄仁勋透露道,“三星是一个很好的合作伙伴。韩国是世界先进存储器生产量最多的国家。HBM非常复杂,它不像DDR5。这是一个科技奇迹。这就是它这么快的原因。HBM就像逻辑,而且越来越复杂,越来越半定制化。”
他称赞HBM是一个奇迹,由于生成式AI,整个数据中心的DDR已经成为过去,未来属于HBM。
“三星和SK海力士的升级周期令人难以置信。我们的合作伙伴将与我们一起成长。我们将用HBM替换数据中心中的DDR。能效提高了很多。”黄仁勋说,这就是英伟达让世界更可持续发展的方式——更先进的内存,更低的功耗。
9、英伟达AI代工厂与企业合作的整体战略和长期目标是什么?
黄仁勋说,代工厂的目标是制造软件,不是作为工具的软件,但别忘了,英伟达一直是一家软件公司。英伟达很久以前创建了两个重要软件,一个叫OptiX,后来变成了RTX;另一个叫cuDNN,是一个AI库,我们有很多不同的库。
未来的库是一种微服务,不仅是用数学来描述,在AI中也有描述。这些库,英伟达叫cuFFT、cuBLAS、cuLitho——未来它们将是NIM。这些NIM是一些超级复杂的软件,英伟达将其打包,所以你能访问网站来使用它,或下载它,在云上或者计算机、工作站上运行它。英伟达将使得NIM性能更好。
当企业运行这些库时,自定义操作系统会进行授权,授权费用为4500美元/GPU/年,你可以在上面运行任意多的模型。
三、AI芯片竞争对手公开挑衅,黄仁勋回击“真的不了解”
10、你对Groq这样的芯片创企有何评论,Groq昨天发了一条推文,说要比你的“孩子”更快?
“我真的不太了解,无法做出明智的评价。”黄仁勋认为token生成很难,取决于你想要的模型,每个模型都需要自己特殊的分区方式。
在他看来,成为Transformer并不是所有模型的终结——每个Transformer都是相关的,因为都有注意力;但它们又都是完全不同,有些是前馈或MoE(混合专家),有些MoE是2个专家,有些是4个,分工方式都是不同的,所以这些模型中的每一个都需要非常特殊的优化。
如果计算机太脆弱,被设计来做一些非常具体的事情,它就变成了一台可配置的计算机,而不是可编程的计算机。它不会让你从软件创新的速度中获益。
黄仁勋认为,不能低估CPU奇迹的原因——由于可编程,CPU随着时间推移已经克服了主板上、PC上这些可配置的东西。软件工程师的天才可以通过CPU来实现,如果把它固定到芯片中,那就切断了软件用户的芯片才华。它真正要做的是从两者中获益。
他说,英伟达已经找到了一种特殊的计算形式,采用并行流计算模型,具有容错性,性能非常好,并且可编程。有一个架构从AlexNet开始就存在了,贯穿了所有的模型,最终Transformer出现了,有一大堆变种,这些模型在状态空间、内存和体系结构中不断发展。
“我们能做出一个有水平的模型是很重要的。”黄仁勋说,“芯片的存在是用来实现这个软件的。我们的工作是促进下一个ChatGPT的发明。如果是Llama-7B,我会感到非常惊讶和震惊。”
四、怎么看OpenAI CEO的芯片工厂网络计划?
11、Sam Altman一直在和整个芯片产业的人充分谈扩大范围和规模。你跟他聊过吗?你怎么看他想做什么?这对你和英伟达有什么影响?
“我不知道他的意图,除非他认为生成式AI是一个巨大的市场机会,我同意。”黄仁勋说。
他从基本原理谈起,今天计算机生成像素、检索、解压缩、显示。人们认为整个过程只需要很少的能量,但事实恰恰相反。原因是每个提示词、每件事、每次你用手机,它都要传到某个地方的数据中心,以一种从推荐系统的角度来看有意义的方式获得一些响应,然后把它发回给你。
例如,假如每次问他一个问题,他都要跑到自己的办公室,而不是直接回答,这就很浪费时间和精力。他认为一起工作的方式应该是扩大AI生成。未来越来越多的计算将是生成的,而不是检索,一代代必须是聪明的,并且上下文相关。
“我相信,我想Sam也相信,几乎每个计算机上的每个像素,每次你与计算机交互时,都由一个生成式芯片生成。”他希望Blackwell和后续迭代能继续在这个领域做出很大贡献。
“如果每个人的计算机体验都是生成式的,我不会感到惊讶。但今天还不是这样。这是个很大的机会,我想我会同意这个问题。”黄仁勋说。
五、AI替写代码,人类不用学编程了?
12、你之前说过没人需要学编程了,是在暗示人们不应该学习编程技能吗?
黄仁勋认为人们在学很多技能,像钢琴、小提琴这样的技能真的很难,并认为无论是数学、代数、微积分还是微分方程,人们应该尽可能多地学习这些技能。但对于成功者来说,编程技能并不是必不可少的。
“曾经有段时间,全世界很多大佬都在提倡,每个人都必须学习编程,因此你效率低。”他分享说,“但我认为这是错误的,学C++不是一个人的工作,这是计算机的工作来让C++起作用。”
在他看来,AI已经对社会做出了最大的贡献——你不必是一个C++工程师才能成功,只要做一个及时的工程师。例如,人类通过对话进行交流,我们需要学习如何提示AI,就像在运动中提示队友获得你想要的结果一样,这取决于你想要做的工作、想要取得的高质量结果、是否寻找更多想象力,或者是否想在结果中更具体。根据不同的答案、不同的人,你会给出不同的提示。
“我相信AI所做的第一件伟大的事,是缩小技术鸿沟。看看YouTube上所有的视频,都是人们创建AI,而不是编写任何程序,所以我认为这很有趣。”黄仁勋说,“但如果有人想学习编程——请这样做。我们正在招聘程序员!”
六、给AGI设定时间表,是否害怕AGI?
13、你之前提到AGI将在5年内实现,这个时间表还在吗?你害怕AGI吗?
黄仁勋略带回怼地回答道:“首先,定义AGI。”他沉默了一会儿,接着说道:“我停顿了一下,是因为现在,正如我所说的,我确信每个人都很难做到这一点。我想让你具体定义一下AGI,这样我们每个人都知道我们什么时候能到达。”
他直接表达出对此前新闻报道断章取义做法的不满:“每次回答这个问题,我都会指定AGI规范。但每次报道时,都没有人具体说明。所以这取决于你的目标是什么。我的目标是和你交流。你的目标是弄清楚你想讲什么故事。”
“OK,所以我相信AGI,正如我所指出的,可能在5年内,AGI,也就是通用智能,我不知道我们是如何互相定义对方的,这就是为什么我们有这么多不同的词来形容彼此的智力。”他谈道。
在黄仁勋看来,预测我们何时会看到一个通用的AGI,取决于如何定义AGI,需要明确AGI在问题中的具体含义。
他举了两个例子,比如定义圣克拉拉在哪里,它的位置很具体;再比如定义新年,尽管所处时区不同,每个人都知道新年什么时候到来。
但AGI有些不同。黄仁勋说,如果我们将AGI指定为具体特定的东西,比如一个软件程序做完一组测试成绩可以达到优秀(80%以上),比大多数人甚至比所有人都好,你认为计算机能在5年内做到这一点吗?答案可能是肯定的。
这些测试可以是数学、阅读、逻辑、学术、经济测试以及律师资格、医学预科考试等。
14、未来我们的生活如何随着大语言模型和基础模型而改变?
黄仁勋认为,问题是我们如何拥有自己的大语言模型。
“有几个方法可以做到,一开始,我们认为你不断微调,但微调很耗时,然后我们发现了提示调优,发现了长上下文窗口、工作记忆。我认为答案是所有这些因素的结合。”他谈道。
在他看来,未来你只用调整一层权重就能微调。你不需要调整所有的,只需像LoRA一样微调一层。低成本微调、提示工程、上下文、记忆存储,所有这些一起构成你的定制大语言模型。它可以在某个云服务里,也可以在你自己的电脑。
15、软件最大的增长机会在哪儿?是微服务吗?
黄仁勋说,英伟达最近的机会是两种类型的数据中心计算,一个是关于数据中心的现代化计算,另一个是数据中心的新提示生成。
英伟达这样做是想帮助客户制造AI。Llama、Mixtral、Grok……很多团队创造了AI,但这些AI很难使用。基础模型是原始的,不好用。
英伟达将创建其中的一些,然后选择一些主流的开源合作伙伴,并将这些模型转化为产品质量的可用模型。它还需提供服务,比如NeMo。
“我们不只会发明AI,还要制造AI软件,这样每个人都能使用它们。我们的软件大约是10亿美元运行率,我认为制造AI肯定能做相当多的事。”黄仁勋说。
16、一些关键任务要求100%正确,AI幻觉问题可以得到解决吗?
黄仁勋认为,幻觉是可以解决的,只要确保答案得到充分研究。
他谈道,添加一条规则,对于每个答案,你都必须查找答案,这就是RAG检索增强生成。如果你做一个查询,它应该先做搜索,不会编造一个答案并输出,而是优先考虑最准确地回答内容,然后反馈给用户。这个AI如果很重要,它不只是回答你,会先做研究,确定哪个答案是最好的,然后总结。这不是幻觉,是一个研究助理。这也取决于临界情况——更多的护栏或及时的工程。
对于关键任务的答案,例如健康建议或类似问题,黄仁勋认为,可能检查核对多种资源和已知的事实来源才是前进的方向。
17、你谈到用生成式AI和模拟来大规模训练机器人,但很多东西不好模拟,尤其当机器人走出建筑环境时,你认为模拟会有什么限制?当我们碰到这些限制时应该怎么做?
黄仁勋说,有几种不同的方式来思考这个问题。首先是构建你对大语言模型的想法。请记住,大语言模型是在一个不受约束的、非结构化的世界中运行的。这可能是个问题,但它从中吸取了很多教训。大语言模型的泛化能力是神奇的,然后通过迭代或通过提示来获取上下文窗口。
例如你要在厨房里做煎蛋卷,只有你才能具体说明问题,指定背景、你能用的工具,描述机器人的环境,这个机器人应该能够有效地泛化。
这是机器人的ChatGPT时刻。仍有一些问题需要解决,但可以看到推断。这一切都可以产生token,这些token在机器人看起来像这样前就已经生成了。机器人学对软件是有意义的。软件不懂其中的区别,只是个token。所以你必须组织所有的姿势,将所有输出标注化,概括环境,输入上下文,加强人类反馈,给它一大堆适当的问答例子,在哲学、化学、数学中的适当答案。
其中一些在页面中进行了描述。你可能需要1万多个大模型示例才能做出ChatGPT。我们的大脑可以区分文字和机器人动作之间的区别,计算机只能看到数字,它不知道这些东西的区别。
18、关于电脑游戏,去年你说每个像素都会被生成、渲染,你认为我们离这个每个像素都以实时帧速率生成的世界还有多远?你对游戏/非游戏的愿景是什么?
黄仁勋认为几乎所有的技术,S曲线都不会比技术长。一旦它变得实用和更好,就像ChatGPT一样,我想用不了10年的时间。在10年时间里,你是另一种专家;5年后,事情在实时变化,一切正在发生。所以你只需要决定我们在这方面走了多远。现在大概是2年了。在接下来的5-10年里,情况基本上就是这样。
19、您曾说过很多行业都将迎来ChatGPT时刻,能挑个令你兴奋的讲讲吗?
黄仁勋说,有些让他兴奋的是技术原因,有些是因为第一次接触,有些是因为影响。
“我对Sora非常兴奋,OpenAI做的很棒,去年我们在自动驾驶公司Wayve上看到了同样的情况,你也看到了我们所做的一些例子,差不多两年前,关于从作品中生成视频。”他谈道。
为了生成视频,模型必须了解物理,所以当你把杯子放下时,杯子是在桌子上,而不是在桌子的中间。它有感受力。它不必遵守物理定律,但它必须是明智的,理解所有的物理定律。
其次,黄仁勋认为英伟达对Earth-2气候数字孪生云平台的生成式AI模型CoreDiff所做的工作对预测2-3公里范围内的天气有巨大影响。英伟达使其能效提高了3000倍,同时速度提高了1000倍,可以预测极端天气下的飞行路线,在混乱天气的情况下,可以更频繁地采样,采样1万次。这个例子得到最可能答案的能力有很大提升。
第三,在分子生成、药物发现方面所做的工作,在具有目标蛋白质非常理想的特性的可药物分子中。可以把它放在像AlphaGo这样的强化学习循环中,生成各种分子与蛋白质的连接,进而探索巨大的空间。这是非常令人兴奋的。
20、请深入谈谈你对药物发现、蛋白质结构预测和分子设计的看法,这对其他领域有何影响?
黄仁勋说:“我们可能是最大的不制造量子计算机的量子计算公司。我们这样做的原因是因为我们相信它,我们想在这里,我们只是认为没有必要再建立一个。”QPU是一个加速器,就像GPU一样,用于一些非常特定的事情。
英伟达打造了cuQuantum,来模拟量子计算机。可以有34-36个量子比特。人们用它来模拟量子电路。我们可以做后量子加密,让世界为量子做好准备,因为当量子到来时,所有数据都被正确地编码、加密。英伟达可以为所有人做出贡献,与世界上大多数量子计算公司合作。黄仁勋相信还需要一段时间才能带来突破。
对于数字生物学来说,NIM的敏感性来源于数字生物学。BioNeMo是英伟达的第一个NIM。这些模型太复杂了,所以英伟达想用一种特殊的方式来封装它们,以便所有研究人员都能使用。BioNeMo在很多地方都得到了应用。输入一对化学蛋白,它会告诉你结合能是否有效;或者发送一种化学物质,并要求它产生其他化学物质。
附:黄仁勋15分钟演讲干货信息实录
现场媒体沟通会分为两部分。在进行媒体问答前,黄仁勋先做了15分钟的单人演讲。期间,黄仁勋特别提到对OpenAI视频生成模型Sora的看法,并从对生成式AI趋势、AI编程的见解,聊到英伟达重点产品线的技术规划和布局逻辑,包括新架构Blackwell的革命性进展、Omniverse API、系统模块化设计等。
以下是黄仁勋15分钟演讲精编:
行业正同时经历两个转型:一是从通用计算到加速计算;二是生成式AI新工具出现。
生成式AI被一些人称作数据中心。一个标准数据中心有文件,而生成式AI产生token,它生成的浮点数会变成文字、图像、声音。
未来,这些token将是蛋白质、化学物质、动画机器、机器人。如果计算机能说话,为什么它不能像机器人一样移动呢?
生成器是一个新的类别、新的行业,这就是为什么说新工业革命正在发生。这些房间、建筑被称作AI工厂。上一次工业革命,投入水和燃料,产生电。现在进入AI工厂的是数据,输出的是token,token可以分布到全世界,纳入公司成本、运营费用、资本支出。
在新世界,软件非常复杂,越来越大,需要很多不同的东西。今天它通过文字、图像、视频、强化学习、合成数据,通过像AlphaGo一样的辩论来学习。随着时间推移,这些模型会变得越来越复杂,它会学习很多方法。
黄仁勋着重分享了3个突破:
1、节能省钱:英伟达为万亿参数的未来创造了全新一代计算,由Blackwell实现。Blackwell非常高效节能。以训练GPT-MoE-1.8T参数模型为例,H100是90天15MW电力,而Blackwell是4MW,节省了11MW。“我们降低了这项工作量。”黄仁勋说这节省了很多很多的能源、很多很多的钱。
2、AI生成:游戏玩家总将GPU看作一个生成式引擎,生成图像和像素。你看到的所有图像都是由最大的GPU生成的。未来,图像、视频、文本、蛋白质、分子都将由GPU生成。GPU从图形生成发展到AI训练、AI推理,现在是AI生成。我们几乎所有的计算经验都将在大量产生,一切都将被预记录、个性化生成。未来一切都将被创造出来,而这需要一个特殊的处理器。英伟达打造了Blackwell,有第二代Tranformer引擎、下一代NVLink、多GPU并行。
3、软件:未来,软件是AI,你只要跟它说话,就能进行互动,非常易用。API如此自然,可以将很多AI连接在一起。英伟达打造了NIM微服务,把它们连在一起,让公司可以用现成的、定制的。NeMo服务可帮助客户定制NIM,这被称作AI代工厂。英伟达拥有实现该目标的技术、专业知识、基础设施,这就是代工厂,英伟达可帮助每个公司来构建定制AI,把AI技术推向世界。
在黄仁勋看来,对于下一波AI浪潮,AI必须理解物理世界。
“我们从OpenAI看到了一些革命性的、令人惊叹的AI,叫作Sora。当Sora生成的视频是有意义的,汽车停在路上转弯,一个沉思的人走在街上有倒影,显然AI理解这一点,理解物理定律。”他解释说,“如果我们把它发挥到极限,那么AI就能在物理世界中行动,这就是机器人技术。”
因此,下一代需要新的计算机来运行新的机器人、新的工具Omniverse、数字孪生,必须开发新的基础模型。英伟达以技术平台而非工具制造商的身份进入市场。企业可使用Omniverse API来创建数字孪生。黄仁勋对于该任务的成功感到非常高兴,称连接到这些工具是“超级充电”。
Blackwell是芯片的名字,也是计算机系统的名字。英伟达有一个沿用之前版本的x86系统,叫HGX,你可以把Hopper的托盘拉出来,然后把Blackwell推进去。由于支持生产的基础设施已经存在,生产转换和客户增长将变得容易得多。
英伟达也有DGX,液冷新架构,可以创建大型NVLink域,支持在一个域中采用8个GPU,即16个die。如果想打造更大的机器,英伟达有Blackwell和Grace Blackwell超级芯片的堆叠版本,以及NVLink Switch。
黄仁勋说,NVLink Switch是“世界上性能最高的交换机”,是非常模块化的,很受欢迎。