中国AI大模型背后的五大推手,打得不可开交!

智东西(公众号:zhidxcom)
作者 | 李水青
编辑 | 心缘

国内公有云巨头的大模型“抢客战”已经白热化。

前脚百度智能云宣布,其千帆大模型平台已纳管42个主流大模型,服务超17000家客户;后脚阿里云宣称,国内超一半大模型公司跑在阿里云上;就连“黑马选手”火山引擎也早早扬言国内大模型领域七成以上已是其客户……究竟谁的大模型客户更多?

云计算业内人士告诉智东西,各大云巨头旗下已经有大模型企业站队,谁都有可能捧出自己嫡系的“国产OpenAI”。同时,少有玩家强绑定一家云巨头厂商,而是在GPU算力供给、开发工具链、社区生态等多方面考量,仍处于“暧昧期”。

经过智东西梳理总结,如下图所示,几大云厂商确实已经有了自己的“势力范围”,云巨头的「百模大战」呈现阶段性成果。

中国AI大模型背后的五大推手,打得不可开交! 中国AI大模型背后的五大推手,打得不可开交!中国AI大模型背后的五大推手,打得不可开交!中国AI大模型背后的五大推手,打得不可开交!

▲国内部分云厂商大模型相关客户分布情(根据公开信息整理)

11月初,OpenAI推出的GPTs在全球掀起了大模型应用开发潮,对算力产业提出了新要求。更大算力、更低成本、更易开发,成为公有云厂家当下比拼的焦点。要获得头部大模型客户的青睐,国内云厂商还要在商战中展现出自己的不可替代性。

随着「百模大战」进入深水区,阿里云、华为云、腾讯云、百度智能云、火山引擎、天翼云等云厂商都亮出了自己的杀手锏……哪一家才是国内第一大模型云服务厂商?本文试图对此进行深入探讨。

一、云巨头抢客,大模型企业站队

国内的明星大模型创企,都已经在不同的云巨头旗下“站队”了。

为了快速获得训练大模型所必需的算力,自建机房成本高昂、贻误商机,大模型厂家不约而同地投向公有云大厂的怀抱。产业已经出现了一些大模型明星企业+云巨头的强组合。

这厢,阿里云刚刚找到百川智能创始人兼CEO王小川为其站台,透露其每月迭代一款模型的一大重要原因是阿里云支撑其完成了千卡大模型训练任务,且阿里云助其有效降低了模型推理成本。

那厢,华为副董事长、轮值董事长徐直军亲临科大讯飞的星火2.0发布会,联合发布了华为专门派特战队入驻科大讯飞一起研发的“飞星一号”大模型国产算力平台,打造大模型“国家队”的势头。

腾讯云这边也热火朝天。腾讯云透露其支持了MiniMax运行千卡级大模型任务,按照腾讯云副总裁魏伟所说,通过腾讯云的新一代高性能计算集群HCC,MiniMax完成了技术底座升级,整体用云成本降低了至少20%。

公有云大厂围绕大模型的客户可以简单划分为两类:一类是上述提到的大模型企业,另一类则是具体行业里的大模型终端应用客户。

据智东西梳理,目前阿里云、腾讯云、华为云、百度智能云、火山引擎几家云厂商都已经拿下了响当当的大客户。

其中,阿里云、腾讯云在大模型企业和行业终端应用企业两类客户都有布局。智谱AI、百川智能、昆仑万维等创企角逐国产大模型第一梯队,竞争十分激烈,背后离不开这两家云巨头的支持。

中国AI大模型背后的五大推手,打得不可开交!

从公开的信息面上来看,百度智能云、华为云更侧重将其大模型落地行业终端应用,覆盖医疗、教育、金融、文娱、能源、气象等各个领域。 中国AI大模型背后的五大推手,打得不可开交!

行业“黑马”,字节跳动旗下的火山引擎则主要聚焦大模型企业。火山引擎今年在各大地推场景放出了“你的下一朵云”的宣言,其在大模型领域的势头也值得关注。

中国AI大模型背后的五大推手,打得不可开交!

值得一提的是,云大厂大模型客户阵营仍不是稳定的,不少大模型公司选择吃“百家饭”,同时出现在了多家公有云厂商的客户名单里。

比如百川智能不仅用了阿里云的云服务,还联合腾讯云向量数据库,搭建了基于用户知识库的智能问答演示系统。

MiniMax不仅通过腾讯云的新一代高性能计算集群HCC完成了技术底座升级,其在之前还与火山引擎合作搭建了高性能计算集群,并基于其机器学习平台研发了超大规模的大模型训练平台,支持每天千卡以上的常态化稳定训练。

可以推测,在后续的模型的训练和推理中,大模型厂家们选择哪家云服务商,仍不是一个定数。

二、投资、抢卡、国产化,云大厂开撕

争夺大模型客户,是公有云大厂围绕钱、算力资源和管理策略展开的一场持久战。

砸钱投资,是国内公有云大厂争夺大模型客户最“简单粗暴”的一招。

参考国外的OpenAI,微软是其独家云供应商,承接了ChatGPT所需的全部算力需求,同时OpenAI大部分技术优先授权给微软产品。这主要是因为微软通过累计130亿美元投资绑定了OpenAI。

国内云大厂也在对微软的做法如法炮制。比如阿里云就领投了由创新工场董事长兼CEO李开复成立的AI公司“零一万物”,该公司11月刚刚发布了其首款开源中英双语大模型“Yi”。阿里云官方公众号在11月花了大篇幅推广这一模型,因为它主要是基于阿里云的平台打造。

但好的大模型项目十分抢手,投资也难以让云巨头绑死大模型客户。

比如OpenAI的强大竞对Anthropic就被亚马逊和谷歌激烈争抢。亚马逊前脚在9月28日宣布将向Anthropic投资至多40亿美元,实现控股;谷歌后脚在10月底承诺向Anthropic提供20亿美元融资。这么一来,谷歌和亚马逊谁都别想成为Anthropic的独供云厂商。

在国内,阿里和腾讯也同时看中了好几家大模型种子选手,比如智谱AI今年10月底获得了超25亿元融资,百川智能获得了3亿美元融资,阿里和腾讯都同时是主要投资者。

既然几家“神仙”都入股了,明星大模型厂商自然无需承诺与某一家强绑定。

给钱只是前菜,公有云厂商还得使出大招——供卡。

争抢大模型客户,云大厂竞争的焦点在于GPU算力集群。每一家公有云大厂都在极力推广其千卡、万卡集群能力,归根到底,这才是吸引大模型客户的核心竞争力。

阿里云称其可提供单集群最大1万GPU卡规模,承载多个万亿参数大模型同时在线训练,阿里系蚂蚁金融大模型底层算力集群达到万卡规模;百度近期发布的文心4.0,也宣称是在万卡AI集群上训练出来的;11月9日,腾讯则联合松江落地了号称国内最大规模GPU智算中心。谁家的智能算力集群更庞大,也有望为其合作的大模型企业提供更多资源倾斜。

为了构建千卡、万卡集群,公有云大厂不惜花重金抢购英伟达GPU卡。

今年8月,据英国《金融时报》援引知情人士消息,阿里巴巴、腾讯、百度、字节跳动等中国互联网巨头们向英伟达下单订购50亿美元的芯片。10亿美元约10万张英伟达A800 GPU将于今年交付,还有40亿美元的GPU将于2024年交付。

然而,美国扩大限制政策却让公有云大厂的“万卡集群”竞赛骤生波澜。

今年10月随着美国更新《先进计算芯片和半导体制造设备出口管制规则》,据环球网引述外媒报道,英伟达可能被迫取消明年向中国出口超50亿美元先进芯片的订单。这无疑为国内公有云厂商的“抢客战”走向打上了一个问号。

谁会成为国内大模型第一云厂?各家云厂商都前途未卜,问题也要搁置回答。

即便是被认为是GPU资源储备最充足的云巨头阿里云,也有些捉襟见肘。

11月初,阿里云A100官网已经暂停出租。近期阿里云发布的财报称:“这些新的限制可能会对云智能集团提供产品和服务的能力以及履行现有合同的能力产生重大不利影响,从而负面影响其经营业绩及财务状况。”

上游垄断巨头供应成困,为了保证对大模型厂商的供给,公有云大厂只有在两条路上使力气。

一是节流,通过提高存量算力资源的使用效率,以高性价比方式缓解算力短缺。

阿里云、腾讯云、华为云、百度智能云、火山引擎等云厂商对存储、网络到计算进行了全面升级,以此提高算力利用效率。

比如,腾讯云基于星星海的服务器,据称把GPU的服务器故障率降低了超过50%;通过存储升级,腾讯云可以在60s内完成超过3TB的数据写入,支持提高模型训练效率。阿里云在10月底推出了全新升级的AI平台PAI,采用HPN 7.0新一代AI集群网络架构,促进大规模训练线性拓展效率高达96%;大模型训练中,可节省超50%算力资源。

二是开源,寻求算力的国产替代机会,实现加速追赶。

比如,今年11月,英国路透社曾报道,百度为200台服务器向华为订购了1600颗昇腾910B AI芯片,作为英伟达A100的替代品。而后,也有其他大模型及云厂商陆续透露购置了国产芯片。

而根据百度智能云官方信息,其千帆平台可以实现万卡规模集群训练的加速比达到95%,有效训练时间占比达到96%;同时,千帆平台还兼容昆仑芯、昇腾、海光DCU、英伟达、英特尔等国内外主流AI芯片,支持客户以最小的切换成本完成算力适配。

可以看到,投资、抢卡、国产化,成为云大厂为抢占大模型市场开撕的主要方式。

三、阿里腾讯吃大头,百度字节踢馆,华为扛旗国产化

当下,随着OpenAI的GPTs掀起新的大模型定制潮,智能算力需求仍在膨胀。

一方面,对标正在开发GPT-5、继续向微软筹钱的OpenAI,大模型企业需要的算力会更多。另一方面,大模型更侧重于落地千行百业,也需要云厂商的开发工具及API更加便捷易用,让国内大模型也能“5分钟开发一个应用”。

正如百度创始人、董事长兼CEO李彦宏所说:“我们看国外,除了有几十个基础大模型之外,已经有上千个AI原生应用,这是现在中国市场上没有的。” AI产业应该是在需求侧、应用层发力,鼓励企业调用大模型来开发AI原生应用​。

正如腾讯集团副总裁、云与智慧产业事业群COO、腾讯云总裁邱跃鹏所说:“云是大模型的最佳载体,大模型将开创下一代云服务的全新形态。”

大模型正在重新定义云上工具,这成为公有云抢客大战的新赛点。

云巨头们正从工具链和生态社区两大方面做高附加值,降低大模型应用落地的门槛,帮大模型企业推进落地。

1、大模型开发平台大乱斗

当下,公有云大厂已经纷纷推出了升级的开发工具链,将自有经验沉淀出的大模型训练工具给AI公司和行业终端客户,包括阿里云百炼、百度智能云千帆、华为云昇思、腾讯云TI平台、火山引擎方舟等。

2、开发者社区活力大比拼

云大厂发展开发者社区,拥有更多更活跃的开发者社区,会带动大模型创企的产品的下载和落地应用。比如阿里云号称自己的一大优势就是被称为“中国版Hugging Face”的魔搭社区,据称模型下载量已突破1亿,累计为开发者贡献了3000万小时的免费GPU算力。

3、AI原生应用大爆发

云大厂基于自身的业务场景开发了一批AI原生应用,直接供给有明确需求但自身开发能力较弱的终端客户使用。比如百度已把AI能力全方位注入已有产品中,包括搜索、地图、文库、网盘等ToC产品。

公有云大厂的“箭”射向这两大领域的同时,侧重点又有所区别。

多位云计算业内人士告诉智东西,目前来看,阿里云、腾讯云等云巨头规模效应更明显,目前大模型客户更多,侧重提供云基础设施底座,兼顾应用开发。比如腾讯云陆续在计算、存储、数据库、网络等方面面向大模型推出了新品,但在其混元大模型的应用落地相对声量更小;阿里云则尤其强调其“节省超50%算力资源”、“大规模训练线性拓展效率高达96%”等云服务底座能力。

百度智能云的行业终端客户看起来更多,侧重像OpenAI一样为行业提供便利化的大模型应用开发,以及百度自有产品的大模型赋能。根据其官方数据,截至8月31日,文心一言向社会开放四十多天里,文心大模型现在用户规模已经达到4500个,开发者达到了5.4万,场景有4300个,应用达825个,插件达500个。

而华为云以及天翼云等玩家,更侧重基于全栈自研优势,打造自主可控的大模型应用方案,赋能行业场景应用。另外,一些新的云厂商也有机会。比如火山引擎凭借大量视频业务背后的GPU卡、海量数据及用户场景、自研AI大模型经验,也获得了不少大模型客户。

结语:王者未定,云巨头奔赴大模型“第二战场”

云巨头的“抢客大战”发展至今,一方面仍然需要开疆扩土,获得更多客户;另一方面随着上游供应紧张,各家也正在做漏斗筛选,选择更具实力的大模型厂商及更具标杆意义的行业终端客户,合作推进大模型商业化落地。

大模型正在变革云服务的形态,大模型开发平台等PaaS、MaaS业务更具潜力,这仍然是一个王者未定的市场。大模型应用开发与部署成为“第二战场”,哪一家云巨头能让自己的平台孵化出更多大模型或AIGC爆款应用,也就有望在新战场中拔得头筹。