机器人前瞻(公众号:robot_pro)
作者|葛文婷
编辑|漠影

机器人前瞻3月11日报道,Rhoda AI当地时间周二宣布完成4.5亿美元(约合31.01亿元人民币)A轮融资,该公司估值达17亿美元(约合117.16亿元人民币)

本轮融资由Premji Invest领投,Khosla Ventures、淡马锡、Mayfield、Capricorn Investment Group等机构跟投。

Rhoda AI团队专注于将机器人系统部署到现实世界中,构建通用的基础模型,使其能够适应商业和工业环境的多变性。

一、62岁上市公司创始人再创业,联手斯坦福教授造机器人大脑

 硅谷机器人创企融资31亿元,淡马锡投了

▲Rhoda AI创始人兼CEO Jagdeep Singh

Rhoda AI成立于2024年,总部位于硅谷帕洛阿尔托,创始团队在本次融资前一直处于“隐身模式”,但是创始人兼CEO Jagdeep Singh可并不“隐身”,他是硅谷的连续创业者,此前曾创立固态电池制造商QuantumScape Corp,在电动汽车和能源存储领域拥有丰富的创业经验。

25年前,Jagdeep Singh创办光网络公司Lightera Networks,一年半后以5亿美元卖给Ciena。随后联合创办Infinera,带队从初创走到IPO,这家公司后来被诺基亚以23亿美元收购。

2010年,Singh做了一个疯狂的决定:跨界去做固态电池。当时电动汽车刚起步,主流还是液态锂电池,他却押注“能量密度接近汽油”的固态技术。那家公司叫QuantumScape,在隐身模式下打磨了整整十年。

2020年,QuantumScape通过SPAC上市,市值一度冲破500亿美元(约合3445.85亿元人民币)。大众汽车追着投钱,他本人也成了全球薪酬最高的CEO——2024年薪酬包包含价值23亿美元(约合158.51亿元人民币)的股票期权,折合日薪约48亿卢比(约合3.6亿元人民币)

就在所有人都以为他要功成身退时,62岁的Singh又悄悄开始了下一段冒险。

硅谷机器人创企融资31亿元,淡马锡投了

2024年,他卸任QuantumScape CEO,转身创办Rhoda AI。这一次,他要给机器人造“大脑”。技术路径同样另类:不让机器人“手把手学”,而是让它自己看数亿条互联网视频,从中理解杯子会碎、球会滚、物体会遮挡——把“物理常识”装进机器人的脑子里。

联合创始人兼CTO陈志强,美国斯坦福大学博士,曾任职NASA喷气推进实验室、谷歌、英伟达、World Labs。

Gordon Wetzstein是斯坦福大学电气工程系副教授和Rhoda AI 联合创始人,他的研究横跨计算机图形学、计算机视觉、人工智能、计算光学等多个领域。

二、让机器人先看懂世界再动手做事,10小时学会复杂工业任务

Rhoda AI的独特之处在于,它将机器人控制重新定义为“实时视频预测”

目前,大多数机器人公司采用视觉-语言-动作(VLA)模型路线——让机器人通过遥操作采集数据,学习“看到什么→做什么”的映射。这种方式受限于专用设备和人工采集效率,数据量难以扩展,且模型上下文通常只有几帧,难以处理复杂的长时序任务。

Rhoda走的是另一条路:Direct Video-Action Model(DVA)。这套系统的核心逻辑是:让机器人先看懂世界,再动手做事。

具体来说,DVA模型先通过分析海量互联网视频进行预训练,学习物体的运动规律、物理世界的运行逻辑——杯子怎么碎、球怎么滚、物体会如何遮挡。然后,在机器人执行任务时,模型会持续预测未来几秒内“应该发生什么”,再通过一个逆动力学模型将这些视觉预测转化为机器人的物理动作。这个过程每秒循环数十次。

该技术方案有四大核心优势:

  • 数据效率极高:传统VLA模型需数十万小时数据,而Rhoda仅需10-20小时任务数据(如拆箱分拣11小时、工业容器拆解17小时)即可学会复杂工业任务,实现数小时无人工干预运行。
  • 拥有长上下文视觉记忆:DVA原生支持数百帧视觉上下文(VLA仅几帧),能端到端完成复杂长时序任务——退货处理中,8帧记忆会导致重复,而长上下文可流畅完成。
  • 具有单样本学习能力:基于长上下文,DVA支持现场学习:仅需一次人类演示,机器人就能在测试时模仿,泛化到新物体和新环境。
  • 具有可解释性:DVA以视频形式生成动作,研究者可直观看到模型“想象”的未来,便于检查决策、比较配置、验证安全性。

“我们的方法之所以能规模化,是因为视频数据的存在量级比机器人交互数据高出好几个数量级。”Singh解释,“我们用海量视频让模型先学会‘物理常识’,再用少量机器人数据让它学会‘具体任务’——这和让小孩先观察世界、再动手做事是一个道理。”

这套技术方案试图解决机器人领域的长期难题:大多数机器人在可控环境中表现良好,但一旦遭遇突发状况便会失灵。公司表示,未来计划将FutureVision平台授权给硬件厂商使用,且平台设计兼容多种机器人,企业无需改造现有系统即可部署。

结语:机器人的能力边界,取决于“大脑”的进化速度

Rhoda AI选择了一条与众不同的技术路径——用海量视频数据训练机器人的“常识”。这与国内“大脑”企业从工业场景切入、用少量数据解决具体问题的思路形成鲜明对照。

哪一种路径更能通向通用智能?目前尚无定论。但一个清晰的趋势是:本体厂商正集体补课“大脑”。宇树科技王兴兴公开表示,“谁能把机器人用的大模型做出来,谁就是全世界最厉害的AI公司和机器人公司”。Figure AI以390亿美元(约合2687.76亿元人民币)估值领跑全球具身智能企业榜单,也印证了资本市场对模型能力的高期待。

对于中国企业而言,Rhoda的融资释放了一个信号:在“大脑”赛道上,中美几乎处于同一起跑线。中国的供应链优势、数据积累以及工业场景的丰富度,是独有的筹码。正如一位投资人所说:“未来机器人的能力边界,取决于会思考的大脑与会行动的本体的协同进化。”

此刻,一场关于“大脑”的卡位战,才刚刚开始。