硅谷机器人创企融资31亿元，淡马锡投了

机器人前瞻（公众号：robot_pro）
作者｜葛文婷
编辑｜漠影

机器人前瞻3月11日报道，Rhoda AI当地时间周二宣布完成4.5亿美元（约合31.01亿元人民币）A轮融资，该公司估值达17亿美元（约合117.16亿元人民币）。

本轮融资由Premji Invest领投，Khosla Ventures、淡马锡、Mayfield、Capricorn Investment Group等机构跟投。

Rhoda AI团队专注于将机器人系统部署到现实世界中，构建通用的基础模型，使其能够适应商业和工业环境的多变性。

一、62岁上市公司创始人再创业，联手斯坦福教授造机器人大脑

▲Rhoda AI创始人兼CEO Jagdeep Singh

Rhoda AI成立于2024年，总部位于硅谷帕洛阿尔托，创始团队在本次融资前一直处于“隐身模式”，但是创始人兼CEO Jagdeep Singh可并不“隐身”，他是硅谷的连续创业者，此前曾创立固态电池制造商QuantumScape Corp，在电动汽车和能源存储领域拥有丰富的创业经验。

25年前，Jagdeep Singh创办光网络公司Lightera Networks，一年半后以5亿美元卖给Ciena。随后联合创办Infinera，带队从初创走到IPO，这家公司后来被诺基亚以23亿美元收购。

2010年，Singh做了一个疯狂的决定：跨界去做固态电池。当时电动汽车刚起步，主流还是液态锂电池，他却押注“能量密度接近汽油”的固态技术。那家公司叫QuantumScape，在隐身模式下打磨了整整十年。

2020年，QuantumScape通过SPAC上市，市值一度冲破500亿美元（约合3445.85亿元人民币）。大众汽车追着投钱，他本人也成了全球薪酬最高的CEO——2024年薪酬包包含价值23亿美元（约合158.51亿元人民币）的股票期权，折合日薪约48亿卢比（约合3.6亿元人民币）。

就在所有人都以为他要功成身退时，62岁的Singh又悄悄开始了下一段冒险。

硅谷机器人创企融资31亿元，淡马锡投了

2024年，他卸任QuantumScape CEO，转身创办Rhoda AI。这一次，他要给机器人造“大脑”。技术路径同样另类：不让机器人“手把手学”，而是让它自己看数亿条互联网视频，从中理解杯子会碎、球会滚、物体会遮挡——把“物理常识”装进机器人的脑子里。

联合创始人兼CTO陈志强，美国斯坦福大学博士，曾任职NASA喷气推进实验室、谷歌、英伟达、World Labs。

Gordon Wetzstein是斯坦福大学电气工程系副教授和Rhoda AI 联合创始人，他的研究横跨计算机图形学、计算机视觉、人工智能、计算光学等多个领域。

二、让机器人先看懂世界再动手做事，10小时学会复杂工业任务

Rhoda AI的独特之处在于，它将机器人控制重新定义为“实时视频预测”。

目前，大多数机器人公司采用视觉-语言-动作（VLA）模型路线——让机器人通过遥操作采集数据，学习“看到什么→做什么”的映射。这种方式受限于专用设备和人工采集效率，数据量难以扩展，且模型上下文通常只有几帧，难以处理复杂的长时序任务。

Rhoda走的是另一条路：Direct Video-Action Model（DVA）。这套系统的核心逻辑是：让机器人先看懂世界，再动手做事。

具体来说，DVA模型先通过分析海量互联网视频进行预训练，学习物体的运动规律、物理世界的运行逻辑——杯子怎么碎、球怎么滚、物体会如何遮挡。然后，在机器人执行任务时，模型会持续预测未来几秒内“应该发生什么”，再通过一个逆动力学模型将这些视觉预测转化为机器人的物理动作。这个过程每秒循环数十次。

该技术方案有四大核心优势：

数据效率极高：传统VLA模型需数十万小时数据，而Rhoda仅需10-20小时任务数据（如拆箱分拣11小时、工业容器拆解17小时）即可学会复杂工业任务，实现数小时无人工干预运行。
拥有长上下文视觉记忆：DVA原生支持数百帧视觉上下文（VLA仅几帧），能端到端完成复杂长时序任务——退货处理中，8帧记忆会导致重复，而长上下文可流畅完成。
具有单样本学习能力：基于长上下文，DVA支持现场学习：仅需一次人类演示，机器人就能在测试时模仿，泛化到新物体和新环境。
具有可解释性：DVA以视频形式生成动作，研究者可直观看到模型“想象”的未来，便于检查决策、比较配置、验证安全性。

“我们的方法之所以能规模化，是因为视频数据的存在量级比机器人交互数据高出好几个数量级。”Singh解释，“我们用海量视频让模型先学会‘物理常识’，再用少量机器人数据让它学会‘具体任务’——这和让小孩先观察世界、再动手做事是一个道理。”

这套技术方案试图解决机器人领域的长期难题：大多数机器人在可控环境中表现良好，但一旦遭遇突发状况便会失灵。公司表示，未来计划将FutureVision平台授权给硬件厂商使用，且平台设计兼容多种机器人，企业无需改造现有系统即可部署。

结语：机器人的能力边界，取决于“大脑”的进化速度

Rhoda AI选择了一条与众不同的技术路径——用海量视频数据训练机器人的“常识”。这与国内“大脑”企业从工业场景切入、用少量数据解决具体问题的思路形成鲜明对照。

哪一种路径更能通向通用智能？目前尚无定论。但一个清晰的趋势是：本体厂商正集体补课“大脑”。宇树科技王兴兴公开表示，“谁能把机器人用的大模型做出来，谁就是全世界最厉害的AI公司和机器人公司”。Figure AI以390亿美元（约合2687.76亿元人民币）估值领跑全球具身智能企业榜单，也印证了资本市场对模型能力的高期待。

对于中国企业而言，Rhoda的融资释放了一个信号：在“大脑”赛道上，中美几乎处于同一起跑线。中国的供应链优势、数据积累以及工业场景的丰富度，是独有的筹码。正如一位投资人所说：“未来机器人的能力边界，取决于会思考的大脑与会行动的本体的协同进化。”

此刻，一场关于“大脑”的卡位战，才刚刚开始。

一、62岁上市公司创始人再创业，联手斯坦福教授造机器人大脑

二、让机器人先看懂世界再动手做事，10小时学会复杂工业任务

结语：机器人的能力边界，取决于“大脑”的进化速度

相关推荐