获宇树、小米合作，复旦教授联手前英特尔首席科学家创业，打造具身智能的OpenAI

智东西（公众号：zhidxcom）
作者｜许丽思
编辑｜漠影

一台机器人，昨天还在仓库里熟练地分拣包裹，今天换了个货架就懵了，这是眼下不少机器人面临的尴尬处境：稍微改变一下工作环境，机器人的干活能力就像失效了一样，没法举一反三。

这背后折射出的，正是主流VLA路线的局限性：VLA曾被视作通往通用机器人的关键路径，但越来越多人意识到，其在面对物理世界千变万化的实时交互时，显得力不从心，泛化能力有限，难以举一反三。

在这样的背景下，一家成立于2025年的上海创企眸深智能独辟蹊径，沿着生成式路线打造机器人原生通用大脑，该公司也是全球首家生成式通用具身大脑公司。

眸深智能由三位复旦校友联手创办：首席科学家陈涛为复旦教授、原华为海思AI图像算法引擎负责人，CEO穆泽林是连续创业者，张益民为英特尔中国前首席科学家及英特尔首席工程师，掌舵工程与架构。

“眸深”这个公司名字背后，也带着团队对具身智能的理解：英文源于团队核心技术的“Motion GPT”（动作生成大模型），中文“眸”代表以视觉为基石，让机器人手眼并用，真正在物理世界动起来。

独特技术路线、完备且资深的团队让眸深智能受资本青睐，今年1月，该公司刚连续完成数千万人民币天使轮追加投资，由上海国和投资领投。穆泽林在接受智东西专访时透露，该公司基本上每个月都会交割一轮融资。

眸深选择对标美国Skild AI，这两家公司的产品思路都强调“一脑多形”，只是技术范式和能力重点有所不同。眸深智能的终极目标，是要成为“具身智能时代的Windows”，打造市值千亿以上的通用大脑平台。

一、复旦“铁三角”联手创业，要让机器人真正在物理世界动起来

眸深智能的诞生，源于CEO穆泽林对更大机会的追寻，以及首席科学家陈涛将学术成果落地为产业价值的渴望。

穆泽林有着丰富的创业经历，曾创办了聚焦于AI外呼领域的木心智能。在成功将木心智能做到年营收过亿后，他敏锐地看到了业务的天花板，选择卖掉公司，继续在AI领域寻找一个能做十年、二十年的方向。

陈涛的动机则更像一个学者对产业化的主动转身。他曾任职华为新加坡中央研究院、现任复旦大学教授。在长期的学术研究过程中，他觉得，高校科研与产业结合度低，难以将成果落地，应该要借助产业资源将原创理论落地；反过来，真实场景中遇到的挑战还可以倒逼高校研究更有针对性。

事实上，两人早在2019年就已经有过共同创业的念头。只是当时陈涛刚从海外和企业回到复旦，科研平台刚起步，还不适合马上投入创业。

直到2023年ChatGPT出现后，创业的想法经过几年的沉淀后终于开始走向落地，两人决定聚焦具身智能模型的相关领域。

团队“铁三角”的补齐，得益于前英特尔中国首席科学家张益民的加入。张益民与穆泽林、陈涛同是复旦校友，是前英特尔中国研究院首席科学家及英特尔首席工程师，原机器人交互实验室高级总监，从2015年起负责服务机器人研发。

至此，眸深智能形成了“模型算法+商业化+工程架构”的互补组合：穆泽林负责商业化与组织，陈涛主导模型算法，张益民补上工程与架构。

据了解，眸深智能的团队规模并不大，全职员工不到20人。但其背后依托着与复旦大学的校企联合研究中心，拥有一支60余人的强大博士研究团队。这种“小型公司+大研究院”的结构，构成了它与大部分创业公司不同的组织基础。

具身智能行业迭代速度快，为了平衡短期成功压力与长期基础研究的投入，眸深智能内部形成了独特的“顶天+立地”的双线研发阵型。

“顶天”的研究由高校联合实验室的博士团队负责前沿探索，聚焦从0到1的创新技术研发；而“立地”则偏向于工程化落地，由公司内部的工程师团队结合成熟技术与自研模块，以客户为中心进行交付。这两条线形成闭环，前沿探索为工程落地提供技术储备，工程实践又为前沿研究指明方向。

陈涛谈道，眸深智能在开展研究前期，就通过考察国内外头部机构的研究进展，坚决避开VLA等已过度内卷的同质化赛道，专注于生成式和端侧部署等更具特色的深层研究。

但不碰同质化，不等于闭门造车。眸深同时也秉持兼容并包、取长补短的理念，借鉴外界出色的研究成果优点，并与自研技术融合，在差异化中形成自身特色。更重要的是，团队坚持技术与场景同步推进，不等技术100%成熟才考虑落地，而是主动寻求场景和业务。

二、不走寻常路，坚持生成式是人机互动的理想范式

眸深选择生成式技术路线，根植于陈涛早期形成的技术信仰。

在他看来，AI的终极目标是服务人，人首先需要的是互动的价值，传统模仿学习或预编程机器人缺乏互动性，而生成式是实现人机互动的理想范式。

以ChatGPT为例，生成式模型能够根据人的问题和反馈不断修正和完善自己的回应，这种动态交互的能力正是具身智能所需要的核心特质。

眸深自主研发的全球首个数字人动作生成模型MotionGPT，首创了“动作基元”技术，将复杂的动作序列拆解为上千个基础元素，模型可根据自然语言指令，动态调用并组合这些基元，生成全新的、未训练过的动作序列。

获宇树、小米合作，复旦教授联手前英特尔首席科学家创业，打造具身智能的OpenAI ▲MotionGPT框架图

为了攻克数据瓶颈，眸深开创性地采用了“三段式训练架构”：先用90%的互联网视频让模型理解通用运动规律，再用仿真数据微调适配，最后仅需极少量的真机数据进行强化学习校准，大幅降低了数据成本，提升训练效率。

▲机械臂抓取物体，相比目前最前沿的Pi0.5模型效率高80%

针对互联网视频数据质量参差不齐的问题，陈涛团队还自研了一套半自动的数据筛选、标注以及自动化数据搜索与蒸馏技术，让模型在学习过程中动态选择最适合当前阶段的数据，最后用价值观对齐和真机微调提升模型性能。

在模型轻量化与端侧部署上，眸深研发了全球首个多模态模型轻量化方案MADTP动态令牌剪枝算法，目前已经升级到第三代MADTP++,实现将模型压缩至原来的1/8、推理速度提升10-20倍的效果，实现百亿参数模型在机器人端侧芯片上的高效运行。

获宇树、小米合作，复旦教授联手前英特尔首席科学家创业，打造具身智能的OpenAI

▲眸深具身大模型算侧压缩框架获得IJCAI 2025全球最佳论文奖

这个算法能够把模型变“轻”，不仅可以通过压缩，把体量大的模型压到端侧可承载的规模，还能在推理阶段做动态调用，按任务复杂度调动不同参数量，避免端侧每次满负荷运转，从而把算力消耗压到可控区间。

眸深智能还提出了全球首个“世界动作模型（World Motion Model）”。它使机器人拥有理解物理规律和动作原理的通用能力，能够根据外部环境做出实时反应，生成最符合当下环境的动作。

▲多机协同运动演示

归根结底，眸深智能一直坚持生成式路线，瞄准的就是让机器人具备像人一样在交互中理解环境、生成决策并即时行动的能力，这也是机器人真正走出实验室、进入复杂现实场景的核心前提。

三、找准生态位，以原生大脑赋能千行百业落地

当前，不少具身智能项目容易卡在POC或Demo阶段，穆泽林认为，主要有两大原因：一是技术本身泛化性不足，产品难以从示范走向规模化；二是POC设计之初就没有考虑规模化后的节拍、续航、工作寿命等现实问题，一个Demo或许可以忽略这些约束，但现实商业化落地不能。

所以，眸深智能的商业化打法，就是选择那些技术能领先市场6-12个月、容错率较高的领域，作为技术的最佳试验场，逐步实现规模化落地，避免陷入纯技术演示的困境。

围绕这一思路，眸深目前明确聚焦两个垂直方向：工业物流等多场景搬运，以及家庭健康养老。前者重点对应动态避障、多机协同等需求，后者则会从安全监护逐步延伸到肢体辅助等更复杂服务。

在接订单这件事上，眸深智能显得有些克制。穆泽林提到，眸深智能在订单选择上有着清晰的三大标准：只与千亿级以上的产业龙头合作；只合作单一类型有万台以上潜在订单的规模化项目；只投入面向国家重大需求、具有战略意义的领域。不符合标准的订单一概不接，确保资源集中投入到长期价值项目中。

目前，眸深智能的技术已快速进入产业化验证阶段。据了解，该公司在成立第一年就获得了来自宇树科技、国地中心、禾川科技、小米集团等头部客户的青睐，去年已确认三千万元的订单收入。

展望今年，穆泽林对订单增长有明确预期，预计将达到六七千万元，主要增长将来自其核心产品“大脑模组”和ODM机器人出货，目前已签约两家行业龙头企业，将带来数千万元的收入。

穆泽林觉得，具身智能产业将像PC时代和自动驾驶时代一样走向分工协作，机器人本体长期将是多种物理拓扑结构共存，很难由单一结构的机器人适应所有需求。因此，眸深立志成为机器人领域的通用“大脑”供应商，专注赋能下游本体厂商和终端客户。

对于是否会涉足硬件本体，首席科学家陈涛表示，当前阶段将非常专注大脑及端侧模组，打造软硬结合的系统。未来，眸深智能不排除根据特定场景需求，与本体厂商合作DIY定制本体，但不会从头到尾自研机械结构。

结语：破解架构瓶颈，眸深智能以第一性原理为机器人重塑可持续学习的原生大脑

谈及当前影响具身模型为何难以收敛，陈涛认为，关键在于缺乏一个为机器人原生的模型架构。现有模型多从语言模型演化而来，原生能力是时序语言建模，其“基因”注定难以应对具身领域高度非结构化的数据和场景。

具身智能领域好的训练目标，也不应仅仅是预测下一个动作token，而是应该实现对视觉、语言意图和行为动作这三类token的精准预测与深度融合，这才是通往通用物理智能的关键。

所以，具身智能需要专为其打造的原生大脑，根据第一性原理，从机器人操作的本质和物理规律出发来设计模型。同时要能够实现机器人大脑的端侧部署闭环，可以实现像人一样边干边学，在执行的过程中不断提升模型能力，这恰恰是眸深长期以来一直在做的事情。

据了解，未来三年，眸深智能已经有了明确的规划：客户端今年实现10家以上上市公司的战略合作签约，5-6家以上进入小批量产，3家实现规模化放量，并最终在三年内服务约20家头部客户。资本层面，完成3-4轮新的融资，迅速跻身行业头部。

技术上，眸深智能即将发布全球首个人类思维方式的世界模型（HL3DWM），未来将继续致力于减少物理幻觉、增强交互实时性，并进一步升级其生成式架构，朝着测试即训练、在执行中进化的机器人原生大脑迈进。

一、复旦“铁三角”联手创业，要让机器人真正在物理世界动起来

二、不走寻常路，坚持生成式是人机互动的理想范式

三、找准生态位，以原生大脑赋能千行百业落地

结语：破解架构瓶颈，眸深智能以第一性原理为机器人重塑可持续学习的原生大脑

相关推荐