EAIRCon 2025中国具身智能机器人大会是由智猩猩面向具身智能与机器人领域发起主办的大型会议,由主论坛+专题论坛+研讨会+展览区四大板块组成,近40位产业代表与青年科研人员与会分享和讨论,线下参会观众超过1000人。
浙江大学求是特聘教授、浙江人形机器人创新中心首席科学家熊蓉受邀在大会主论坛带来了开场报告,主题为《具身智能作业人形机器人发展挑战与进展》。
在具身智能领域,模型的泛化性至关重要,目前已有诸多研究致力于提升模型的泛化性。对此,浙大熊蓉教授指出,但对机器人来讲,不光是泛化的问题,还要关注其行为能力的问题,我们叫多技能。它不仅包括基础的抓取、放置和移动,更涵盖旋转、拧紧,以及使用各类工具进行粘贴等技能。同时,还必须确保机器人在执行任务时兼具鲁棒性与精准性。
人形机器人本质上属于动态不稳定系统。在为手臂增加负载、赋予作业功能时,会影响整体稳定性;而在利用下半身进行平衡控制时,又会反过来影响末端操作的精度。因此,必须解决人形机器人如何兼顾平衡控制与精准作业这一难题。
数据同样是具身智能领域关注的焦点。熊蓉教授表示:若想要推动未来发展,需要实现低成本、高效率、大规模且高质量的数据生成。我们认为还是应该在仿真环境中构建出接近真实的场景,产生大量数据。这也是许多团队专注于“世界模型”的原因。
在机器人本体方面,当前普遍强调低成本,但现有机器人性能还不足以支撑多样化的实际作业需求。熊蓉教授表示,应该在低成本同时,实现高可靠、高性能以及安全性,这就对核心零部件性能提升提出了要求。
此外,熊蓉教授还从机器人本体、任务导向的通用控制“小脑”、场景适应的感知决策“大脑”,以及多元化数据获取/生成与便捷应用开发工具链等方面,介绍了浙江人形机器人创新中心当前主要技术进展。
以下为熊蓉教授的报告全文:
熊蓉:大家上午好,非常高兴来参加本次的活动。具身智能人形机器人代表了通用的作业形态,还代表着通用的行为智能。它会对我们这个行业的应用起到非常大的促进作用,降低对专家的依赖,推动各行各业机器人的应用拓展。同时从技术上面来讲,它也是在采用各类学习的方法,包括与大模型的融合;通过大规模的数据和并行的训练推动我们的发展。
我们现在也看到,各家在人形机器人的运动:双臂手协同操作各种物体,叠衣服,在环境里语义导航等方面,都取得了非常亮眼的成果。同时一些团队像PI、波士顿动力,都展示出来了把移动和作业结合,或者运动、移动和作业结合所取得的进展。但总体来说,我们还处于产业的早期,依然面临着数据、模型、本体三方面的挑战。

一、具身智能人形机器人在数据、模型、本体上的挑战
1、数据:应在仿真中构建接近真实的场景,产生大量数据
数据,也是大家现在非常关注的。理想的话应该是用低成本、高效率的方式,去获得大规模高质量的数据。我们之前的主要的两种数据采集或生成方式:一个是仿真合成数据,另一个是遥操作的真机采集。最近也有一些像特斯拉提出的采集真人的数据。这几种方法都各有优缺点。

1)仿真生成是一种低成本高效率的方式。但由于现在的空间推理的技术还不够好,使它在生成新数据方面还存在问题;以及物理引擎,导致物理交互和仿真与实际还有比较大的差异。
2)遥操作能够得到真实视-力-触的数据。但是涉及到采集人员、设备数据的清洗标注等,导致这种方式成本高,但效率和质量都偏低,也存在迁移难的问题。
3)真人数据采集,能够比较高效率的做数据采集,但是还需要我们人去佩戴设备,以及需要对采集到的图像进行标注、处理、解析等。而且只能够得到人处理的视觉数据,没办法得到力触的数据。对于视觉数据,由于现在的传感器空间感知能力还是质量比较差,所以也有一定的影响。
若想要推动未来发展,需要实现低成本、高效率、大规模且高质量的数据生成。我们认为还是应该在仿真环境中构建出接近真实的场景,产生大量数据。这也是许多团队专注于“世界模型”的原因。
李飞飞最近发布的Marble AI 3D生成模型也得到了大家的关注,可以生成三维的空间,对提升仿真空间构建效率和分辨率,减少变形和不一致性问题上取得了进展。但对于力触的交互仿真来讲,目前还没有涉及。
对于机器人具身智能的发展来讲,世界模型除了有空间的语义信息,最关键的还是要去建立准确的时空模型推理,以及一定要有高保真的物理交互模拟,才能真正在仿真里实现大规模的训练。

2、模型:不光是可泛化,还要关注机器人行为能力的构建
第二个就是模型。
模型现在大家都在关注可泛化,要跨场景,跨任务,以及要跨本体。但对机器人来讲,不光是泛化的问题,还要关注其行为能力的问题,我们叫多技能。它不仅包括基础的抓取、放置和移动,更涵盖旋转、拧紧,以及使用各类工具进行粘贴等技能。同时,还必须确保机器人在执行任务时兼具鲁棒性与精准性。
目前的进展是我们通过VLM等模型,已经能够实现在物品上面的泛化,并自动生成一定的规划与决策。在下层控制方面,借助扩散策略、流匹配等方法,也提升了行为的适应性与抗扰动能力,也解决了需要专家定义规则,解决转阶段状态-控制决策的问题。
对于我们未来的发展来讲,有两个问题需要去关注:
第一个是VLM模型虽然现在已经有了一定的通用性,但在很多的场景下面会是出现思不准,看不清等一系列问题。我们当然会持续推动VLM的发展,但也不能完全依赖其发展。因此在开放混杂的环境中,必须考虑在VLM不可靠的情况下,要保证行为的准确性,能够生成满足最后实现这个任务的收敛性行为,这是要同时去推动的。
第二个就是在机器人行为学习方面,当前流匹配等方法,实际上是构建了从感知到控制的映射。然而,我们有那么多的行为、场景,不同的空间,还有力触等多方面的信息,构成一个非常高维度的、大规模的问题。在这种情况下,此类映射学习方法是否真的适合?我们传统专家建模与机理的控制方法,实际上是具有良好的通用性,但在适应变化方面是不够的。我们能否将二者结合,实现技能的知识性学习和应用的迁移?

此外,对人形机器人而言,其本质上是一个动态不稳定系统。目前虽然已经能跑能跳了,但如果为手臂增加负载、赋予作业功能,尤其是在速度提升时,会很快观察到其对整体稳定性的影响。当我们用下半身进行平衡控制时,又会反过来影响末端的操作精度。因此,这个时候需要解决平衡控制与精准作业二者如何兼顾的问题。我们也看到宇树最近推出了一个轮臂机器人,如果是两条腿的话,对于它采集的数据稳定性和作业数据的质量都有影响的。
但从长远发展来看,对于家庭环境,最适合的形态可能仍是双足。它能够适应狭窄空间中的行走,并实现从室内到室外的通用行走。因此,我们必须致力于解决双足机器人在快速稳定与精准作业方面的问题。

3、本体:应在低成本的同时,做到高可靠、高性能、高安全
第三个就是本体。
目前都在讲价格也要降低,但其实现在的机器人性能还不足以支撑各种各样的作业。实际上,应该在低成本同时,做到高可靠、高性能以及具有本质的安全性,这就对零部件性能提升提出了要求。
对于整机、部组件来讲,在提升高自由度的时候,还要注重负载自重比的提升。从外观、结构、驱动,到材料等,一体化的设计。从软件层面来讲,我们要考虑端边云计算的协同等一系列问题。

我是从2000年开始从事智能机器人方向的研究,原来背景是计算机的,所以也一直致力于把人工智能技术与机器人结合,让机器人能够在开放动态环境中智能移动和操作。从2006年开始做人形机器人,11年我们做了一个能和人或双机器人乒乓球对打的人形机器人,在国际上也产生了很大的影响。之后在和业界讨论其中的一些技术,像动态伺服技术用到工业界的时候发现:机械臂的操作非常依赖专家的经验。所以提出了如何通过机器人自主学习或模仿人类来生成程序,提升其应用性,降低对专家的依赖。我们在这一领域取得的成果处于国际前沿,正好也是和这一轮的发展方向相匹配。在这个过程中和行业应用去结合落地,同时也培育了一些企业,包括现在非常有名的杭州六小龙之一云深处,以及我自己创办的迦智科技,解决了制造业物流自动化的问题。

二、浙江人形在本体、具身大小脑和工具方面的进展
目前,我带领着学生创办了浙江人形机器人创新中心有限公司,目标是面向行业应用。我们现在的应用的需求是很大的,同时也呈现出多样化和碎片化的特征。因此,我们希望打造基础模型和软硬件工具,与行业专家结合,推动行业应用的发展。

在本体方面,我们会重点关注精度、实时性和可靠性。在工具方面,重点关注让合作伙伴能够容易开发和快速部署,并对数据机器人的状态等实现全链路的管控。当然,我们还关注具身智能的大小脑。
目前我们针对重点关注的这几个方面也取得了一定的进展。
第一个就是如何在视-力-触的感知下,提升它的技能作业能力,做到可范化、高精度、高可靠。目前已经形成了一个任务导向的、通用控制小脑。
第二个就是刚才讲到的,在VLA上面临的VLM不可靠的问题。那么,需要提升它的可靠性、适应性,去做大脑上的一些工作。
同时,为了推动这两方面的工作,我们也构建了多元的数据获取与生成工具链,以及面向行业应用开发的软件。在硬件的方面,我们也是形成了多个泛人形机器人,我们会更关注它们的精度。目前手臂作业的重复定位精度已经达到了0.03毫米,负载自重比达到了0.7。

1、任务导向的通用控制小脑
先来讲第一个,也是我们具有很强优势的通用控制小脑。传统的控制,主要是轨迹跟踪和平衡控制,也起到了很好的作用。但是它依赖于专家调参,可泛化性是不够的。因此,我们构建了一个能够智能作业的控制小脑,是以任务为导向、能够适应各种变化的。
具体如何做呢?我们要去降低数据采集的成本,尽量在仿真里去做基础模型的训练。然后到实际的应用中能够快速适配。我们旨在构建一种通用的表征,这一表征可以是传统专家知识的机理模型,也可以是网络的学习模型。关键是能够表征这种跨模态、泛任务的表达形式。在构建了基础的网络模型之后,我们再去做学习优化。
在这一方面,如果我们采用专家建模方法作为通用表征,主要是解决模型中存在的误差和难以准确建模的问题。针对黑箱,主要解决的是实际应用中的数据长尾问题。通过这种方法,我们已经验证了它能够有效解决力触感知的Sim2Real问题。相当于在仿真中已经训练出一个具有通用知识的控制模型,应用到实物上时,也能实现快速适配。通过将知识方法合学习方法相结合,形成了一种更有效的感知控制模型。

例如,对于装配类的,我们有大量高精度、高可靠性的要求。我们形成了视-力-触的模型。如果是纯视觉的话,只需要一次示教;涉及到力觉,特别是高精度的情况,可以通过一次示教加少量的自主学习来适应。它能够适应各种误差,包括相机随便安装导致的无标定误差,物体摆放误差等都可以适应;还能够适应各种有纹理的、无纹理的物体。视觉可以达到1毫米的精度;在力觉控制下,精度可进一步提升至0.1毫米,最高可达0.03毫米。而且在工业上面已验证能够达到99.99%的成功率。

我们也完成了铰接类物体的操作,不需要在实物中间进行数据采集,而是在仿真里训练后,零样本部署到实物上。这也验证了在多阶段从接触,到开合,到松开中对各种扰动的抵抗能力以及快速适应不同物体的能力。

这种旋拧类的控制,它是多指的,有的是小瓶盖,有的是大瓶盖,需要准确决策是用两个手指还是三个手指?是用指尖力还是腕部的力?还涉及到和瓶盖有重接触、到旋拧、到松开、再接触这种多阶段自适应的问题,这也可以从仿真到实物上。

还有柔性布料的操作,能够去实现搓片和两手交接。
我们在这里也尝试了结合视觉语言大模型,进行知识的引导,发现能够构建一种通用的模型,来完成长序列学习,目前成功率接近90%。有了这样的安全轨迹生成,我们还把全局引导和空间预测结合起来,能够有效解决很大人流量情况下机器人的流畅性。当然我们还有底层的保障,保障它100%安全。

以及我们的运动生成。这一过程无需对人采集的数据进行工程优化处理,而是可以直接映射。目前,我们在新推出的机器人上面也发现,它的自由度虽然变化了,URDF也变化了,但也能够实现快速适配。而且两个机器人都能够适应多种地形,目前最快速度可以达到9公里每小时。

2、场景适应的感知决策大脑
第二个就是我们在大脑方面也做了一些的工作。我们主要是针对长序列的任务,去适应场景的多样性变化,解决VLM不完善;以及在端侧算力有限的问题。我们是从人类身上来获得长序列的复杂任务,加上强化学习和反思探索,来适应场景的变化,解决VLM的不完善;以及从表征稀疏性上去降低端侧算力有限的问题,实现两者的协同。

从2012年起,我们就开始研究从人类中学习,解决人的动作解析、手与物体的接触关系,以及最终形成效果的推理。这一装配作业的研究成果已经应用在了ABB。相似性的装配,可以直接自主推理生成。

在2022年的时候,我们关注到了VLM的发展,在尝试将VLM结合使用时,发现了其不可靠性的问题。所以,我们当时提出了一个以结果为导向的,把语言、视觉、行为对齐的方法,来解决VLM看不清、思不准的问题;以及机器人执行时,比如当机器人要拿一个香蕉却拿不了时,先把旁边的东西清走,解决这种拿不了、放不下的问题;生成自收敛的行为,来保证最后任务的生成。

最近,我们也把反思和探索结合进去了。比如要把香蕉放到装有水果的盒子里,但根据当前的观测是形不成完整序列的,需要根据在执行过程中所看到的进行动态调整;并且如果行为失败,要去动态校正。通过引入反思和探索,我们在原本低成功率的情况下实现了高成功率,部分达到了100%。

在VLN里面,我们主要解决了依赖稠密信息、计算效率低、鲁棒性差的问题,能够根据语义或一张图片完成对环境的探索,以及在环境中的语义导航。

把VLN和底层的控制相结合,能够实现自然语言的长语言序列或含糊的语言导航,实现对一个人的跟随,要进行场景适应下的VLN的验证。

3、多元化数据获取/生成及便捷应用开发工具链
在数据获取方面,我们采用了一套高保真重构和新数据生成技术。该技术能够将真实场景中的大量环境物体映射到仿真环境中,构建数据集来进行数据生成。其中包括动态移动的人等,来支持我们的训练;也有人行为的采集、真机遥操作以及仿真行为生成和数据增广等一系列的技术。

我们也为这个行业应用合作伙伴提供了丰富的SDK和各种数据采集、状态监控、作业调度等管控软件和便捷的二次开发。

三、应用验证案例简述:Peg-in-Hole作业明年批量化应用
目前,我们已经有一些应用验证。像去年5月份,已经在华为的产线上面实现各种Peg-in-Hole的作业。通过一次示教和一定时间的训练,达到了99.99%的成功率。近期,我们进一步将工具操作和柔性布料操作实现分片、移片对准到2毫米。这些预计明年会形成批量化的应用。

这是实验室的一项作业,能够完成料瓶的扫码,并与自动化设备对接,能够进行分液,精度可达10毫米。我们的合作伙伴用我们的机器人在电网中实现了这一应用,也验证了所提供的SDK和工具包的应用性。
我们完成了海外客户的交付,最近也跟做汽车装配自动化的企业对接,完成了汽车里的多个零部件的装配。时间效率方面,达到了企业要求的效率。此外,还在做一些家庭环境的验证。
未来,我们也希望能和更多的上下游合作伙伴,共同推动具身智能人形机器人的发展,谢谢。