加州大学伯克利分校在读博士吴峥：基于密集奖励的强化学习及在机械臂操作上的应用

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年，主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

有兴趣分享学术成果的朋友，可以与智东西公开课教研团队进行邮件（class@zhidx.com）联系。

机械臂强化学习近年来发展迅速，从运动规划、抓取放置到零件装配，都涌现了大量研究成果。尽管存在数据效率、交互安全、sim2real gap 等多方面的问题，强化学习以其智能决策的特点在机械臂领域依然大有应用前景。

机械臂强化学习的任务中，奖励函数起着至关重要的作用。为了达到所需的策略，设计合适的奖励函数通常需要大量的领域专业知识以及反复试验。来自加州大学伯克利分校的吴峥博士等人，为了最大限度地减少为接触丰富的操作任务设计奖励函数所涉及的工作量，提出了一种能够从机器人的高维观察（如图像和触觉反馈）中提取密集奖励函数的方法DREM（Dense Rewards for Multimodal Observations）。

与最先进的高维奖励学习方法相比，DREM不利用对抗性训练，因此不容易出现相关的训练不稳定性。相反，DREM通过以自我监督的方式估计任务进度来学习奖励。最后，通过7自由度机械臂在钉孔和USB插入两个接触丰富的操作任务上的实现，证明了其有效性和效率。实验结果也表明，与基线相比，用学习奖励函数训练的策略具有更好的性能和更快的收敛速度。

7月1日早10点，「AI新青年讲座」第132讲，加州大学伯克利分校在读博士吴峥将主讲《基于密集奖励的强化学习及在机械臂操作上的应用》。

讲者
吴峥，加州大学伯克利分校在读博士；本科毕业于上海交通大学；目前主要研究方向为基于机器学习的工业装配任务，曾在ICRA, IROS, ICLR, Science Robotics等会议期刊上发表论文。

第132讲
主题
《基于密集奖励的强化学习及在机械臂操作上的应用》

提纲
1、机械臂接触丰富操作任务的介绍
2、传统强化学习奖励学习方法的局限性
3、基于任务进度从多模态输入中学习奖励的方法
4、在机械臂操作任务上的应用

直播信息
直播时间：7月1日10:00
直播地点：智东西公开课知识店铺

成果
DREM：《Learning Dense Rewards for Contact-Rich Manipulation Tasks》
论文链接：https://arxiv.org/pdf/2011.08458.pdf

相关推荐