讲座预告：基于多模态思维链的端到端具身智能大模型EmbodiedGPT｜港大在读博士穆尧主讲

「AI新青年讲座」由智猩猩出品，致力于邀请青年学者，主讲他们在生成式AI、LLM、具身智能、计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

「AI新青年讲座」现已完结234讲，错过往期讲座直播的朋友，可以点击文章底部“阅读原文”进行回看！

有兴趣分享学术成果的朋友，可以与智猩猩教研产品团队进行邮件（class@zhidx.com）联系。

具身智能任务要求机器人能够根据当前观测做出与任务对应的准确规划和可执行动作，并能同时完成具身规划、具身问答、具身控制等任务。

而现有的大模型在训练时主要使用互联网数据，缺乏直接从现实世界第一人称视角获取数据的能力，难以适应复杂的真实世界，与机器人有较大的domain gap。因此，赋予机器人实践学习的能力是迈向具身智能的关键。

当前具身智能正面临着三大核心挑战：

1）建立第一视角下灵活的具身认知系统；
2）实现高度灵活的环境自适应决策规划能力；
3）实现目标驱动的与物理世界的精确运动交互。

针对当前当前具身智能面临的挑战，香港大学在读博士穆尧及团队构建了一种EmbodiedGPT大模型，具有具身认知，具身规划和具身执行能力。与EmbodiedGPT相关论文收录于NeurIPS 2024顶会上。

讲座预告：基于多模态思维链的端到端具身智能大模型EmbodiedGPT｜港大在读博士穆尧主讲

首先，该论文构建了具备多模态思维链的人类操纵视频文本数据集EgoCOT；其次，提出了基于多模态思维链的视觉语言预训练方法，使模型具备根据视觉输入做出强相关的可执行性的强决策规划的能力；最后，基于自注意力机制，提取出当前视觉观测和planning中的具体sub-goal高度相关的特征，使模型具备仅通过少量示范数据即能够学会执行底层控制。

讲座预告：基于多模态思维链的端到端具身智能大模型EmbodiedGPT｜港大在读博士穆尧主讲

2月29日晚7点，智猩猩邀请到论文一作、香港大学在读博士穆尧参与「AI新青年讲座」235讲，主讲《基于多模态思维链的端到端具身智能大模型EmbodiedGPT》。

讲者

穆尧，香港大学在读博士
师从罗平教授，共在NeurIPS, ICML, ICLR, CVPR, IJCAI，IEEE TNNLS等顶会顶刊发表论文14篇, 累计发表文章20余篇, 曾获 ICCAS2020 大会最优学生论文奖，IEEE IV2021 最优学生论文提名奖等多项学术奖励, 于2021年在清华大学取得硕士学位，荣获香港博士政府奖学金，香港大学校长奖学金，国家奖学金，清华大学优秀硕士毕业生，清华大学优秀硕士论文奖等荣誉称号。研究方向: 具身智能、强化学习、机器人控制和自动驾驶。个人主页：yaomarkmu.github.io

第1讲

主题
《基于多模态思维链的端到端具身智能大模型EmbodiedGPT》
提纲
1、具备多模态思维链的人类操纵视频文本数据集
2、基于多模态思维链的视觉语言预训练方法
3、面向开放世界的具身智能大模型
4、链接上层规划与底层动作执行的闭环范式

直播信息

直播时间：2月29日19:00
直播地点：智猩猩知识店铺

成果

论文标题
《EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought》
论文链接
https://arxiv.org/abs/2305.15021

报名方式

对本次讲座感兴趣朋友，可以扫描下方二维码，添加小助手莓莓进行报名。已添加过莓莓的老朋友，可以给莓莓私信，发送“235”即可报名。

我们会为审核通过的朋友推送直播链接。同时，本次讲座也组建了学习群，直播开始前会邀请审核通过的相关朋友入群交流。

讲座预告：基于多模态思维链的端到端具身智能大模型EmbodiedGPT｜港大在读博士穆尧主讲

相关推荐