
「智猩猩AI新青年讲座」由智猩猩出品,致力于邀请青年学者,主讲他们在生成式AI、LLM、AI Agent、CV等人工智能领域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。
多人交互作为以人为中心的视觉问题的重要组成部分,在生成模型方面已经取得了实质性进展。目前的研究主要将参与者和反应者同等对待或局限于单个人体运动生成,而忽略了无处不在的人与人之间的交互反应生成。与此同时,现有的人与人交互数据集通常存在身体动作不准确、缺乏手势和细粒度文本描述的问题。
通过结合GAN和Transformer的优势,提出了一个通用的、条件驱动的3D人体动作生成框架ActFormer。
判别器采用ST-GCN(时空图卷积网络)的网络框架,接收人体运动序列和动作标签作为输入,试图区分真实和合成的动作序列。生成器从判别器的反馈中学习,形成博弈,从而使生成结果更接近真实动作。
ActFormer不仅能够生成高质量的、多样化的3D人体动作序列,还支持多种类型的人体动作表征生成以及通过小幅度调整网络框架,引入人数维度使多人共享同一个采样的隐式表征,实现多人动作生成。

通过分析交互序列的不对称性、动态性、同步性和详细性,算法能够完成在线预测人类反应,在人类动作-反应合成任务中取得了显著的效果。
针对现有的人类交互数据集通常存在的问题,提出了目前最大的人类交互数据集Inter-X,包含约11K个交互序列和超过810万帧(frames)的数据。标注部分超过34K个细粒度的人体部位级别的文本描述、语义交互类别、交互顺序,以及交互主体的关系和性格特征。
7月16日晚7点,智猩猩邀请到论文一作、上海交通大学和宁波东方理工大学联合培养博士生徐良参与「智猩猩AI新青年讲座」244讲,主讲《多人互动中的人体动作与反应生成》。
讲者
徐良
上海交通大学和宁波东方理工大学联合培养博士
研究兴趣为以人为中心的视觉问题,包括人体动作生成、人人交互、人和物体/场景交互等的生成与理解、具身智能等,在CVPR、ICCV、ECCV等计算机视觉顶级会议上发表多篇论文。
第244讲
主 题
多人互动中的人体动作与反应生成
提 纲
1、人体动作反应生成的研究现状
2、通用的3D人体动作生成框架ActFormer
3、多人互动中的人体反应扩散生成框架ReGenNet
4、人人交互数据集Inter-X的构建与应用
5、实验结果分析与总结直播信息
直播时间:7月16日19:00
直播地点:智猩猩GenAI视频号
成果
论文标题
《ActFormer: A GAN-based Transformer towards General Action-Conditioned 3D Human Motion Generation》
《ReGenNet: Towards Human Action-Reaction Synthesis》
《Inter-X: Towards Versatile Human-Human Interaction Analysis》
论文链接
https://arxiv.org/abs/2203.07706
https://arxiv.org/abs/2403.11882
https://arxiv.org/abs/2312.16051
项目网站
https://liangxuy.github.io/actformer/
https://liangxuy.github.io/ReGenNet/
https://liangxuy.github.io/inter-x/
直播预约
本次讲座将在智猩猩GenAI视频号进行直播,欢迎预约~
入群申请
本次讲座组建了学习交流群。加入学习交流群,除了可以观看直播,并提前拿到课件外,你还能结识更多研究人员和开发者,所提问题也将会优先解答。
希望入群的朋友可以扫描下方二维码,添加小助手米娅进行申请。已添加过米娅的老朋友,可以给米娅私信,发送“244”进行申请。