ICML 2021一作讲坛上新,三位论文一作深度讲解强化学习斗地主、深度学习的3D结构生成、多任务学习与元学习的高效迁移

继「学术新青年讲座」、「CVPR 2021特别企划」之后,智东西公开课AI教研组又有新动作啦~

当下,人工智能正热,而其备受关注、取得革命性进步背后的“推手”正是机器学习。关于机器学习的定义有很多,但它的基本目标是一致的,即在训练样本的基础上进行泛化,让机器学习模型成功解释之前从未“见过”的数据。近年来,有很多新型的机器学习技术受到人们的广泛关注,像深度学习、强化学习、迁移学习、对抗学习、元学习等,它们在数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、游戏和机器人等领域有着广泛的应用。

ICML是国际机器学习领域最具影响力的学术会议之一,亦是探讨机器学习前沿研究成果和技术实践应用的重要舞台。为了让大家更到的了解ICML的最新研究成果,智东西公开课全新策划推出了「ICML 2021一作讲坛」。

首期我们邀请到3位ICML 2021论文一作,讲解他们各自在ICML 2021上的最新研究成果。

8月30日早10点,来自莱斯大学的查道琛博士将率先带来「ICML 2021一作讲坛」第1讲的直播讲解,讲解主题为《游戏AI探究:从零开始通过自我博弈强化学习来学打斗地主》。

强化学习是机器学习大家族中重要的分支,相较于有监督学习和无监督学习,强化学习最大的特点是在交互中学习,即智能体在与环境的交互中根据获得的奖励或惩罚不断的学习知识,更加适应环境。正因如此,强化学习非常适合应用在游戏领域,通过提供指向高等级目标的奖励信号,让游戏角色制定出获得高额奖励的最优策略,从而有助于设计出更强的游戏角色。

现阶段,强化学习已经应用在了很多棋牌类游戏中,如AlphoGo(围棋)、冷扑大师(德州扑克)、Suphx(麻将)。而斗地主因其极大的状态空间、丰富的隐含信息、复杂的牌型、并存的合作与竞技,一直是一个极具挑战的领域。

本次讲座中,查博将深入讲解他们在ICML 2021上最新提出的工作,面向斗地主的DouZero AI人工智能系统。讲解的内容主要包括基于蒙特卡罗算法的优化算法;以及RLCard工具包。RLCard集成了DouZero中的算法,并且支持八种游戏实现(包括斗地主、麻将、德州扑克等)以及各种强化学习算法(比如DouZero中使用的算法DMC、DQN、CFR等)。

第2讲将于8月31日晚7点进行,由蒙特利尔学习算法研究院研究生徐民凯主讲,主题为《基于二阶规划的端到端3D结构生成框架》。

深度学习已经在分子性质预测,分子生成等领域取得了极大的进展,在这些场景中,分子通常被表示为以原子为节点、共价化学键为边的图。然而,在现实应用中分子通常以三维结构进行表示。相比图结构,3D结构更加本质,通常蕴含着更丰富的信息,也决定了许多化学和生物学特性。

最近大多数工作首先预测原子之间的距离,然后通过求解距离几何问题,根据预测的距离生成分子构象。这种基于距离几何的方法有效地考虑了分子构象的旋转和平移不变性,因此取得了很好的性能。但是,这种两阶段的方法通常会遭受误差传递的负面影响,即如果第一阶段预测的距离本身就不能支撑一个合理的三维结构,那么第二个生成阶段会生成非常不合理的分子构象。

在本次讲座中,徐民凯老师讲解他们在ICML 2021上发表的最新研究成果:一种基于条件VAE的架构ConfVAE。分子图首先会被映射到特征空间,然后通过求解一个双层优化问题来生成他的3D结构。

第3讲将由伊利诺伊大学厄巴纳香槟分校在读博士王昊翔主讲,时间为9月1日早10点。王博将以《联结多任务学习与元学习:快速训练与高效迁移》为主题讲解他们在ICML 2021上的最新成果。

多任务学习主要是通过在多个任务上同时训练来提升泛化能力。而元学习是通过在有限的数据快速学习从未见过的新任务。多任务学习和元学习在算法框架上存在着很大的差别,但当利用训练任务之间的共享结构,将多任务学习和元学习进行结合,便能得到更好的泛化和适应能力。

在本次讲座中,王博将详细剖析多任务学习和元学习之间的密切联系,证明多任务学习与一类基于梯度的元学习算法 (Gradient-Based Meta-Learning,GBML) 共享相同的优化形式,并且可以在同一数据集上会学到相似的模型。通过多个实验证明,多任务学习算法可以在小于10%的训练时间上,训练出达到最先进的GBML的水平的模型。

「ICML 2021一作讲坛」将在智东西公开课知识社区进行,包含主讲和问答两个部分。其中主讲环节40分钟,问答环节20分钟。每个环节主讲老师都将通过视频直播进行实时讲解与互动。

「ICML 2021一作讲坛」筹备不易,欢迎大家踊跃报名。同时后续更多的ICML 2021 论文一作我们也在持续邀请中,大家敬请期待!

课程介绍

课程时间:8月30日早10点
课程主题:游戏AI探究:从零开始通过自我博弈强化学习来学打斗地主
讲师介绍:莱斯大学四年级在读博士查道琛

课程时间:8月31日晚7点
课程主题:基于二阶规划的端到端3D结构生成框架
讲师介绍:蒙特利尔学习算法研究院研究生徐民凯

课程时间:9月1日早10点
课程主题:联结多任务学习与元学习:快速训练与高效迁移
讲师介绍:伊利诺伊大学厄巴纳-香槟分校在读博士王昊翔