美国威斯康星大学麦迪逊分校在读博士柳昊天:基于视觉指令调整的多模态聊天机器人 LLaVA|AI新青年讲座

「AI新青年讲座」由智东西公开课出品,致力于邀请青年学者,主讲他们在生成式AI、LLM、计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

7月起,AI 新青年讲座开辟推出「大型语言模型专场」。阿卜杜拉国王科技大学在读博士朱德尧、新加坡国立大学在读博士薛复昭、美国威斯康星大学麦迪逊分校在读博士柳昊天和加州大学伯克利分校人工智能实验室(BAIR)在读博士张天均将参与此次专场。

四位 AI 新青年将分别针对 MiniGPT-4、LLaVA、Gorilla,以及大型语言模型所面临的 Token 危机进行直播讲解。

大型语言模型(LLM)已经表明,语言可以发挥更广泛的作用:作为通用智能助理的通用交互接口。在通用接口中,各种任务指令可以用语言明确表示,并引导端到端训练的神经网络助理切换模式来完成任务。而基于语言增强开发的视觉模型,在开放世界视觉理解方面具有更强大的能力,如分类、检测、分割和图文,以及视觉生成和视觉编辑能力。

在开源 LLM 中,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者通过连接 CLIP 的开源视觉编码器和语言解码器 LLaMA,开发了一个大型多模态模型(LMM)—— LLaVA,并在生成的视觉 – 语言指令数据上进行端到端微调。

实证研究验证了将生成的数据用于 LMM 进行 instruction-tuning 的有效性,并为构建遵循视觉 agent 的通用指令提供了较为实用的技巧。LLaVA 也展示出了一些接近多模态 GPT-4 的图文理解能力:相对于 GPT-4 获得了 85.1% 的相对得分。当在科学问答(Science QA)上进行微调时,LLaVA 和 GPT-4 的协同作用实现了 92.53% 准确率的新 SoTA。

7月21日早10点,LLaVA 一作、美国威斯康星大学麦迪逊分校在读博士柳昊天,将围绕主题《基于视觉指令调整的多模态聊天机器人 LLaVA》对 LLaVA 进行深度讲解。

LLaVA 开源地址:https://github.com/haotian-liu/LLaVA

第三讲

主 题
《基于视觉指令调整的多模态聊天机器人 LLaVA》

提 纲
1、多模态 GPT-4 及 NLP 中的指令微调
2、多模态指令微调数据集的构建
3、LLaVA 模型结构及涌现能力
4、量化评估与未来工作

讲 者
柳昊天,美国威斯康星大学麦迪逊分校在读博士;本科毕业于浙江大学;曾在Microsoft Research、Cruise AI Research访问实习;主要研究方向包括构建定制化的大模型,如使用视觉指令调整的多模态聊天机器人、具有各种控制能力的图像生成模型,以及自监督学习等;相关成果发表在CVPR,ICCV,ECCV,NeurIPS,ICRA上。

直 播 时 间
7月21日10:00