多模态大模型线上闭门会上线，通义实验室/港中文/港科大三位青年学者主讲ControlLLM、LLaMA-VID和mPLUG-DocOwl

智猩猩，由智东西公开课升级而来，定位硬科技讲解与服务平台，提供讲座、线上闭门会、公开课、在线研讨会、峰会等线上线下产品。

「线上闭门会」由智猩猩全新企划，将持续邀请行业、领域专家担任出品人共同策划出品，探讨人工智能、自动驾驶领域中的最新技术研究与应用。

2023 年可谓是多模态大模型爆发的元年。从OpenAI 的 GPT-4V，到谷歌的 Gemini，再到国内众多机构发布的多模态大模型。大模型的能力已经不仅仅局限于传统的文本输入和输出，通过处理包括文本、图像、音频和视频在内的多种数据类型，使得它能够执行更加复杂和多样化的任务，从而扩展到了图像生成、视频处理、文档处理、语音识别和生成等领域。

多模态大模型是智猩猩重点关注的领域，今年也将持续深入挖掘学术界和工业界在多模态大模型上的研究进展和最新成果。1月17日晚7点，智猩猩推出「多模态大模型线上闭门会」。本次闭门会由阿里巴巴通义实验室 NLP 高级算法专家严明参与出品，并聚焦于大语言模型工具调用 ControlLLM、长视频理解视觉语言模型 LLaMA-VID和多模态文档理解大模型 mPLUG-DocOwl。

出品人严明的主要研究方向为对话问答、预训练语言模型与多模态内容理解，目前为团队多模态大模型基础技术负责人，发表 ICML/ACL/EMNLP/ICLR/CVPR/AAAI 等40多篇国际顶级会议论文。他参与打造的 AliceMind 语言模型体系入围2021世界人工智能大会最高奖 SAIL 奖Top30，并获得达摩院最高荣誉奖项达摩院项目团队奖，目前负责 X-PLUG 开源体系构建，以及魔搭 Agent、通义星尘等大模型应用。

严明老师也曾参与过智猩猩联合达摩院自然语言智能实验室策划推出的「阿里达摩院大模型公开课」，并围绕《达摩院通义 mPLUG 多模态预训练技术演进及应用实践》进行了主题讲解。

本次闭门会，香港科技大学在读博士刘兆洋、香港中文大学在读博士李彦玮和阿里巴巴通义实验室高级算法工程师文束将参与主讲。他们将分别围绕主题《从 InternGPT 到 ControlLLM，基于大语言模型的多模态理解与生成能力构建》、《LLaMA-VID: 专注于长视频理解的视觉语言大模型》和《mPLUG-DocOwl：多模态文档理解大模型》进行主题分享。

多模态大模型线上闭门会上线，通义实验室/港中文/港科大三位青年学者主讲ControlLLM、LLaMA-VID和mPLUG-DocOwl

出品人

严明，阿里巴巴通义实验室NLP高级算法专家。主要研究方向为对话问答、预训练语言模型与多模态内容理解，目前为团队多模态大模型基础技术负责人。曾在SQuAD/GLUE/MSMARCO/VQA等10多个国际赛事中取得第一，并4次取得超越人类基准的结果，发表ICML/ACL/EMNLP/ICLR/CVPR/AAAI等40多篇国际顶级会议论文。参与打造的AliceMind语言模型体系入围2021世界人工智能大会最高奖SAIL奖Top30，并获得达摩院最高荣誉奖项达摩院项目团队奖，目前负责X-PLUG开源体系构建，以及魔搭Agent、通义星尘等大模型应用。

主题介绍

香港科技大学在读博士刘兆洋：《从 InternGPT 到 ControlLLM，基于大语言模型的多模态理解与生成能力构建》

本次分享将围绕大语言模型工具调用的最新进展以及相关工作进行展开，主要包括：InternGPT 和 ControlLLM。

InternGPT 作为早期大语言模型工具调用的探索工作，率先尝试基于指尖设备构建多模态交互系统，让用户通过点击、框选、拖动等方式与 ChatGPT 交流，并解决视觉任务。ControlLLM 是全新的工具调用框架，基于 Thoughts-on-Graph 任务规划范式，让大型语言模型 (LLMs) 能够利用多模态工具，解决更复杂的真实世界任务。

这两个工作都展示了如何通过语言以及非语言指令进行工具调用，提高 LLMs 在多模态理解和生成方面的能力和效率。

刘兆洋目前在上海人工智能实验室兼职实习，发表了多篇论文，涉及视频理解，音视频分析与处理和多模态表征学习等领域，并担任了多个国际顶级会议/期刊的审稿人。他当前的研究兴趣主要集中在大语言模型的工具调用以及多模态人机交互，代表工作有 InternGPT 和 ControlLLM，这些工作旨在通过工具，使语言模型不仅能获取更新的外部知识，同时能跨模态与人进行交互。

香港中文大学在读博士李彦玮：《LLaMA-VID: 专注于长视频理解的视觉语言大模型》

本次分享主要介绍一种新提出的 LLaMA-VID 用于长视频理解。在这项工作中，我们旨在解决视觉语言模型（VLM）中的长视频 Token 生成负载。

当前的 VLM 在图像字幕和视觉问答等任务中表现出色，但由于每帧需要过多的Token进行表示，难以支持几个小时的长视频理解。LLaMA-VID 通过使用两个不同的 Token 来表示每一帧解决这个问题，即上下文 Token 和内容 Token。上下文 Token 基于用户输入编码整体图像上下文，而内容 Token 则封装了每个帧中的视觉信息。这种策略显著减少了长视频的负载，同时保留了关键信息。

LLaMA-VID 通过这种方式不仅能够使现有框架支持数个小时的视频，并将现有 VLM 的上限进一步提升。我们的方法在大多数基于视频或图像的基准测试中取得最优的结果。

李彦玮师从贾佳亚教授，主要关注方向为计算机视觉和多模态感知，在 CVPR、ICCV、ECCV、NeurIPS、TPAMI 等会议及期刊上发表20篇以上文章，其中一作9篇，Google Scholar 引用1200+。他曾获微软奖学金提名，并作为一作获得 Microsoft COCO 比赛亚军，也担任 CVPR、ICCV、ECCV、NeurIPS、ICML、ICLR、IJCV 等会议或期刊审稿人。

阿里巴巴通义实验室高级算法工程师文束：《mPLUG-DocOwl：多模态文档理解大模型》

通过对齐视觉编码器和大型语言模型，多模态大模型在通用视觉理解上取得了不错的效果，甚至实现了初步的文字识别能力。然而，由于采用的是低分辨率编码器，他们依旧难以编码富含文字信息的高分辨率(>1k x 1k)的文档类型图片。

为了避免重新训练高分辨率编码器带来的训练代价，我们提出一种形状适应的切图模型将高分辨率图片切割为多个子图，并由语言模型来理解子图之间的关系。通过统一多个文档理解数据集的任务形式，搭配精心设计的两个辅助学习任务，我们的模型经过小参数量的微调在多个文档理解测试集上达到了 ocr-free 的 SOTA 效果。

文束目前是阿里巴巴通义实验室高级算法工程师，中国人民大学博士，在 ICCV、ACL、EMNLP、NeurIPs、AAAI、ACM MM 等会议上发表论文十余篇。

报名方式

线上闭门会的直播，仅面向通过报名审核的用户。同步组建的专属交流群，也仅面向通过报名审核的相关用户开放。

欢迎对本次线上闭门会感兴趣的朋友，扫描海报上的二维码，添加小助手「李宛儿」进行报名。已添加过的老朋友，可以直接给李宛儿私信，发送“ 闭门会2401 ”即可申请报名。

相关推荐