跟福尔摩斯抢活干！AI“读图会意”技能首超人类，刷新VQA挑战记录

智东西（公众号：zhidxcom）
作者 | 心缘
编辑 | 漠影

从下面这张图，你能立即猜出用电脑工作的这个人是否有车、有没有结婚吗？

AI可以迅速锁定胳膊下压着的车钥匙和左手无名指上的戒指，由此推断出可能的答案：有车、已婚。

除了秒辨图片里有哪些内容外，AI已经开始挑战更高阶的“学霸”行为，即在看图和理解问题后，立即给出对应的关联信息。

这一高阶任务属于机器视觉问答（Visual Question Answering）领域。过去数年间，AI一直在挑战新的能力巅峰：2015年在视觉分类任务上超越人类成绩，2016年击败世界人类顶尖棋手，2018年文本阅读理解能力超人类基准……

如今，就在本周，AI终于在视觉问答VQA这一高阶任务上，取得了超越人类水平的最新突破。

在国际权威机器视觉问答榜单VQA Leaderboard上，阿里巴巴达摩院深度语言模型体系AliceMind以81.26%的准确率创造了新纪录，让AI在“读图会意”上首次超越人类基准线80.83%。第一位得分超越人类的AI选手诞生了。

跟福尔摩斯抢活干！AI“读图会意”技能首超人类，刷新VQA挑战记录 ▲达摩院AliceMind在VQA Leaderboard上创造首次超越人类的纪录

一、VQA考卷有多难？堪称“变态”的侦探级推理

什么是视觉问答（VQA）？简单来说，给AI一张照片，AI不仅能用文字回答图片里有什么，还能通过推理回答出更多增量信息。

比如，下面这张图中，你能看见暖黄的灯光下，一个戴着眼镜的男子正枕在白色枕头上张嘴酣睡，他的左手侧，一只漂亮的猫咪正凝视着你。

跟福尔摩斯抢活干！AI“读图会意”技能首超人类，刷新VQA挑战记录

那么问题来了，这只猫是什么品种？

AI能做到秒答：暹罗猫。

看图问答只是基本操作，AI的视觉问答能力范畴还包括：看见车胎就能回答其汽车品牌，看见一只熊就知道它的品种，看见士兵玩具和战斗场景就知道它出自星球大战电影……

跟福尔摩斯抢活干！AI“读图会意”技能首超人类，刷新VQA挑战记录

VQA，这个将计算机视觉与自然语言技术交融的多模态领域前沿研究方向，对研发通用人工智能有重要意义。

但要让AI具备像侦探一样细致的观察能力、像百科全书一样全面的知识储备，可不是容易的事。

为了攻克这一难题，全球计算机视觉顶会CVPR从2015年起连续6年举办VQA挑战赛，形成了国际上规模最大、认可度最高的VQA数据集，其包含超20万张真实照片、110万道考题。

在测试中，AI需根据给定图片及自然语言问题，生成正确的自然语言回答。

跟福尔摩斯抢活干！AI“读图会意”技能首超人类，刷新VQA挑战记录

说起来简单，但要取得漂亮的成绩，AI不仅要修炼好图像识别、文本识别、文本理解等基本功，还要解锁计数、读钟表、推理认知等附加技能。

基于此，AI首先获知所有图像信息，再结合对文本问题的理解，学习图文的关联性、精准定位相关图像信息，最后根据常识及推理回答问题。

当然，拥有百科全书的丰富常识，是能做到秒答问题的前情提要。

VQA考题有多难呢？举个例子，下图中的这些玩具是用来做什么的？

跟福尔摩斯抢活干！AI“读图会意”技能首超人类，刷新VQA挑战记录

人类尚需通过观察和思考才能给出答案，而AI在检索图片后，根据小熊玩具上的礼服装饰，推断出一个可能的答案：婚礼。

微软、Facebook、斯坦福大学、阿里巴巴、百度等众多全球顶尖机构均在参与VQA挑战赛。

跟福尔摩斯抢活干！AI“读图会意”技能首超人类，刷新VQA挑战记录 ▲自2015年以来VQA技术的进展

今年6月，阿里达摩院在VQA 2021 Challenge的55支提交队伍中夺冠，成绩领先第二名约1个百分点、去年冠军3.4个百分点。

两个月后，就在本周，达摩院再次以81.26%的准确率创造VQA Leaderboard全球纪录，首次超越人类基准线80.83%。

这意味着，在封闭数据集内，AI的VQA表现已经媲美人类水准，向认知智能迈进关键一步。

在更开放的现实世界，AI虽然面临着更多挑战，但已经有相当方便的应用，正改变人们的生活。

二、从生活Tip到电商问答，VQA已开始落地商用

VQA技术能做什么？从图文阅读、跨模态搜索、盲人视觉问答、医疗问诊到智能驾驶、虚拟主播等应有尽有，正在改变着人机交互方式。

比如，给AI一张自助餐现场照，它能知道这是什么场所；让AI看一个披萨图，它能秒知披萨上撒了什么蔬菜；问照片中的棒球队来自哪座城市，它能马上回答：纽约。

跟福尔摩斯抢活干！AI“读图会意”技能首超人类，刷新VQA挑战记录 ▲AI能从图中推断出棒球队来自纽约

再比如这张图，如果你问左边女生穿什么颜色的T恤、图中展示什么酒、人们在参加什么活动？AI会准确地回复：黑色、红酒、品酒。

跟福尔摩斯抢活干！AI“读图会意”技能首超人类，刷新VQA挑战记录

而且，AI还能避开一些“挖坑”问题，假如你问上图中为什么人们戴着帽子？AI会老实回答：他们没戴。

除了作为生活答题小能手外，AI已经实现了大范围的商业应用落地。

以阿里平台为例，目前，VQA技术已在阿里内部应用于商品图文理解、智能客服等场景。

截至今日，数万家淘宝天猫商家已开通店小蜜客服VQA视觉问答功能，当消费者对商品进行提问时，AI客服可通过理解、检索信息丰富的商品详情海报进行回答，包括裁切一张小图作为答案。

跟福尔摩斯抢活干！AI“读图会意”技能首超人类，刷新VQA挑战记录

这一方面为消费者带来了更好的交互体验，另一方面为卖家节省了大量配置成本，帮店家提升了提问解决率。盒马、考拉的客服场景，闲鱼的图文同款匹配场景也接入了VQA能力。

VQA还能回答非事实类、有主观色彩的问题：

跟福尔摩斯抢活干！AI“读图会意”技能首超人类，刷新VQA挑战记录

此外，VQA技术也被应用于智能直播间等多模态人机交互场景中，帮助解决直播中多模态剧本构建、多模态语义问答等问题。

基于创新性的多模态预训练方法，达摩院还为AliExpress训练了电商多模态通用模型，应用于搜索query相关性排序等需要图文理解的场景，有效提升了搜索相关性。

据悉，VQA技术在电商领域成熟运用后，阿里计划将其推广至医疗问诊等更广泛的应用领域。

三、VQA分数首超人类，达摩院是怎么做到的？

VQA挑战的核心难点在于，需在单模态精准理解的基础上，整合多模态的信息进行联合推理认知，最终实现跨模态理解，即在统一模型里做不同模态的语义映射和对齐。

据悉，为了解决VQA挑战，基于阿里云PAI平台及EFLOPS框架的工程底座，达摩院语言技术实验室及视觉实验室对AI视觉-文本推理体系进行了系统性的设计，融合了大量算法创新，包括：

（1）多样性的视觉特征表示：从各方面刻画图片的局部和全局语义信息，同时使用Region，Grid，Patch等视觉特征表示，以更精准地进行单模态理解；

（2）多模态预训练模型：基于海量图文数据和多粒度视觉特征的多模态预训练，用于更好地进行多模态信息融合和语义映射，创新性地提出了SemVLP，Grid-VLP，E2E-VLP和Fusion-VLP等预训练模型；

（3）自适应的跨模态语义融合和对齐技术：创新性地在多模态预训练模型中加入Learning to Attend机制来进行跨模态信息地高效深度融合；

（4）知识驱动的多技能AI集成：采用Mixture of Experts (MOE)技术进行知识驱动的多技能AI集成。

这些技术正让AI“读图会意”水平上了一个新台阶。

其中自研的多模态预训练模型E2E-VLP，StructuralLM已被国际顶级会议ACL2021接受。

论文链接：

1、 E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning, ACL2021

2、 A Structural Pre-trained Model for Table and Form Understanding, ACL 2021

3、 SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple Levels

模型大图如下：

跟福尔摩斯抢活干！AI“读图会意”技能首超人类，刷新VQA挑战记录

结语：今年达摩院连秀AI底层技术实力

2018年，作为业界最早投入预训练语言模型研究的机构之一，达摩院前身IDST曾在斯坦福SQuAD挑战赛中让机器阅读理解首次超越人类。

3年后的今天，达摩院VQA技术在视觉-文本跨模态理解及推理上媲美人类的水平。

而这只是达摩院展示的AI底层技术实力之一，自今年3月起，达摩院先后发布了首个超大规模多模态预训练模型M6及首个超大规模中文语言模型PLUG，并开源了历时3年打造、曾登顶GLUE等六大国际权威NLP榜单的深度语言模型体系AliceMind。

随着VQA技术的能力不断打磨和提升，我们期待看到这一技术在现实世界中发挥更大的价值。

开源地址：https://github.com/alibaba/AliceMind

一、VQA考卷有多难？堪称“变态”的侦探级推理

二、从生活Tip到电商问答，VQA已开始落地商用

三、VQA分数首超人类，达摩院是怎么做到的？

结语：今年达摩院连秀AI底层技术实力

相关推荐