智东西(公众号:zhidxcom)
作者 | 香草
编辑 | 李水青
智东西12月6日报道,今天凌晨,在旗下AI助手Copilot发布一周年之际,微软宣布Copilot迎来三大重磅更新,包括新模型、新搜索以及代码解释器,图文能力、代码能力大幅升级。简单来说,就是ChatGPT Plus能干的活,升级后的Copilot几乎都能干,并且还免费。
此次更新,Copilot不仅即将支持OpenAI最新的GPT-4 Turbo模型,还将文生图模型DALL-E 3进行了全面升级,从而提供更高质量、更准确的图像。
搜索方面,Copilot推出两项新功能,分别从多模态、意图理解方面对搜索引擎进行加强。代码解释器目前推出简单版,可以自然语言生成代码,并支持在沙盒环境中运行,后续还将支持上传和下载文件。
AI邮件自动化工具Answera创始人保罗·库弗特(Paul Couvert)于社交平台X上分享了此次升级后的Copilot与ChatGPT Plus的功能对比。从图中可以看出,Copilot几乎提供了所有ChatGPT Plus的功能,甚至在生成图像数量、网页搜索速度等方面更胜一筹。
最关键的是,Copilot仍然免费,这让月费20美元(约合人民币143元)的ChatGPT Plus显得有些缺乏性价比。
▲Copilot与ChatGPT Plus功能对比(图源:X@itsPaulAi)
一、接入OpenAI最新模型GPT-4 Turbo,DALL-E 3大升级
模型方面,Copilot即将接入OpenAI的最新模型GPT-4 Turbo,这意味着Copilot将升级至128k上下文窗口。微软称,该模型目前正在小范围测试,并在未来几周内广泛集成到Copilot中。
Copilot还将提供升级后的DALL-E 3模型,生成图像质量更高、更准确。
下图是DALL-E 3升级前后生成图像的对比,提示词为:一只逼真的剑龙正在由美甲沙龙修整其骨质板块。
▲DALL-E 3升级前后生成图像对比(图源:微软)
可以看出,升级后的DALL-E 3对剑龙的皮肤纹理、皱纹的刻画更加细致和逼真,背景中的建筑更具立体感,整张图像的光影层次也有所提升。
下图是另一组示例,来自微软微广告和网络服务部门首席执行官米哈伊尔·帕拉欣(Mikhail Parakhin),提示词为:从高处俯瞰,鲸鲨在夜间静水中的皮艇下方游动。细节丰富。
▲DALL-E 3升级前后生成图像对比(图源:微软)
升级后的DALL-E 3为图像赋予了更多细节,描绘出了水下的景象,也通过光影表现出了皮艇与鲸鲨之间的距离感。相比之下,左边的画面有些过于平面。
二、AI搜索推出两大更新,深度搜索提效10倍
在搜索功能上,Copilot此次推出了两项更新。
首先是多模态搜索(Multi-Modal with Search Grounding)。微软基于自主开发的AI模型Prometheus,将GPT-4V的视觉能力、Bing图像搜索以及网络搜索数据相结合,以提供更好的图像理解体验。
▲Prometheus多模态工作原理(图源:微软)
在微软提供的示例中,用户上传了一张火箭发射的图像,并询问发射时间。
Copilot首先对图像进行分析,并提示“出于隐私保护,将隐藏图中的人脸”。在识别出图中的信息后,Copilot开始搜索“月船3号(Chandrayaan-3)的发射时间”。
最后,Copilot生成回答:“根据您提供的信息,这张图片中的火箭来自月船3号任务。它于2023年7月14日由印度空间研究组织(ISRO)从萨蒂什·达万航天中心发射。”
▲多模态搜索功能预览(图源:微软)
微软称,传统的多模态系统能够以通用的方式描述图中的内容,但结合在线搜索,Copilot可以在识别图像信息的基础上提供更多问题的答案。该功能目前已经推出。
第二项新功能为深度搜索(Deep Search)。
微软称,推出该功能主要的原因是在遇到一些复杂、细致或具体的问题时,现在的搜索引擎有时无法理解用户的期望。
深度搜索建立在Bing现有的网络索引和排名系统之上,并基于GPT-4进行增强,将搜索查询扩展为更全面的描述,包括理想的结果集应包含的内容。
当遇到一些不明确或有歧义的查询时,例如“积分系统在日本如何运作”,这里的积分可能有多种含义。深度搜索会利用GPT-4来查找所有可能的意图,提供一个消歧窗格,用户可以从中选择自己所需要的描述来代替。
▲深度搜索应对不明确的查询(图源:微软)
微软称,深度搜索使用各种信号来确定每个结果的相关性和质量,并考虑主题匹配程度、详细程度,来源的可信度、新鲜度和受欢迎程度等因素,其搜索效率是普通搜索的10倍,但速度上最多可能需要30秒才能完成。
该功能目前仍在测试和改进中,微软将在全球范围内随机选取用户试用。
三、推出代码解释器,Edge可一键总结视频内容
Copilot还推出了代码解释器(Code Interpreter),支持更准确的计算、编码、数据分析、可视化、数学等任务。
据介绍,Copilot代码解释器将编写代码来回答用户的自然语言请求,并支持在沙盒环境中运行代码,同时预装了许多流行的数据科学工具和库,包括Pandas、NumPy、Matplotlib等。
用户也可以向Copilot上传和下载文件,将自己的数据和代码与网络搜索结果相结合。
代码解释器目前推出了简单版本,暂时还不支持上传文件或是复杂的代码功能,预计将在几周时间内逐步升级新版本。
▲Copilot代码解释器(图源:微软)
在Edge浏览器中,Copilot侧边栏即将推出带重写菜单的内联撰写功能,可一键将生成的文本填入网页输入框,还可选择想要更改的文本要求Copilot重写;同时推出视频理解和问答功能,通过侧边栏,用户可以总结或询问当前观看的视频,该功能目前已开放。
▲使用Edge中的Copilot总结视频内容(图源:微软)
此外,据微软CVP、Bing工程和产品主管乔迪·里巴斯(Jordi Ribas)透露,还有一个“令人兴奋的新功能”:笔记本(Notebook)界面。该界面的入口位于搜索、对话旁边,用户可以专注于提示创建、细化和迭代输出。它具有记忆功能,还接受长达18k字符的长文本提示。
该功能目前也在小范围测试,尚未完全推出。
▲Copilot的笔记本功能界面(图源:微软)
结语:微软Copilot再进化,留给谷歌的时间不多了?
上周,ChatGPT刚刚过完一周年纪念日,现在Copilot也迎来“一岁生日”。从此次发布的更新可以看出,Copilot的功能日益强大,几乎能媲美月费20美元的ChatGPT Plus。
在此前的OpenAI“政变”事件中,微软一边为其“撑腰”,一边力争董事会席位。虽然最后,微软只获得了一个无投票权的观察席位,但也算是争取到了一些掌控权。目前二者仍保持紧密合作的联盟关系。
而另一边,微软长期的竞争对手谷歌在AI方面虽然暂时落后,但也传出最快将在本周公开预览大模型Gemini的消息。作为谷歌十年来最大的AI项目,Gemini的能力能否赶上GPT-4,让我们拭目以待。