智东西(公众号:zhidxcom)
编译 | 程茜
编辑 | 李水青

智东西3月6日消息,今日凌晨,OpenAI GPT-5.4系列模型来了,ChatGPT、API和Codex同步上线,这是其首款具备原生、最先进计算机使用能力的通用模型。

根据OpenAI的官方测评结果,GPT-5.4在电脑操控、知识工作、工具使用等综合任务上全面领先GPT-5.2、Claude Opus 4.6、Gemini 3.1 Pro等顶尖模型。

GPT-5.4深夜登场!能操控电脑,编程超Opus 4.6,开发者直呼“离谱”

OpenAI联合创始人、CEO萨姆·阿尔特曼(Sam Altman)在社交平台X上称,GPT-5.4在知识工作和网页搜索方面做得更好。OpenAI高级研究科学家、德扑AI之父Noam Brown也发帖称,GPT‑5.4在电脑操控能力与具备经济价值的任务上实现了巨大飞跃,他们看不到能力天花板,预计今年AI的整体性能仍将持续大幅提升。

GPT-5.4深夜登场!能操控电脑,编程超Opus 4.6,开发者直呼“离谱”

GPT-5.4今天将逐步上线ChatGPT、Codex、API,但其思考模型仅正式向ChatGPT Plus、Team及Pro用户开放,替代原有GPT‑5.2思考模式。GPT‑5.2思考模式将在模型选择器的旧版模型专区为付费用户再保留三个月,随后将于2026年6月5日下线。

GPT-5.4 Pro适合需要在复杂任务中达到最大性能的开发者,将为Pro与企业版用户提供。

定价方面,GPT-5.4的单token定价高于GPT‑5.2,但OpenAI博客提到,它更高的token效率可降低多数任务的总token消耗量。

值得一提的是,Codex中的GPT‑5.4已实验性支持100万上下文窗口,超出标准272K上下文窗口的请求,将按正常用量的2倍计入使用额度。此外,批量处理与弹性计费价格为标准API费率的一半,优先处理则为标准费率的2倍。

输入价格,GPT-5.4相对GPT-5.2涨幅超过40%,输出价格涨幅为7.14%

GPT-5.4深夜登场!能操控电脑,编程超Opus 4.6,开发者直呼“离谱”

参与早期测试的开发者、AI写作助手公司HyperWrite CEO Matt Shumer对GPT-5.4开启了夸夸夸模式,称其是世界上最好的模型,并且相比Pro更常用GPT-5.4的标准版,编程能力好到离谱

还有网友称苹果发了MacBook Neo,OpenAI转头就上线100万token上下文+原生电脑操控,“笔记本正经历存在主义危机”。但有开发者吐槽,GPT-5.4的价格太疯狂了,完全没法基于它做开发

GPT-5.4深夜登场!能操控电脑,编程超Opus 4.6,开发者直呼“离谱”

一、OpenAI首个能原生操作电脑的模型上线,token使用效率更高

GPT‑5.4继承了OpenAI近期在推理、代码生成与智能体工作流领域的顶尖技术成果。

该模型继承了GPT‑5.3‑Codex的编程能力,并优化了模型在各类工具、软件环境及专业任务中的协同表现,涵盖表格、演示文稿与文档处理等场景。这使得GPT‑5.4能够精准、高效、可靠地完成复杂的实际工作,直接交付用户想要的结果。

ChatGPT的推理模式中,GPT-5.4思考模式可以提前展示思考规划,用户可以在模型运行过程中调整方向,无需额外交互轮次,就能实现更符合需求的输出。

面对更长、更复杂的查询,ChatGPT中的GPT‑5.4思考模式会先以一段前置说明来规划解题步骤。用户可以在回复过程中补充指令或调整方向,无需重新开始或多轮追问,就能引导模型得到你想要的精确结果。

针对复杂任务,该模型能进行更长时间的思考,同时更好地记住对话前期步骤。这使其能够处理更长的工作流与更复杂的提示词,并始终保持回答连贯、切题。

GPT-5.4深夜登场!能操控电脑,编程超Opus 4.6,开发者直呼“离谱”

GPT‑5.4思考模式增强了深度网络检索能力,尤其针对高度专业化的查询,同时在需要更长思考过程的问题上更好地维持上下文连贯性。

在Codex和API中,GPT-5.4是OpenAI首个具备原生、最先进计算机使用能力的通用模型,使Agent可以操作计算机并执行跨应用的复杂工作流。

其支持100万个token的上下文,允许Agent执行长时间的规划、执行和验证任务,其还能通过工作搜索提升模型在大型工具和连接器生态系统中的工作,帮Agent高效找到和使用工具。

GPT-5.4是OpenAI迄今为止最高效的token推理模型,相比GPT-5.2,新模型用的token数量明显更少,从而能减少token使用并加快速度。

GPT-5.4深夜登场!能操控电脑,编程超Opus 4.6,开发者直呼“离谱”

▲GPT‑5.4、GPT‑5.3‑Codex和GPT‑5.2三款模型在不同专业任务上的性能对比表:

二、知识工作成果:PPT生成效果更强,单个错误出现概率降低33%

GPT‑5.4、GPT‑5.3‑Codex和GPT‑5.2三款模型在不同专业任务上的性能对比表,

评估模型在真实经济价值任务的GDPval测试上,大模型需在44个职业中产出规范的知识工作成果,GPT-5.4在83.0%的比较率下,其表现达到或超越了行业专业人士的水平,而GPT‑5.2的这一比例为70.9%。

GPT-5.4深夜登场!能操控电脑,编程超Opus 4.6,开发者直呼“离谱”

对于创建和编辑电子表格、PPT、文档的任务,在一项模拟初级投行分析师所做的电子表格建模任务内部基准测试中,GPT‑5.4的平均得分达到87.3%,GPT‑5.2为68.4%。在一组PPT评估任务中,人类评审在68.0%的情况下更偏好GPT‑5.4生成的演示文稿,原因是其美学表现更强、视觉形式更丰富,且图像生成的运用更具效果。

GPT-5.4深夜登场!能操控电脑,编程超Opus 4.6,开发者直呼“离谱”

在消除幻觉方面,OpenAI官方称,OpenAI是其迄今事实准确性最高的模型:在一组用户标记过事实错误的去标识化提示测试中,与GPT‑5.2相比,GPT‑5.4的单个事实陈述出现错误的概率降低了33%,整段回答包含任何错误的概率降低了18%。

三、计算机使用与视觉:操控电脑超人类水平,视觉输入支持最高1024万像素

GPT‑5.4是OpenAI首款具备原生计算机操作能力的通用模型,OpenAI称其是目前开发者构建可在各类网站与软件系统中完成真实任务的智能体时,可选用的最佳模型。

该模型擅长通过Playwright等库编写控制计算机的代码,也能根据截图下达鼠标与键盘指令。模型行为可通过开发者指令灵活调控,开发者可根据具体场景调整其行为逻辑。开发者还能通过自定义确认策略,配置模型的安全行为,以适配不同的风险容忍等级。

GPT‑5.4在各类计算机操作场景的基准测试中,成绩相较前代模型都有所提升。在通过截图与键鼠操作评估模型在桌面环境中的执行能力的OSWorld‑Verified测试中,GPT‑5.4的成功率达到75.0%,远超GPT‑5.2的47.3%,同时超过了人类水平的72.4%。

GPT-5.4深夜登场!能操控电脑,编程超Opus 4.6,开发者直呼“离谱”

在测试浏览器使用能力的WebArena-Verified基准中,GPT‑5.4在同时采用DOM与截图交互时,成功率达到67.3%的,GPT‑5.2为65.4%。

GPT‑5.4更强的计算机操作能力,建立在模型通用视觉感知能力的提升之上。在测试模型视觉理解与推理能力的MMMU‑Pro基准中,GPT‑5.4在不使用工具的情况下达到81.2%的成功率,优于GPT‑5.2的79.5%。

GPT-5.4深夜登场!能操控电脑,编程超Opus 4.6,开发者直呼“离谱”

▲GPT‑5.4解析浏览器界面截图,并通过基于坐标的点击操作与UI元素交互,完成发送邮件、创建日历日程等任务

其视觉感知能力的提升也转化为更出色的文档解析能力。在OmniDocBench测试中,不启用深度推理的GPT‑5.4平均误差为0.109,优于GPT‑5.2的0.140。

GPT-5.4深夜登场!能操控电脑,编程超Opus 4.6,开发者直呼“离谱”

OpenAI还针对高分辨率、信息密集型图像优化了视觉理解能力,确保完整保真度。

从GPT‑5.4开始,OpenAI将推出原始图像输入精度模式,支持最高1024万像素或最大边长6000像素(取较低值)的全保真感知;原有的高图像输入精度模式现已支持最高256万像素或最大边长2048像素。

在面向API用户的早期测试中,研究人员观察到,使用原始精度或高精度模式时,模型在定位能力、图像理解与点击准确率上均有显著提升。

四、编程:表现超越GPT‑5.3‑Codex,token生成速度最高可提升1.5倍

GPT‑5.4融合了GPT‑5.3‑Codex的代码能力优势,以及知识工作与计算机操作能力,这些能力在长时间运行的任务中尤为关键,模型可自主调用工具、迭代推进任务,大幅减少人工干预。

在SWE‑Bench Pro测试中,GPT‑5.4的表现持平甚至超越GPT‑5.3‑Codex,同时在各类推理任务中延迟更低。

GPT-5.4深夜登场!能操控电脑,编程超Opus 4.6,开发者直呼“离谱”

在Codex中开启/fast模式后,GPT‑5.4的token生成速度最高可提升1.5倍。模型与智能水平保持不变,仅速度更快。这意味着用户可以在编码、迭代与调试过程中保持流畅状态。

开发者可通过API的优先处理功能,以同等高速体验使用GPT‑5.4。

在评估和内部测试中,研究人员发现GPT-5.4在复杂的前端任务中表现出色,其美观效果和功能性均优于我们之前发布的任何模型。

为展示模型计算机操作能力与代码能力协同提升的效果,OpenAI还同步推出一项实验性Codex技能,名为“Playwright(交互式)”。该功能让Codex能够以视觉方式调试网页与Electron应用,甚至可以在应用开发过程中,边构建边测试。

GPT-5.4深夜登场!能操控电脑,编程超Opus 4.6,开发者直呼“离谱”

▲一款仅通过简短提示词、由GPT‑5.4生成的主题公园模拟游戏, 开发过程中使用 Playwright Interactive 进行浏览器端实机测试,并通过图像生成创建等距视角美术资源。

五、工具使用:能快速搜索调用,完成长时间多轮复杂任务

基于GPT-5.4,智能体现在可在更庞大的工具生态中运行,更可靠地选择合适工具,并以更低成本、更低延迟完成多步骤工作流。

在API中,GPT-5.4引入了工具搜索功能,使模型在拥有多种工具时能够高效工作。借助工具搜索功能,GPT‑5.4会先获取一份轻量化的可用工具列表,并具备工具检索能力。当模型需要使用某一工具时,可实时查询该工具的定义,并将其即时加入对话上下文。

这可以减少工具密集型工作流所需的token数量,并能有效利用缓存,让请求更快、成本更低。智能体也可以能够稳定适配规模更庞大的工具生态系统。

为展示效率提升效果,OpenAI选取了Scale旗下MCP Atlas基准测试中的250项任务,在启用全部36台MCP服务器的情况下,采用两种模式进行评估:将所有MCP函数直接暴露在模型上下文、将所有MCP服务器置于工具搜索机制之后,对比结果如下:

GPT-5.4深夜登场!能操控电脑,编程超Opus 4.6,开发者直呼“离谱”

GPT-5.4还改进了工具调用,在测试AI智能体如何使用真实工具与API完成多步骤任务的Toolathlon基准测试中,相比GPT‑5.2,GPT‑5.4以更少的交互轮次实现了更高的准确率。其任务包含智能体需要读取邮件、提取任务附件、上传文件、进行评分,并将结果记录到电子表格中。

GPT-5.4深夜登场!能操控电脑,编程超Opus 4.6,开发者直呼“离谱”

对于偏好无推理模式、对延迟敏感的应用场景,GPT‑5.4相比前代模型实现了进一步优化。

GPT-5.4深夜登场!能操控电脑,编程超Opus 4.6,开发者直呼“离谱”

网页搜索中,在衡量AI智能体持续浏览网页以寻找难以定位信息能力的指标BrowseComp上,GPT-5.4跃升了17%,GPT-5.4 Pro达到89.3%。这意味着GPT-5.4可以更持久地跨多轮搜索,找出最相关的来源。

GPT-5.4深夜登场!能操控电脑,编程超Opus 4.6,开发者直呼“离谱”

结语:OpenAI巩固行业主导权

GPT-5.4此次在计算机操作能力上、GDPval 83%的胜率都说明,AI在执行经济价值任务、原生电脑操控方面的天花板进一步被拉高,让进一步证明AI已能稳定完成高价值的知识工作,如数据分析、客户服务、业务流程处理等,直接产生经济效益。

从当前的测评表现来看,GPT‑5.4的发布进一步巩固了OpenAI的行业头部地位,其测评表现远超前代模型及竞对公司的顶尖模型,或为其规模化商业化与AGI路线图奠定关键基础。