作者 |陈成制作 |网易科技终于来了!没有正式的热身练习或新闻发布会。今天一早,GPT-5.2系列机型悄然上市。只有一个科技博客和首席执行官萨姆·奥尔特曼在社交媒体上发布的简短公告。然而,这种刻意的“节制”背后却潜藏着前所未有的火药味。上个月谷歌Gemini 3震撼亮相后不久,奥特曼就引发了公司内部最高级别的“红色警报”。因此,GPT-5.2 不仅仅是一个迭代。随着外护城河几乎消失,这是 OpenAI 为保护其作为地球上最强大人工智能的尊严而进行的最后一战。当我们剥去 GPT-5.2 奇特的参数化涂层后,它的优势是什么?这个巨人涵盖了哪些问题? 1. 全面回顾:GPT-5.2有哪些新功能? OpenAI 今天表示将分阶段发布 GPT-5.2,最初针对付费计划(Plus、Pro、Go、Business 和 Enterprise)的用户,稍后将扩展的实现尽可能保持ChatGPT的稳定性和可靠性。 ChatGPT 的 GPT-5.1 将向付费用户提供三个月,之后将停用。 OpenAI这次的产品策略非常明确。 GPT-5.2分为三个阶段:Instant(快速版)、Thinking(思考版)和Pro(专业版)。 (人工智能生成的图像)​​这种分割本身就表明了一种趋势。 OpenAI 针对不同的使用场景优化了模型矩阵。 ——“思考”能力的质变:智能工作流程的福音。如果你是开发者或者商业用户,GPT-5.2思维绝对是你眼中的英雄。 OpenAI 推出新的 GDPval 评估基准。该基准涵盖 44 个职业的知识工作任务。结果发现,GPT-5.2 思维在 70.9% 的任务能力上击败或追平了最好的人类专家。一位 GDPval 审阅者评论道:“这是可交付成果质量的一次令人兴奋且明显的飞跃…这两个可交付成果的组织和推荐都令人惊讶。一些小bug还是需要修复,不过看起来是专业公司做的。”在以投行初级分析师的角色进行电子表格建模时,GPT-5.2思维得分比GPT 5.1平均高出9.3%,从59.1%提升到68.4%。此外,电子表格和PPT的准确性和格式也得到了提升。更可怕的是数据效率,它的退出速度是GPT 5.1的11倍以上。人类专家,但成本不到人类的1%(AI生成图像) 在某些应用场景下,GPT-5.2思维给出了以下质的飞跃 · 长文档分析(MRCRv2):
目前,它是在“大海捞针”测试中记录多达 25,000 个标记(大约数十万个单词)时准确率接近 100% 的唯一模型。这意味着您可以全面理解和分析数百份合同和财务报道,而不是“读了后面而忘记了前面”。 · 编程能力(SWE-bench Pro):
达到创纪录的55.6%。您将能够做的不仅仅是编写几个 Python 函数来处理复杂、多语言、多步骤的工程问题。从模型生成的前台界面来看,可以说达到了“混淆真假”的效果。 (涟漪效应)这意味着模型可以更可靠地调试生产代码、实现功能请求、重构大型代码库,并在更少的人工干预下从头到尾提供fixes.ions。 AI编程公司Windsurf的CEO也评价这是“代理编程(代理编码)的最大突破”。 ——Biji从视觉识别角度来看,GPT-5.2 Thinking专门优化了对图形、仪表板、UI界面的理解能力。主板元件识别测试虽然仍有缺陷,但已经给出了准确的图像e 组件的空间位置,不再像 GPT-5.1 那样“乱码”。这意味着该模型可以更准确地解释仪表板、产品屏幕截图、技术图表和可视化报告。另外,GPT-5.2 Thinking的工具调用功能也非常强大。这意味着更强大的端到端工作流程,步骤之间的故障更少,例如解决客户服务任务、从多个系统提取数据、执行分析并生成最终结果。我们通过模拟多步骤任务(例如重新预订航班)展示了卓越的“多智能体协调”能力。在内部测试期间,一位旅客告诉我们,他的航班延误了,他错过了转机,他需要在纽约过夜,并且由于医疗原因,他需要一个特殊的前排座位。结果是 GPT-5.2,它允许您同时预订机票、安排住宿、请求特殊医疗席位和赔偿。 2. 深入研究到魅力背后的“隐藏缺陷”。但你不能只看公式显示的肌肉。在 GPT-5.2 令人眼花缭乱的参数背后,也存在一些令人震惊的缺陷和行业担忧。 ——高成本和延误是问题。 OpenAI 在其博客上诚实地写道,“生成 cocomplex 可能需要几分钟才能完成”。在现在追求实时交互的情况下,几分钟的等待对于体验来说是一个很大的挫折。这说明GPT-5.2思维不仅仅是“思考”,而是消耗大量算力的“慢思考”。 (AI生成的图像)​​当然,考虑到用户体验,OpenAI也使用了GPT-5.2 Instant。这个用于日常工作和学习的快速而强大的核心模型是GPT5.1 Inst,延续了蚂蚁引入的温暖对话语气,我们对信息查询问题、操作指南和教程以及技术文档和翻译进行了重大改进。第一个测试者特别提到了 GPT-5.2 I. nstant 指令更加清晰,可以预先突出显示重要信息。与此同时,API 的价格也有所上涨,价格昂贵,达到每百万个输入代币 1.75 美元,每百万个输出代币 14 美元。 GPT-5.2 Pro 的定价为每百万个输入代币 21 美元,每百万个输出代币 168 美元。虽然OpenAI强调每个代币的盈利能力都比较强,但单个任务的总价格却很高。 (AI生成的图片)很多用户也表示GPT-5.2的成本比Claude 4.5高。 AI博主@Mlearning_ai甚至指出,高端版GPT-5.2的每百万代币价格是高端版Claude 4.5 Opus的1.5倍。对于预算有限的初创公司来说,这不是一个好消息。 ——技术“护城河”的消失是奥特曼最头疼的问题,也是发出“紧急警报”的根本原因。虽然 OpenAI 声称 GPT-5.2 是“最强”,但 Altman 也表示它表现了我们在各项Benchmark指标中均表现出色:SWE-Bench Pro得分为55.6%,ARC-AGI-1得分超过90%,ARC-AGI-2得分为52.9%,Frontier Math得分为40.3%。然而,从目前的行业状况来看,这种差异已经很小了。 · Google Gemini 3 于上个月宣布为全球首款。 · Anthropic Claude Opus 4.5 在许多领域紧随 OpenAI 并与 OpenAI 并驾齐驱。 · Runway 在视频生成领域甚至超越了 Sora。用户@skizoexe使用中等复杂度的GPT-5.2运行推理测试后,我确信新模型的推理和数学能力得到了显着提高。然而,它在编程功能方面无法缩小与Gemini 3的差距。前部弱,后部强。德国人工智能博主@zeldogiq在X上发帖表示,GPT-5.2的基准测试结果令人印象深刻。不过,他认为,一旦所有模型都能取得高分,提高基准测试将不再是唯一标准。真实的价值在于工作流程集成、代理性能和实际应用程序功能,这些功能无法通过基准来量化。曾经有一段时间,OpenAI 领先其竞争对手一两年。现在,这种优势已经缩小到几周甚至几天。 《纽约时报》分析指出,OpenAI 不再有专有配方,基本的模型构建方法已成为行业共识。 (图片由AI生成) AI工程师Dan Mac坦言:“GPT-5.2的发布对于OpenAI来说是生死攸关的事情,我们需要大幅超越Gemini 3 Pro和Opus 4.5,否则OpenAI这次可能会被彻底淘汰。” ——一场“温度”与“精准”之战 此前,GPT-5推出时,其响应过于冷漠、机械,引发了用户的“反抗”。那么OpenAI不得不做出一些紧急调整。在 GPT-5.2 中,OpenAI 声称已将幻觉减少了 30%,并改进了对敏感顶部的安全干预例如心理健康。内部数据显示,GPT-5.2 比 GPT-5.1 具有更好的心理健康指标。然而,这种更高的安全性通常伴随着越来越“谨慎”的模型。如何在不制造幻想的情况下保持交互的“人性”和创造力仍然是GPT-5.2面临的重大挑战。 OpenA 的“对安全性和功能性的需求”,尤其是面对 Meta.Closed 路线等竞争对手的激进策略,变得越来越繁重。 (AI 生成图像) 3. 奥特曼焦虑:200 亿美元收入负担 撇开技术参数不谈,GPT-5.2 的推出是一个商业突破。根据内部披露,OpenAI 的目标是到 2025 年底年收入达到 200 亿美元。为了支持这一雄心勃勃的数字以及未来几年高达 1.4 万亿美元的算力支出,OpenAI 必须变得更加“现实”。这就是为什么我们看到OpenAI:(AI生成图像)全面拥抱企业市场:是否优化Excel和PPT生成或为投资银行分析师提高建模能力,GPT-5.2正在努力获得企业用户的青睐。因为只有B端客户才能负担得起高额的订阅费。 · 广告模式乌云笼罩:早期员工以“不作恶,不卖广告”为荣,但面对巨大的现金流压力,OpenAI开始考虑重新利用ChatGPT上的搜索广告和电子商务。 · C端增长瓶颈:AC用户 Google月活跃用户达到6.5亿,逼近ChatGPT的8亿周活跃用户。为了保持C端的入口点,OpenAI计划推出一款拥有自己的AI能力的浏览器,这将直接挑战Chrome的地位。 4、结论:这是霸主最后的挽歌,还是新时代的开始? GPT-5.2绝对是一个强大的模型。我们在编程、逻辑推理和长文本处理方面再次树立了行业标杆。对于专业人士来说,这绝对是最强大的数字助理。但“OpenAI一推出就会带来颠覆性”的日子似乎已经结束了。如今,GPT-5.2 看起来更像是一个成熟科技巨头的不断迭代,而不是史蒂夫·乔布斯式的天才。更强大、更准确、更昂贵,但谷歌也与微软的产品更加一致。 “红色警报”可以解决短期战术危机,但无法解决战略同质化问题。当所有主要实验室都能够创建类似的模型时,OpenAI 面临的真正挑战才刚刚开始。你不仅更聪明,你还必须证明这一点。聊天机器人给人们带来了哪些不可替代的价值?对于用户来说,当前的建议似乎很简单。如果您是严重依赖编码和数据分析的 Pro 用户,请立即升级到 GPT-5.2。当你想到这一点时,你会发现每一分钱都是值得的。但是,如果您只想使用 AI 撰写电子邮件或聊天,当前的 GPT-4.1 或免费版本可能就足够了。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注