
目前,它是在“大海捞针”测试中记录多达 25,000 个标记(大约数十万个单词)时准确率接近 100% 的唯一模型。这意味着您可以全面理解和分析数百份合同和财务报道,而不是“读了后面而忘记了前面”。 · 编程能力(SWE-bench Pro):
达到创纪录的55.6%。您将能够做的不仅仅是编写几个 Python 函数来处理复杂、多语言、多步骤的工程问题。从模型生成的前台界面来看,可以说达到了“混淆真假”的效果。 (涟漪效应)这意味着模型可以更可靠地调试生产代码、实现功能请求、重构大型代码库,并在更少的人工干预下从头到尾提供fixes.ions。 AI编程公司Windsurf的CEO也评价这是“代理编程(代理编码)的最大突破”。 ——Biji从视觉识别角度来看,GPT-5.2 Thinking专门优化了对图形、仪表板、UI界面的理解能力。主板元件识别测试虽然仍有缺陷,但已经给出了准确的图像e 组件的空间位置,不再像 GPT-5.1 那样“乱码”。这意味着该模型可以更准确地解释仪表板、产品屏幕截图、技术图表和可视化报告。另外,GPT-5.2 Thinking的工具调用功能也非常强大。这意味着更强大的端到端工作流程,步骤之间的故障更少,例如解决客户服务任务、从多个系统提取数据、执行分析并生成最终结果。我们通过模拟多步骤任务(例如重新预订航班)展示了卓越的“多智能体协调”能力。在内部测试期间,一位旅客告诉我们,他的航班延误了,他错过了转机,他需要在纽约过夜,并且由于医疗原因,他需要一个特殊的前排座位。结果是 GPT-5.2,它允许您同时预订机票、安排住宿、请求特殊医疗席位和赔偿。 2. 深入研究到魅力背后的“隐藏缺陷”。但你不能只看公式显示的肌肉。在 GPT-5.2 令人眼花缭乱的参数背后,也存在一些令人震惊的缺陷和行业担忧。 ——高成本和延误是问题。 OpenAI 在其博客上诚实地写道,“生成 cocomplex 可能需要几分钟才能完成”。在现在追求实时交互的情况下,几分钟的等待对于体验来说是一个很大的挫折。这说明GPT-5.2思维不仅仅是“思考”,而是消耗大量算力的“慢思考”。 (AI生成的图像)当然,考虑到用户体验,OpenAI也使用了GPT-5.2 Instant。这个用于日常工作和学习的快速而强大的核心模型是GPT5.1 Inst,延续了蚂蚁引入的温暖对话语气,我们对信息查询问题、操作指南和教程以及技术文档和翻译进行了重大改进。第一个测试者特别提到了 GPT-5.2 I. nstant 指令更加清晰,可以预先突出显示重要信息。与此同时,API 的价格也有所上涨,价格昂贵,达到每百万个输入代币 1.75 美元,每百万个输出代币 14 美元。 GPT-5.2 Pro 的定价为每百万个输入代币 21 美元,每百万个输出代币 168 美元。虽然OpenAI强调每个代币的盈利能力都比较强,但单个任务的总价格却很高。 (AI生成的图片)很多用户也表示GPT-5.2的成本比Claude 4.5高。 AI博主@Mlearning_ai甚至指出,高端版GPT-5.2的每百万代币价格是高端版Claude 4.5 Opus的1.5倍。对于预算有限的初创公司来说,这不是一个好消息。 ——技术“护城河”的消失是奥特曼最头疼的问题,也是发出“紧急警报”的根本原因。虽然 OpenAI 声称 GPT-5.2 是“最强”,但 Altman 也表示它表现了我们在各项Benchmark指标中均表现出色:SWE-Bench Pro得分为55.6%,ARC-AGI-1得分超过90%,ARC-AGI-2得分为52.9%,Frontier Math得分为40.3%。然而,从目前的行业状况来看,这种差异已经很小了。 · Google Gemini 3 于上个月宣布为全球首款。 · Anthropic Claude Opus 4.5 在许多领域紧随 OpenAI 并与 OpenAI 并驾齐驱。 · Runway 在视频生成领域甚至超越了 Sora。用户@skizoexe使用中等复杂度的GPT-5.2运行推理测试后,我确信新模型的推理和数学能力得到了显着提高。然而,它在编程功能方面无法缩小与Gemini 3的差距。前部弱,后部强。德国人工智能博主@zeldogiq在X上发帖表示,GPT-5.2的基准测试结果令人印象深刻。不过,他认为,一旦所有模型都能取得高分,提高基准测试将不再是唯一标准。真实的价值在于工作流程集成、代理性能和实际应用程序功能,这些功能无法通过基准来量化。曾经有一段时间,OpenAI 领先其竞争对手一两年。现在,这种优势已经缩小到几周甚至几天。 《纽约时报》分析指出,OpenAI 不再有专有配方,基本的模型构建方法已成为行业共识。 (图片由AI生成) AI工程师Dan Mac坦言:“GPT-5.2的发布对于OpenAI来说是生死攸关的事情,我们需要大幅超越Gemini 3 Pro和Opus 4.5,否则OpenAI这次可能会被彻底淘汰。” ——一场“温度”与“精准”之战 此前,GPT-5推出时,其响应过于冷漠、机械,引发了用户的“反抗”。那么OpenAI不得不做出一些紧急调整。在 GPT-5.2 中,OpenAI 声称已将幻觉减少了 30%,并改进了对敏感顶部的安全干预例如心理健康。内部数据显示,GPT-5.2 比 GPT-5.1 具有更好的心理健康指标。然而,这种更高的安全性通常伴随着越来越“谨慎”的模型。如何在不制造幻想的情况下保持交互的“人性”和创造力仍然是GPT-5.2面临的重大挑战。 OpenA 的“对安全性和功能性的需求”,尤其是面对 Meta.Closed 路线等竞争对手的激进策略,变得越来越繁重。 (AI 生成图像) 3. 奥特曼焦虑:200 亿美元收入负担 撇开技术参数不谈,GPT-5.2 的推出是一个商业突破。根据内部披露,OpenAI 的目标是到 2025 年底年收入达到 200 亿美元。为了支持这一雄心勃勃的数字以及未来几年高达 1.4 万亿美元的算力支出,OpenAI 必须变得更加“现实”。这就是为什么我们看到OpenAI:(AI生成图像)全面拥抱企业市场:是否优化Excel和PPT生成或为投资银行分析师提高建模能力,GPT-5.2正在努力获得企业用户的青睐。因为只有B端客户才能负担得起高额的订阅费。 · 广告模式乌云笼罩:早期员工以“不作恶,不卖广告”为荣,但面对巨大的现金流压力,OpenAI开始考虑重新利用ChatGPT上的搜索广告和电子商务。 · C端增长瓶颈:AC用户 Google月活跃用户达到6.5亿,逼近ChatGPT的8亿周活跃用户。为了保持C端的入口点,OpenAI计划推出一款拥有自己的AI能力的浏览器,这将直接挑战Chrome的地位。 4、结论:这是霸主最后的挽歌,还是新时代的开始? GPT-5.2绝对是一个强大的模型。我们在编程、逻辑推理和长文本处理方面再次树立了行业标杆。对于专业人士来说,这绝对是最强大的数字助理。但“OpenAI一推出就会带来颠覆性”的日子似乎已经结束了。如今,GPT-5.2 看起来更像是一个成熟科技巨头的不断迭代,而不是史蒂夫·乔布斯式的天才。更强大、更准确、更昂贵,但谷歌也与微软的产品更加一致。 “红色警报”可以解决短期战术危机,但无法解决战略同质化问题。当所有主要实验室都能够创建类似的模型时,OpenAI 面临的真正挑战才刚刚开始。你不仅更聪明,你还必须证明这一点。聊天机器人给人们带来了哪些不可替代的价值?对于用户来说,当前的建议似乎很简单。如果您是严重依赖编码和数据分析的 Pro 用户,请立即升级到 GPT-5.2。当你想到这一点时,你会发现每一分钱都是值得的。但是,如果您只想使用 AI 撰写电子邮件或聊天,当前的 GPT-4.1 或免费版本可能就足够了。
获取最新的暗黑爆料免费版,畅游黑暗传送门的神秘世界!