谷歌一早就爆了,专业级智商只卖“白菜价”。 OpenAI如何继续工作?

作者 |制作:潇潇|网易技术推理能力强、处理速度快、节省成本。谷歌这次真的疯了。今天凌晨,就在其旗舰产品 Gemini 3 Pro 推出一个月后,以及其克星 GPT-5.2 推出五天后,谷歌推出了 Gemini 3 Flash 杀手级设备。大家震惊地发现,这个新模式毫无节操可言。我们不仅在 GPQA(博士级推理)中取得了 90.4% 的高分,而且还以专业级推理智能实现了 Flash 级延迟。谷歌首席执行官桑达尔·皮查伊 (Sundar Pichai) 喊道:“我们回来了!”他坦言,新机型在性能和效率上超越了帕累托极限,这意味着性能超越了2.5 Pro,速度提升了三倍,而价格则大幅下降。这种“增量不增价”的暴力美学,即将彻底改写汽车市场的价格行为规则。大型模型市场。 DeepMind创始人哈萨比斯表示:“这绝对是当今市场上最赚钱的模式。” 1. 极度跨越帕累托极限:怎么做? (AI生成图片)Gemini 3 Flash的核心逻辑简单粗暴。注入Flash系列的最大响应速度,同时保持Gemini 3的专业级推理体验。谷歌DeepMind负责人Jeff Dean指出,Gemini 3 Flash标志着以前仅在超大型模型中具备的推理能力,但现在可以以Flash级延迟运行。这种“小而强”的进化,在不牺牲智能的情况下,通过调整“思想程度”,在质量和成本之间取得了平衡。对于日常任务,与 2.5 Pro 相比,平均节省 30% 的令牌使用量,但精度更高。 DeepMind 的研究科学家 Ali Eslami 距离版本发布也仅仅过去了 29 天。 Flash 版本同样智能,但价格便宜四倍d 快得多! 2、硬评测:排名杀性能,专业级灵魂 在AI圈子里,没有跑分的评测简直就是流氓。 Gemini 3 Flash在多项权威基准测试中展现了“同类最佳”的性能。 · 医学级推理(GPQA Diamond):准确率达到90.4%,与最新一代大型模型相当。 – 多模态理解(MMMU Pro):取得了81.2%的优异成绩,与其“老大哥”Gemini 3 Pro一样。 · Encoding Agent(经SWE银行验证):取得了78%的骄人成绩,不仅横扫整个2.5系列,还超越了最近发布的Gemini 3 Pront。 (人工智能生成的图像)​​由独立测试机构 Artificial An Analysis 进行的预发布测试为这些数据注入了真实性。 Gemini 3 Flash 的原始性能达到每秒 218 个输出令牌,这明显快于 OpenAI GPT-5.1 的最大值(125 个令牌/秒)。 (人工智能生成的图像)​​什么更有趣的是,该机构将该公司评为AA-Omniscience知识基准的新领导者,其知识准确性达到了当前所有测试模型的峰值。尽管这种情报引入了一定的“推理税”(处理复杂索引时,代币数量是 2.5 Flash 的两倍),但 Google 通过非常激进的定价策略(0.50 美元/百万输入代币,3 美元/百万输出代币)完全覆盖了这笔成本。 3. 使用 Lightning Brain 为您的复杂应用程序提供支持。 Gemini 3 Flash 具有全面的推理、工具调用和多模态维度功能,是复杂视频分析、大规模数据挖掘和视觉问答 (VQA) 领域的全能选手。我想说这是一位全能球员。这不仅重塑了开发者对轻量级模型的理解,也让兼具极致响应能力和深度推理能力的智能应用告别了速度与速度之间的困境。和智商。例如,在手部追踪弹球益智游戏中,Gemini 3 Flash展示了令人难以置信的多模态推理速度,能够在毫秒内识别操作意图,并近乎实时地提供战术人工智能支持。 · 告别漫长的等待时间:Gemini 3 Flash 允许您自动创建和运行近乎实时加载动画的 A/B 测试,从而大大缩短从创意设计到生产代码部署的转换环节。 · 去中心化的逻辑推理:只需简单的自然语言提示,Gemini 3 Flash就可以立即编写出三种不同设计变体的代码,为开发者带来极高的迭代效率。 · Gemini 3 Flash 建立在深厚的多模式基础上,通过图像分析自动生成上下文相关的 UI 叠加字幕,只需单击一下即可将无聊的静态图像转换为可感知的交互式数字体验。 4.初次用户体验:这不仅仅是升级,这是重建。对于开发者和企业来说,Gemini 3 Flash的到来意味着最初因高延迟、高成本而被封锁的场景现在可以大规模部署。 1.法律和金融:Harvey AI法律平台应用研究主管、复杂索引专家Nico Grupen表示,在该公司的“BigLaw Bench”基准测试中,其推理能力较上一代提升了7%。这对于高吞吐量的法律任务具有重要意义,例如提取大型合同的定义条款、交叉引用等。 Bridgewater Associates 首席研究员 Jasjit Jasjeet Sekhon 也表达了他的感激之情:“我们需要在不牺牲深度的情况下处理大量非结构化数据。Gemini 3 Flash 首次以您的工作流程所需的速度提供专业级推理。它在长上下文中表现尤其出色。2. 软件开发:代理编程的新时代 Denis Shiryaev,负责人JetBrains 人工智能开发工具生态系统的 Shiryaev 评论道:“在我们的 Junie 智能编码评估中,Gemini 3 Flash 的质量接近专业水平,但延迟和成本显着降低,使复杂的多步骤代理在生产中快速且可预测。” Warp 创始人 Zach Lloyd 透露,“建议代码更改”功能更新后修复准确率提高了 8%。 Replit 总裁 Michele Catasta 指出,Gemini 3 Flash 首次将速度、经济性和强大的功能结合在一起,足以为编码代理的核心循环提供动力。 Cursor 开发人员体验副总裁 Lee Robinson 表示,Flash 在调查问题和识别错误根本原因方面快速而准确。在具体应用的演示中,Gemini 3 Flash展示了显着的“近实时”特性。Astrocade联合创始人Ali Sadeghian表示,该模型的速度使其能够生成完整的游戏级计划。h 一条消息。 Latitude 首席执行官尼克·沃尔特森 (Nick Waltson) 评论道:Gemini 3 闪光灯以低成本提供高质量的效果,以前只有顶级可充电型号才能实现这一点。 5. 社交网络是关注的焦点。社交媒体开发者对“真好吃”时刻模式的好坏影响最大。 Gemini 3 Flash 发布后的反馈几乎是压倒性的。网友@omarsar0已经完全“掌握”了Gemini 3 Flash。他感叹这不是一次微不足道的升级,而是一位“得偿所愿”的六角战士:强大的推理、速度、经济。 @AliShazil_认为Flash版本提供的“速度、成本和质量”的新平衡比列表性能的结果重要得多,并且将真正改变现实世界的应用场景。 Hyperbolic联合创始人金宇辰评论说,从更宏观的角度来看,这种“更小、更快、更强”的趋势并不是一个sp特殊案例。这表明技术迭代的步伐正在迅速加快。他还认为,设备端强大的AI是我们力所能及的,他的目标是苹果。有网友惊叹Google在LLM领域的设计。姬仍为王。它保留了 Gemini 3 的所有设计思想,但速度要快得多。当然,硬币还有另一面。有网友指出,Gemini 3 Flash在AA-Omniscience基准测试中的幻觉率令人担忧,而LisaBench数据表明其平均效能仍有提升空间。但正如 Warp 创始人 Lloyd 所说,对于需要“低延迟和成本效益”的功能来说,Gemini 3 Flash 仍然是无可争议的最佳选择。 6、降本增效的终极秘诀:层次思维和上下文缓存。为了帮助企业更有信心地支出预算,Google 在 Gemini 3 Flas 中引入了复杂的“思维水平”参数h.开发人员可以在“低”(减少简单任务的延迟)和“高”(增加复杂任务的深度)之间自由切换,以实现“可变速率”应用。 (AI生成的图像)​​此外,上下文缓存技术对于大型静态数据集(例如合法库和大型代码)很有用。它可以直接降低处理过程中(例如base)重复查询的成本90%。 Gemini 3 Flash的发布标志着我们正在进入“基于Flash”的前沿智能时代。通过将专业级推理降低到Flash级别的价位,谷歌不仅为速度较慢的竞争对手设置了陷阱,也向全球开发者展示了尖端AI能力现在比以往任何时候都更加实惠和高效。 Gemini 3 Flash目前已为全球数百万用户提供,作为AI搜索模式和Gemini应用程序的默认型号。底线:这既是一份圣诞礼物,也是对行业的挑战。为世界各地的开发商对于 rld 来说,Gemini 3 Flash 无疑是他们在 2025 年底收到的圣诞大礼。这打破了“智能与成本”的悖论,让部署 AI 应用变得前所未有的简单。 (AI生成图片)这对于用户来说是个好消息,但对于技术壁垒较低、成本控制较差的竞争对手来说却是一场灾难。 l价格竞争已经开始,2026年有望成为AI行业“大规模重组”之年。当潮水退去,谷歌会重回王座还是会杀出新的黑马?答案在于下一次迭代。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注