在嘲笑 ChatGPT 之后,该公司发布了另一个强大的模型。

谁能想到本周的硅谷AI圈子成为了大家最喜欢的互评环节?这是因为周三晚上,Anthropic 在美国春晚上投放了几则广告,公开嘲笑 OpenAI,后者在 ChatGPT 中插入广告,并将其讽刺内容直接投放到公共屏幕上。广告正在渗透到人工智能中,但克劳德没有看到。奥特曼坐不住了。他写了一篇很长的文章。然而,插入广告并不符合所有人的口味。不出所料,评论区挤满了人,说我突破了防守。哎,光靠说话都消不了气,不如我们打一架吧?第二天,战斗正式开始。但在线下,情况并非如此。正是 Anthropic 将 Claude Opus 4.6 放在了桌面上。 OpenAI 也不甘落后。 Opus 4.6上线20多分钟后,我立即拿出GPT-5.3 Codex尝试了一下。然而,虽然这一波冲突很活跃,但双方的动向双方实际上截然不同。虽然Anthropic这次拿出了最强的整体模型,但OpenAI提出的Codex实际上是一个“半生不熟的理科生”,专攻编码,对大多数人来说毫无用处。 。我总感觉自己正在失去动力。那么今天世超就抛开程序员们,来聊聊大家最感兴趣的通用型号:Claude Opus 4.6。首先我说一下结论。就“行为”而言,Opus 4.6应该被认为是现有功能最强大的大型型号。我相信您已经厌倦了查看 graphsreference,但基本上分数比以前的模型略高。当然,也有一些不如他们,但对我们来说重要的是整体体验。所以我们创造了 Anthropi。我仔细阅读了官方的c介绍和系统卡,并选择了一些非常有趣的更新。首先,Context Window终于突破100万代币s。此前,Opus系列中最受诟病的20万代币上下文是20万代币上下文,但Gemini的100万代币上下文已经出现了快两年了。 Opus 4.6 在 MRCR v2 评级中获得 76 分。我们俗称这是“大海捞针”或者在更广阔的背景下找到你要找的东西,但上一代Sonnet 4.5得分为18.5分,提升了4倍,所以这是一个质的变化。但在具体情况下,重要的不是数字是否大,而是它们是否真的易于使用。许多模型声称拥有数百万个上下文,但实际上,如果你挖掘得太深,它们就会开始出现混乱的记忆并开始胡言乱语。这一次,Anthropic 已经做好了准备。他们提出了一个称为“上下文衰减”的概念。这意味着如果上下文太长,注意力分配就会被稀释,模型将很难准确捕获一些小信息。兴趣。简单来说,AI脑力正在下降。一旦你读完,你就会忘记前面的部分,在大量的信息中找不到重要的部分。 Claude 当前的解决方案称为“上下文压缩”,当对话达到令牌阈值时,可以自动将长历史记录压缩为密集摘要。就像看了几百部电视剧,younte就用完了。它不仅删除了过去的长情节以释放大脑记忆,而且还自动生成摘要,以便您可以无缝连接到下一集。但当世超真正尝试的时候,他却有点想吐槽。我缺少的是上下文吗?好像是收费的!不谈Context Vertex,Pro版本的订阅就已经卖完了。我尝试过,但是同时提供大量上下文的能力不适用于 Gemin。没有什么能打败我。例如,我最近参与了一个物理研究项目,并来到浏览天文学家理查德·里彻的一些原创作品。在阅读时,我遇到了一个问题,因为他的一个计算与牛顿先生的完全不同。然后我把这本200页的书扔给双子座,问这是谁的问题。双子座读完后,很快理解并准确指出了利西尔原文的页码。经过一次手术后,他指出牛顿是对的。 Opus 4.6 似乎有一个错误。工作簿根本无法加载并显示错误。我最终把它分成两半。不过,拆卸非常简单。他成功找到了有问题的页码,并提供了准确的推理和分析。质量与 Gemini 3 Pro 相当。换句话说,技能完全被忽视了。至于为什么他们不能一次提供一本书籍,这可能是某种善意的代币爆炸预防机制。当然,这并不足以说他是“本职工作中最出色的”。克劳德最伟大的现在的实力,其实就是他的“实用能力”。你在说什么?让我们来看看人工智能世界中正在流行的工作工具。克劳德第一次使用MCP和技能。就连前段时间流行的Clawdbot(现在的OpenClaw)现在也使用Opus 4.6作为默认推荐模型。这是因为Opus,操纵计算机的能力,确实是无情的。例如,我问他目前使用的二手显示器最便宜的价格是多少。只需说一句话,MCP就会自动呼叫,连接到您的电脑,检查您的显示器型号,并在网上找到闲鱼的最优惠价格。最终我查到的价格和我在闲鱼上查到的价格差不多。更离谱的是,他们知道政府有补贴,还告诉我们,与其买二手的,不如考虑加钱换新的。整个过程不需要任何人干预。可以说他长得一模一样就像一个真正的助手。除此之外,Claude Opus 的编码能力始终优于其他玩家。从Arena的排名来看,Opus 4.5是无敌的,现在甚至有4.6,遥遥领先。再加上超模的动手能力,据说她的能力堪比高级工程师。这一评价来自日本乐天的AI经理,他表示Opus 4.6一天就能用完。我自己修复并关闭了 13 个错误。我们还确定了其他 12 个问题的负责人,并自动将他们分配给适当的开发人员。让我们来做一个简单的任务。创建一个 CS 演示并将其发送到我的计算机。结果确实很容易使用。 html 文件将直接出现在您的桌​​面上,您可以单击它来播放它。血量、地图和插图均正确显示。最后,Opus 4.6拥有一流的信息收集能力,不仅可以搜索常见信息,还可以搜索所有您想了解的信息。这AI 社区将其称为 BrowseComp,并在 Opus4.6 中达到顶峰。这也是我日常使用食超时所经历的。克劳德可以直接找到其他模特无法搜索到的信息来源并提供给您。例如,我所有的朋友都知道我的差评(925)有内部原因。这还不算是圈外的事情。基本上只有我朋友知道。一些新传教士可能不知道这个故事。我应该去哪里寻找它?我们先用 Gemini 和 GPT 来尝试一下。结果,所有人无一例外都失败了。结果我请克劳德去做,他说对了。即使是当时最优秀的人也知道这一点。原来他也是克劳德的坏朋友。 。因此,世超最近通过Claude Opus来核实谣言,收集事实,缓解一些担忧。通过这些经历,克劳德·奥普斯给人一种成熟和整体稳定的感觉。如果你让我选择一个人工智能如果他能安心地做某事心里,他会毫不犹豫地选择克劳德。虽然功能如此强大,但为何如此受用户欢迎呢?史超与克洛德选择的道路有着很深的渊源。我也这么觉得。从一开始,Anthropic 的目标就是成为“最有才华的人工智能同事”。如果您查看他们的产品系列:Claude Code、Cowork 和 Excel 插件,您会发现它们都具有相同的目的并帮助您完成工作。而且,由于这也是总统最喜欢的特质,企业客户占 Anthropic 收入的 80%。这无疑是Anthropic的最佳胜利之路。 Claude的风格非常务实,我想这也和他的目标客户有关。 (虽然我觉得比其他两个好很多……)另外两个也有自己的看法。而ChatGPT方面,奥特曼的野心显然不仅仅是成为一名“好员工”,近期产品的节奏也非常激烈。仅在 2026 年及以后,我们就看到了 ChatGPT Health、Codex 桌面应用程序、Prism(一个科学领域)的推出。ntific研究工具)以及最近推出的Frontier企业平台,我们也希望能在企业市场分得一杯羹。这意味着C端取决于用户数量和广告,B端取决于平台和生态。我需要理解两者,但我不知道我是否能做到。对于Gemini来说,我们希望依靠生态系统来进行降维攻击。 Gemini 可让您回复电子邮件、发送消息以及执行 Google 生态系统中的所有操作。您还可以在线观看记录和 YouTube。如果人工智能真正渗透到我们日常使用的应用中,比如水、电,以及数十亿部安卓智能手机,那么单纯卖机型的公司将别无选择,只能占据主导地位。谁会笑到最后?我认为网友的评论是准确的。 “2026 年最明智的做法不是选择最佳模型,而是了解每种模型的最佳优点并互换使用它们。”确实如此,我也同意但唯一的缺点就是我的钱包有点差。作者:布谷出品:江江面出品:布谷影业,数据来源:人类、X
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注