在嘲笑 ChatGPT 之后，该公司发布了另一个强大的模型。

谁能想到本周的硅谷AI圈子成为了大家最喜欢的互评环节？这是因为周三晚上，Anthropic 在美国春晚上投放了几则广告，公开嘲笑 OpenAI，后者在 ChatGPT 中插入广告，并将其讽刺内容直接投放到公共屏幕上。广告正在渗透到人工智能中，但克劳德没有看到。奥特曼坐不住了。他写了一篇很长的文章。然而，插入广告并不符合所有人的口味。不出所料，评论区挤满了人，说我突破了防守。哎，光靠说话都消不了气，不如我们打一架吧？第二天，战斗正式开始。但在线下，情况并非如此。正是 Anthropic 将 Claude Opus 4.6 放在了桌面上。 OpenAI 也不甘落后。 Opus 4.6上线20多分钟后，我立即拿出GPT-5.3 Codex尝试了一下。然而，虽然这一波冲突很活跃，但双方的动向双方实际上截然不同。虽然Anthropic这次拿出了最强的整体模型，但OpenAI提出的Codex实际上是一个“半生不熟的理科生”，专攻编码，对大多数人来说毫无用处。。我总感觉自己正在失去动力。那么今天世超就抛开程序员们，来聊聊大家最感兴趣的通用型号：Claude Opus 4.6。首先我说一下结论。就“行为”而言，Opus 4.6应该被认为是现有功能最强大的大型型号。我相信您已经厌倦了查看 graphsreference，但基本上分数比以前的模型略高。当然，也有一些不如他们，但对我们来说重要的是整体体验。所以我们创造了 Anthropi。我仔细阅读了官方的c介绍和系统卡，并选择了一些非常有趣的更新。首先，Context Window终于突破100万代币s。此前，Opus系列中最受诟病的20万代币上下文是20万代币上下文，但Gemini的100万代币上下文已经出现了快两年了。 Opus 4.6 在 MRCR v2 评级中获得 76 分。我们俗称这是“大海捞针”或者在更广阔的背景下找到你要找的东西，但上一代Sonnet 4.5得分为18.5分，提升了4倍，所以这是一个质的变化。但在具体情况下，重要的不是数字是否大，而是它们是否真的易于使用。许多模型声称拥有数百万个上下文，但实际上，如果你挖掘得太深，它们就会开始出现混乱的记忆并开始胡言乱语。这一次，Anthropic 已经做好了准备。他们提出了一个称为“上下文衰减”的概念。这意味着如果上下文太长，注意力分配就会被稀释，模型将很难准确捕获一些小信息。兴趣。简单来说，AI脑力正在下降。一旦你读完，你就会忘记前面的部分，在大量的信息中找不到重要的部分。 Claude 当前的解决方案称为“上下文压缩”，当对话达到令牌阈值时，可以自动将长历史记录压缩为密集摘要。就像看了几百部电视剧，younte就用完了。它不仅删除了过去的长情节以释放大脑记忆，而且还自动生成摘要，以便您可以无缝连接到下一集。但当世超真正尝试的时候，他却有点想吐槽。我缺少的是上下文吗？好像是收费的！不谈Context Vertex，Pro版本的订阅就已经卖完了。我尝试过，但是同时提供大量上下文的能力不适用于 Gemin。没有什么能打败我。例如，我最近参与了一个物理研究项目，并来到浏览天文学家理查德·里彻的一些原创作品。在阅读时，我遇到了一个问题，因为他的一个计算与牛顿先生的完全不同。然后我把这本200页的书扔给双子座，问这是谁的问题。双子座读完后，很快理解并准确指出了利西尔原文的页码。经过一次手术后，他指出牛顿是对的。 Opus 4.6 似乎有一个错误。工作簿根本无法加载并显示错误。我最终把它分成两半。不过，拆卸非常简单。他成功找到了有问题的页码，并提供了准确的推理和分析。质量与 Gemini 3 Pro 相当。换句话说，技能完全被忽视了。至于为什么他们不能一次提供一本书籍，这可能是某种善意的代币爆炸预防机制。当然，这并不足以说他是“本职工作中最出色的”。克劳德最伟大的现在的实力，其实就是他的“实用能力”。你在说什么？让我们来看看人工智能世界中正在流行的工作工具。克劳德第一次使用MCP和技能。就连前段时间流行的Clawdbot（现在的OpenClaw）现在也使用Opus 4.6作为默认推荐模型。这是因为Opus，操纵计算机的能力，确实是无情的。例如，我问他目前使用的二手显示器最便宜的价格是多少。只需说一句话，MCP就会自动呼叫，连接到您的电脑，检查您的显示器型号，并在网上找到闲鱼的最优惠价格。最终我查到的价格和我在闲鱼上查到的价格差不多。更离谱的是，他们知道政府有补贴，还告诉我们，与其买二手的，不如考虑加钱换新的。整个过程不需要任何人干预。可以说他长得一模一样就像一个真正的助手。除此之外，Claude Opus 的编码能力始终优于其他玩家。从Arena的排名来看，Opus 4.5是无敌的，现在甚至有4.6，遥遥领先。再加上超模的动手能力，据说她的能力堪比高级工程师。这一评价来自日本乐天的AI经理，他表示Opus 4.6一天就能用完。我自己修复并关闭了 13 个错误。我们还确定了其他 12 个问题的负责人，并自动将他们分配给适当的开发人员。让我们来做一个简单的任务。创建一个 CS 演示并将其发送到我的计算机。结果确实很容易使用。 html 文件将直接出现在您的桌面上，您可以单击它来播放它。血量、地图和插图均正确显示。最后，Opus 4.6拥有一流的信息收集能力，不仅可以搜索常见信息，还可以搜索所有您想了解的信息。这AI 社区将其称为 BrowseComp，并在 Opus4.6 中达到顶峰。这也是我日常使用食超时所经历的。克劳德可以直接找到其他模特无法搜索到的信息来源并提供给您。例如，我所有的朋友都知道我的差评（925）有内部原因。这还不算是圈外的事情。基本上只有我朋友知道。一些新传教士可能不知道这个故事。我应该去哪里寻找它？我们先用 Gemini 和 GPT 来尝试一下。结果，所有人无一例外都失败了。结果我请克劳德去做，他说对了。即使是当时最优秀的人也知道这一点。原来他也是克劳德的坏朋友。。因此，世超最近通过Claude Opus来核实谣言，收集事实，缓解一些担忧。通过这些经历，克劳德·奥普斯给人一种成熟和整体稳定的感觉。如果你让我选择一个人工智能如果他能安心地做某事心里，他会毫不犹豫地选择克劳德。虽然功能如此强大，但为何如此受用户欢迎呢？史超与克洛德选择的道路有着很深的渊源。我也这么觉得。从一开始，Anthropic 的目标就是成为“最有才华的人工智能同事”。如果您查看他们的产品系列：Claude Code、Cowork 和 Excel 插件，您会发现它们都具有相同的目的并帮助您完成工作。而且，由于这也是总统最喜欢的特质，企业客户占 Anthropic 收入的 80%。这无疑是Anthropic的最佳胜利之路。 Claude的风格非常务实，我想这也和他的目标客户有关。（虽然我觉得比其他两个好很多……）另外两个也有自己的看法。而ChatGPT方面，奥特曼的野心显然不仅仅是成为一名“好员工”，近期产品的节奏也非常激烈。仅在 2026 年及以后，我们就看到了 ChatGPT Health、Codex 桌面应用程序、Prism（一个科学领域）的推出。ntific研究工具）以及最近推出的Frontier企业平台，我们也希望能在企业市场分得一杯羹。这意味着C端取决于用户数量和广告，B端取决于平台和生态。我需要理解两者，但我不知道我是否能做到。对于Gemini来说，我们希望依靠生态系统来进行降维攻击。 Gemini 可让您回复电子邮件、发送消息以及执行 Google 生态系统中的所有操作。您还可以在线观看记录和 YouTube。如果人工智能真正渗透到我们日常使用的应用中，比如水、电，以及数十亿部安卓智能手机，那么单纯卖机型的公司将别无选择，只能占据主导地位。谁会笑到最后？我认为网友的评论是准确的。 “2026 年最明智的做法不是选择最佳模型，而是了解每种模型的最佳优点并互换使用它们。”确实如此，我也同意但唯一的缺点就是我的钱包有点差。作者：布谷出品：江江面出品：布谷影业，数据来源：人类、X
特别提示：以上内容（包括图片、视频，如有）由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注：以上内容（包括图片和视频，如有）由网易号用户上传发布，网易号是一个仅提供信息存储服务的社交媒体平台。

归档

分类

由 admin

发表回复取消回复

您错过了

2028年人工智能危机？去年刀就掉了。

消息称苹果iPad 12下周推出：更新A19芯片+8GB RAM

荷兰阿纳姆发生枪击事件，两人受伤

尽管加沙战事仍在继续，莫迪总理对加沙的访问却被批评“过度损害了印度的国际士气”。

在嘲笑 ChatGPT 之后，该公司发布了另一个强大的模型。

由 admin

相关文章

消息称苹果iPad 12下周推出：更新A19芯片+8GB RAM

尽管加沙战事仍在继续，莫迪总理对加沙的访问却被批评“过度损害了印度的国际士气”。

何小鹏先生发出2026年开工通知，今年机器人、飞行汽车将进入量产，在线Robotaxi出货测试将开始。

发表回复 取消回复

您错过了

2028年人工智能危机？去年刀就掉了。

消息称苹果iPad 12下周推出：更新A19芯片+8GB RAM

荷兰阿纳姆发生枪击事件，两人受伤

尽管加沙战事仍在继续，莫迪总理对加沙的访问却被批评“过度损害了印度的国际士气”。

发表回复取消回复