去年7月,DeepSeek的下载量从峰值的8000万以上暴跌至2000万以上,降幅达72.2%,“DeepSeek跌落神坛”成为当时网络上最热门的话题。但知情人士表示,Deepseek 正试图重返王位。新一代DeepSeek-V4型号计划于2月中旬推出。也就是说,2026年是农历新年,距离上一代型号DeepSeek-R1推出整整一年。此版本的重点是代码生成和处理功能。根据DeepSeek的内部基准测试,V4在编程任务上的表现优于目前市场上的主要竞争对手,包括Anthropic的Claude系列和OpenAI的GPT系列。据报道,随着新模型的发布,DeepSeek团队解决了许多长期影响AI发展的技术难题。 Vibe 可能会彻底改变编码行业。报告 01 指出,“DeepSeek-V4 模型理解数据模式的能力在整个训练过程中也得到了提高,并且性能没有下降。”这句话有点难懂,还是拆开来解读一下。首先,这句话的第一部分指的是模型不仅记住数据,而且还可以看到数据背后的模式和逻辑。 DeepSeek-R1 的一个典型示例是让模型计算铣刀中有多少个 r。当时的 DeepSeek 模型并不理解“计数”的概念,因此只能根据训练时的数据生成响应。但事实证明这个数据是错误的,所以无论 DeepSeek 怎么想,大多数时候你得到的答案都是 2,而不是正确的 3。DeepSeek-V4 完全消除了这种情况,只要模型在训练过程中能够完全理解某些事情。秒内性能下降训练人工智能时会出现半个句子。指的是随着模型不断学习新事物或者训练时间增加,经常会出现“学新忘旧”的情况,模型变得不稳定。这种现象在业界被称为“灾难性遗忘”或“模型崩溃”。因此,V4虽然不断变得更加智能和复杂,但它保持了非常高的稳定性和原有的功能完整性,没有任何“副作用”或功能回归。这正是创建调度代理的先决条件。在现代软件工程中,微小的变化可能会影响多个文件和数千行代码之间的依赖关系。然而,以前的模型往往受到上下文窗口和衰减注意力机制的限制,使得无法修改大型项目。 V4可能是为“特工时代”打造的车型。一年前,DeepSeek-R1的推出引起了业界不小的轰动。推理中心c 模型 这个强大的模型展示了低成本研发路径的可行性。但一年后,业界对人工智能的关注点发生了巨大变化。纯文本生成和逻辑推理不再是唯一的竞争优势;代码生成正在成为大规模模型能力的“试金石”。在当今的开发环境中,一个新的趋势是“振动编码”,其中AI不仅可以完成代码,还可以理解开发人员的意图流程并将其翻译。无缝地将自然语言转化为复杂的工程逻辑。 DeepSeek 似乎已准备好踏上新的轨道。如果我们仔细观察02 R1发布后一年内DeepSeek团队及其核心人物梁文峰的学术轨迹,我们可以看到一条清晰可靠的技术演进路径。这些发表的文章和技术报告不仅是对过去成果的总结,也是V4强大功能的脚注和预览。食物。 2025年9月,一篇与DeepSeek-R1相关的论文发表在主流学术期刊《自然》封面上,梁文峰署名为通讯作者。来自审稿人关于OpenAI模型输出是否用于蒸馏训练的问题。当面对直接问题时,DeepSeek 团队在回应中明确否认,首次披露了令人惊讶的低成本数据。 c基于V3到R1的训练成本仅为294,000美元。当然,这个成本只是指R1的后期训练成本,并不包括基础V3-Base模型本身约600万美元的训练投入。数据的公布和《Nature》专门撰写的社论表明,DeepSeek以其学术严谨性和技术原创性而获得了国际最高声誉,彻底打消了外界对其“赞助”或“追随”中国伟大模式的刻板印象。然而,真正的证明DeepSeek-V4在代码方面向前迈进了一大步的是DeepSeek团队在2025年最后一天发表的文章《mHC: Manifold Constraint Hyperconnection》。代码生成任务对模型上下文的逻辑深度和广度要求非常高,一般需要更大的模型参数和更深的网络结构。然而,随着模型规模的增加,传统的超连接架构面临着严重的信号增益问题,并且训练过程最终可能变得非常不稳定甚至失败。为了解决这个阻碍模型扩展的基本物理问题,DeepSeek团队在本文中提出了一种新的架构——mHC。简单来说,就是在驱动信号中加入精密阀门,将信号增益严格控制在1.6倍左右。论文数据显示,在测试参数大小为 3B、9B 甚至 18B 的模型时,使用 mHC 架构的模型在 BIG-BenchHard 推理基准上提高了 2.1%。这项研究的结果梁文峰联合签署的h,实际上解决了modelsbig“变大”和“变复杂”过程中的稳定性问题。这意味着V4。该模型很可能会采用这种新的架构,这将允许更大的训练,同时还具有更多的参数和更深入的推理能力。维护效率和稳定性非常高。不仅如此,2026 年 1 月上旬,DeepSeek 秘密将 arXiV 上的 R1 论文从原来的 22 页扩大到 86 页。另外 60 页详细介绍了整个 R1 训练过程,包括四个关键步骤:冷启动、面向推理的强化学习 (RL)、拒绝采样和调优以及面向调优的强化学习。业内普遍认为,此类“股权清算”技术在大年三十推出,预示着更强大的下一代技术的成熟。下一代V4将需要更高级别的护城河,因为技术细节R1 不再是主要障碍。03 2026 年元旦,来自量化世界的一股新生力量参战。由久坤投资创始团队发起的IQuest Research发布了名为IQuest-Coder-V1的大规模开源代码模型。我们曾在文章中写道:“量子货币回来了,深度搜索的第二个时刻到来了吗?”这个团队也有量化背景。一个只有40B参数的模型在SWE-benchVerified测试中取得了81.4%的高分,一举达到了Claude和ChatGPT的水平。在Vibe编码战场上,国内互联网巨头的动作也不容小觑。字节跳动的豆宝将在2025年初实现Trae编程。阿里巴巴的统一钱文于12月26日发布了Qwen Code v0.5.0,推出了该工具并实现了HTML预览和完整项目生成的Python执行等功能。本次更新的亮点包括智能问答、实时翻译、prototyping,其目标是支持在终端窗口中同时执行四个 Qwen Code 实例,可以并行处理多个任务,例如创意绘图。 “跨越命令行”的AI编程 但真正让业界惊讶的是,2025年12月1日,字节跳动与中兴通讯合作,推出搭载豆宝手机助手的努比亚M153工程样机,首批产品当天就被抢购一空,即使在二手市场也卖到了高价。这款移动助手的主要功能是,只需用自然语言向用户发出指令,它就可以自动执行复杂的任务,例如订外卖、预订航班或比较购买。这一系列动作体现了I模型从云端到设备、从工具到门户的战略转型。与此同时,资本市场也见证着规模化示范产业的到来。工业收获的季节。经历了“百模大战”风波的中国AI产业,正在加速向顶峰汇聚。智普AI和MiniMax均成功上市。智浦于1月8日在香港联交所上市,发行价定为每股116.2港元。首日交易震惊市场,开盘价120港元,收盘价131.5港元。首日大涨13.17%,市值瞬间达到578.9亿港元,成为“全球第一大模股”。该股次日开盘报137.2港元,收盘报158.6港元,较开盘当日收盘价上涨20.6%。市值也增至6,982.1万港元。由于该股在两天内较发行价上涨近 37%,卖空者没有机会。 MiniMax 比Zhipu 晚一天,但更受欢迎。发行价为每股165港元,创历史最高价。在黑市上上市前一天,股价上涨25%至29%至205.60-212.60港元。上市当日,股价上涨42.7%至235.4港元。此后一路飙升,盘中最高触及351.8港元,最终报345港元,较发行价大幅上涨109.09%。交易以港口美元结束。其市值达到1054亿港元,成为千亿市值俱乐部的新成员。尽管两家公司因研发投入巨大而持续亏损,但其强劲的增长曲线表明,市场为高质量人工智能模型付费的意愿正在形成。中国AI独领风骚,DeepSeek再次吸引世界目光。该团队在一年前用低成本的方式颠覆了行业认知,即将在农历新年期间揭晓新答案。 DeepSeek能否第二次“震惊世界”,我们将在未来几天揭晓。
规格注:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。