优秀的Zhu Zheng技术:世界模型在下一代VLA | 10个具有先驱性格的开拓者

数据始终是特定智能圈中最有问题的问题之一。在去年或两年中,实际机器数据和模拟数据的粉丝一直在讨论。该机器的真实生产昂贵,效率低下,成本超过1亿元。仿真数据面临很大的SIM2REAL差距。似乎没有一个出现,技术进步被卡住了。有人开始探索世界模型。这个概念能否首先在自主驾驶领域中流行,真的可以节省化身的智能?郑郑是其中之一,也是改变自主驾驶变为化身情报的蓬勃发展力量之一。他毕业于简历(计算机视觉),并毕业于中国科学院自动化。然后,他曾在Tinga大学自动化学系的博士后研究工作。在过去的十年中,简历行业的科学研究人员经历了几种应用趋势,第一个FACIAL识别,然后自动驾驶。这也是Zheng的早期工作。他在最佳会议和杂志杂志上发表了70多篇文章,引用了16,000多次,并赢得了主要的视觉比赛冠军,包括NIST-FRVT,可可和投票。 WebFace260M,WebFace260M是开发的,是最大的面部识别数据集,已被要求用于500多个科学实验室。 BEVDET是BEV识别领域中的主要算法,由许多汽车和自主管理公司的3D识别解决方案通过,首先在Kitti,Nuscenes等人中归类。现在,在自主驾驶和面部识别之后,简历世界已经到达了化身的智力之门。”在前两个领域中,视觉感知一直是重力的中心。但是,当涉及化身的智能情景时,它经常与物理世界相互作用。o解决行动的能力,不可避免的进化。 – 朱雅技术的基础和科学负责人,朱Zheng以前使团队基于模型提供了一个全球模拟环境,以便许多汽车公司试图优化自主驾驶算法。该团队的学术成就会导致Reamer的学术成就也包括在上一年的eCCV 2024以来。他们推出了Gigabrain,这是一款在世界模式下训练有素的VLAL数据,据报道,零拍摄任务的成功率增加了50个百分点。 Gigoworld世界平台也将在本月发布。利用这一融合情报趋势的浪潮,Jijia Technology在六个月内连续第三次融资。今年,世界模型已经迅速流行并在圈子中被推广,但是在诸如世界模型是什么?您与VLA有什么关系? Zhu Zhengxiang Leifeng.com AI技术的评论指出,在短期内,世界模型是一种“自动化” VLA的fork,并且最新的培训数据可以解决致命问题。但是从长远来看,两者可以集成。 “世界模型是物理世界一般智能的最重要组成部分,它是唯一允许我们创建大量数据的途径,这些数据可以与时代的Internet数据媲美“世界模型在Next VLA的AI AI技术评论中都发展起来。整个全球模型行业的定义远非融合。您对世界模型的定义是什么?或者世界模型希望创建Qijia?Zhu Zheng?Zhu Zheng:我们关注世界模型的性质:在几个领域的范围。虽然RL的重点是为代理人提供仿真培训的环境,但这是因为世界模型可以预测未来的能力。它c应该是3D框架或车道线。在化身智能领域,我们更关心动作序列。 IA技术评论:但是预测的最终目标也是为代理服务。 Zhen Zheng:将世界模型分为三个阶段。在此阶段,我们主要使用世界模型生成培训数据。下一步是为代理提供闭路模拟环境。在最后阶段,世界模型演变为vla的遗传生成。 AI技术评论:您认为将完成这三个阶段并最终成熟多长时间? Zhe Zheng:更成熟的是使用世界模型生成数据。每个人都对此达成共识。据我所知,不仅我们,而且许多本体论公司,化身的大脑公司和大型公司都可能正在探索。如果您可以先尝试明年的通行证的可行性,任何人都可以跟进。以下两个阶段列出了CA的高要求世界模型的PACITE,例如控制能力和物理定律的遵守能力。整个过程需要3到5年。 AI技术评论:因此,该节点之后还会出现Incormated Intelligence的成熟度和普及吗? Zheng:是的。 IA技术评论:世界模型应该是全球模型还是可自定义的垂直模型? Zhug Zheng:世界模型似乎是需要基本模型的视频生成模型。 Niño基础模型可能是一个被称为全球模型的一般情况。但是,在训练后的后期,将自动驾驶或化身智能的数据结合在一起,以使模型符合特定领域的局限性和物理定律。总而言之,在开始时创建一个基本模型,然后为特定任务要求创建个性化的垂直模型。 IA技术评论:这种光垂直模型是否也有助于实现低潜伏期和高忠诚? Zhen Zheng:有Cu在低潜伏期情景中,大约有三种解决方案来实现高忠诚度模型的真实推论。一个是步骤的蒸馏,另一个是参数蒸馏,末端是定量发展。首先,他消除了扩散模型的多个步骤,在单个步骤蒸馏步骤中被压缩,这可以显着减少推理时间。其次,使用参数蒸馏,我们设计了一些在边缘执行的小型模型,因此我们不必在云中执行它们,从而减少了计算过载,同时保证了生产质量。最后,除了实现之外,它将与混合精度和硬件优化的量化相结合加速。目前,从定量指标的角度来看,与我们相似的模型是Nvidia Universe,当然,宇宙实际上相对较大。我们的模型基本上比宇宙快10倍。自动驾驶ING强调了长期的预测,而化身的情报则强调了对AI技术的精美运营评论。世界建模的概念在自动驾驶领域也很受欢迎,而Gigia Technology也为许多汽车公司提供服务。自动驾驶领域的全球模型如何? Zhug Zheng:世界自主驾驶模型在生成训练数据和闭路模拟时相对成熟。有很多行业研究。目前,它正在将其与VLA结合在一起,并在下一代VLA中发展。我们在2023年9月做了一名驾驶员。这被认为是当时世界真实驾驶场景的第一个原型。基于这项工作,后来驾驶Reamer-2,DivedReamer4D,Recondreamer,Recondreamer ++,并提高了数据生成的质量和控制,并引入了Generation Paradigm+重建。上个月,我们推出了一项名为Recondreamer-RL的新工作。这是一个C em世界模型使用的ulatroclated ircuito将生成 +重建作为增强学习训练的闭路模拟器。 AI技术评论:自动驾驶是否没有数据?当汽车在路上运行时,生成许多数据是自然的吗? Zheng:我们联系了许多中国汽车的主要制造商。他们花了一个伟大的车队来收集数据数年,从本质上积累了数亿公里的实际数据。但是,这些数据中有99%是常见情况,例如长期尾部问题和角落数据,例如针对晴天,雨天和雾气,下雪的日子,重型卡车,警车,平台拖车,行人幽灵探针,突然的雪崩车辆的道路。 AI技术评论:当前世界自动驾驶模型的最大问题是什么? Zhen Zheng:关键主题是世界模型的构建基于视频生成技术,并且视频的产生具有幻觉。我们的curreNT解决方案是实施和接纳重建模型。也就是说,在3DGS方法中,首先进行场景的重建,重建结果被馈送到视频生成模型,维修视频生成模型,并将修复后的结果返回到重建模型中,以形成周期。 IA技术评论:但是,重建成本也会增加吗? Zheng:是的。大多数重建模型基于场景场景优化,因此每个情况都需要培训重建模型。汽车公司通常需要重建人类驾驶员照顾和汽车事故发生的所有地点,这非常昂贵。此外,当我们跟进某些前卫 – garde方法时,请使用Feed Forward(Feed Forward网络)使用物理属性直接生成3DGS资产。这是一个统一的模型,可用于重建几种情况,更加自动化和加速3D世界模型的构建过程。当然,确定的趋势是使用纯视频生成模型构建世界模型,但需要一点时间。 AI技术评论:为什么吉亚(Gigia)后来进入自动驾驶的合并情报? Zhu Zheng:实际上,自成立以来,我们一直非常关注化身的智力,但我们认为自主驾驶是世界模型的更好切入点。自去年下半年以来,我们一直致力于建立一个智能世界模型,该模型在Certainto时期积累了自动驾驶领域。 IA技术评论:自动驾驶领域中纳入的全球模型与情报之间有什么区别? Zhu Zheng:世界自主驾驶模型的核心是预测交通参与者的动态变化,尤其是车道变化,以及高速运动目标的动态变化,例如行人幽灵探测器S,从长远来看。这些场景通常持续数十秒。因此,世界自主驾驶模型需要强大的时间建模功能。相反,智能场景合并是基于诸如抓取,推动,投掷和组装以及更频繁地与环境互动的精细操作,这表明对世界模型的几何精度和物理合理性的要求更高。世界模型的本质不能限于4D。 Commentaryo Technological AI:所有3D智能世界模型是否都纳入3D? Zhu Zheng,我们目前正在划分世界模型,3D世界模型,3D世界模型),3DGS Technology在这里为您提供Jing Zhengjiang的帮助;广泛的世界视频模型(视频世界模型)是2D版本。 AI技术评论:未来情报的尺寸是否超过了当前维度的限制? Zhen Zheng:根据当前技术进步的判断,这是更多的NAT为建模3D世界模型或添加一个维度的时间来构建4D,这允许同时反映几何结构和动态变化。这种结构具有明显的身体重要性,也是一个工程实验。但是,世界模型的本质不应限于4D。世界模型的最终目标是重建和了解世界。因此,可以将4D之前的变量视为将其引入未来,例如强度反馈标志,触觉信号等。这使您可以捕获无法用纯几何 +时间来解释的法律。 IA技术评论:新成立的情报领域世界对身体合理性的高度要求。世界模型如何学习物理定律? Zheng:有两种解决方案。对于世界视频模型,需要一种末端 – 末端训练方法来隐式编码扩散模型中的明显几何和物理规则,请学习隐式通过大型2D数据,直接从视频中生成未来的帧。它等同于通过观察而不是相互作用直接学习物理定律的人类。该方法是一个相对较高的上限,在纹理,照明等的明显建模中非常出色,但指出可以符合需要高空间一致性的一些随后的任务,例如在SFT阶段所需的高保真度的交互式模拟。对于3D世界模型,必须将3DG链接到某些明确的物理特性,例如网格,材料点和粒子系统。这相当于人类通过各种互动学习物理定律。该方法更适合物理定律,还可以支持碰撞检测,强制传播或动态建模。但是,这些链接仍然取决于场景场景的优化,不能完全自动化。 AI技术评论:如何在世界模型中保持持续的环境记忆?特别是,t他的2D世界模型的空间一致性很差。 Zheng:基本上有两种方法。第一个是明确的维护。这意味着它存储了Manit环境状态的结构并用于咨询和更新。一般过程是,生成模型从新的角度生成内容,并充当扩展场景的入口。重建模型将这些结果集成到几何一致的3D场景的表示中,以形成环境记忆。结果的重建结果是生成模型的先验性,得出了后续的生成过程,并在物理和几何局限性下提高了观点或时间之间的一致性。第二种是隐式编码内存,而DeepMind Genie系列是一个典型的例子。简而言之,编码历史框架的上下文特征,以促进自我抑制视频的产生Hiefe短期动态预测,没有明确的建模。但是,不便之处在于,当前的计算机资源和电容序列建模ADE允许这种类型的方法仅在有限的时间窗口内保持内存的一致性。例如,很难支持环境和大规模环境记忆的管理。将来,我们将考虑在我们的全球模型体系结构和构建光线外部功能内存库中引入抹布技术。这种机制可以实现长期存储,并有效地搜索长期环境条件,而不会显着增加过载,从而破坏了本地内存窗口的限制。 AI技术评论:如何在面对不同方案时选择先前的方法? Zhen Zheng:3D World Models非常适合建模大空间,并且更适合移动导航方案。世界视频模型更适合操作场景里奥斯。 AI技术评论:因此,这是两种方法的组合。 Zhen Zheng:是的,整合了两个世界模型的建模方法以完成移动导航操作 +。世界模型丰富了金字塔AI数据技术的水平:数据是世界模型的含义之一。您如何看到机器的真实数据?许多公司目前正在研究数字收购。这是正确的路线吗?会引起外观吗? Zhen Zheng:真实的机器数据无疑是最现实的,但是汇编期很长,成本也很高。例如,π0模型使用真实的机器来恢复10,000小时的数据。本体成本,数字收购人员成本以及考虑存储成本,所有成本可能约为1亿元。即使是高π0成本,也仍然存在着广义行为,观点,立场等的局限L机器的数据。我们的孩子不应使用重复的测试和错误,例如打破杯子,并了解“如果杯子掉落”的常识,但最初他们可以从根本上理解物理世界,然后推断并预测结果。 AI技术评论:机器真实数据的相反是仿真数据。世界模型和模拟器有什么区别? Zhug Zheng:实际上,世界模型可以被视为新一代模拟器,它更适合物理定律,即SIM 2.0,Nvidia经常提到。传统仿真数据的最大问题是SIM中提到的差距,尚未得到很好的解决。 SIM 1.0仿真数据可以为世界模型提供多种条件,该模型通过其代代能力将SIM进一步降低到实际差距,从而可以生成相对高效,低和物理上现实的数据。 AI技术评论:数据金字塔会被世界动摇吗?S降临模型? Zhen Zheng:我认为世界模型的外观不会改变金字塔的结构,但它可以增加金字塔的丰富性,尤其是金字塔的中层。今天,每个人都在研究数据共生的各种实践。世界模型仍然需要概括真实数据。此外,在训练后使用少量的真实机器数据,以确保模型不会超过生成的数据。 AI技术评论:一旦成熟的世界模型,您认为什么是合理的数据关系? Zheng:我们做了许多实验。当前,当VLA正在培训时,只有大约10%的数据是真实的机器数据,其余90%的广义是世界模型。我们还准备在明年提高这个1:100的比率,并进行更激进的实验。 IA技术评论:借助世界优越的技术模型,具体智能的实际表现如何? Zheng:t例如,柔软的身体场景为例,许多传统的模拟器基本上无法很好地处理柔软的身体。在使用世界模型的通用软体数据训练模型之后,我们发现任务的成功率比以前的任务高约50%。从概括的角度来看,我们尝试了许多任务,发现零模型的成功率在30%至80%之间。明年,我们希望推出Gigabrain 2.0,并将我们的成功率提高到约90%。更重要的是,数据减少了几个订单是幅度。我们估计,如果我们仅信任真实的数据收集,则数十亿人民币将花费。但是,要使用世界模型,它只需要GPU推断,这会花费数百万美元。 IA技术评论:世界模型是解决智能领域中的数据稀缺问题,但也缺乏建立世界模型所需的数据。如何解决这个问题?朱Zheng:目前,世界训练模型主要使用互联网使用真实的物理场景和多个视觉数据。信任这些数据,最初我们训练一个可以从本质上理解物理法律的世界模型,为VLA模型提供了各种理性结构化数据。然后,VLA必须在真实环境中实现并执行任务。该过程允许连续编译交互式数据真实,包括多种视觉,强度和触觉感觉的模式,并改善了世界模型。因此,世界模型和VLA是相互饲养的数据状态。 AI的技术评论:信任世界模型来重建物理规则并解决不足的VLA概括能力的问题,就是要打开更困难的问题来解决困难问题。 Zhen Zheng:这可能是短期的,但是从长远来看,这可能是真正概括智能的唯一方法。当前的VLA概括可能是缺乏的了解物理世界。世界模型可以更好地解决此问题并提供模型模拟器。允许VLA预测动作的结果并执行交叉 – 秒推理。因此,这不是打开更困难的道路,而是解决更重要的问题的东西。 AI技术评论:世界模型是用来“主导” VLA容器还是替换VLA? Zhen Zheng:在此阶段,它是一个“容器”,为VLA数据和培训提供了基础。但是,从最终的角度来看,世界模型中最重要的是它的预测能力,这是VLA的一种形式。因此,将来可以混合它们,但需要一个过程。也许在几年内,我们没有讨论世界模型与VLA之间的差异。世界模型平台 +解决方案销售“两条腿”步行AI技术评论:Feifei的世界实验室于去年成立。这是您所做的吗? Zhen Zheng:根据某些公共信息,世界Li Feifei世界实验室主要集中在Wensheng和Tusheng的3D世界上,主要朝着内容和娱乐的方向发展,在技术上与我们的工作相似,但着陆点不同。 AI技术评论:Mucyou有新的公司,大型工厂和研究机构在今年已成立的大脑中工作。你怎么认为?在这种情况下,化身公司是否需要聪明?拥有更多资源的大公司会成为“平等权利”的风险?自我开发的本体论是否使开源大脑在更快的着陆速度上为开源大脑装备吗? Zheng:本体论公司的优势在于,标准化硬件可以收集数据并使用这些数字的VLA。根据以前的训练,收敛速度很高。重要制造商的优点是,应用程序方案更清晰,可以与主要业务结合使用。 S的技术积累周期科斯科研究机构正在越来越长。新的基本公司具有更全面的好处。我认为化身的大脑没有达到CAP和游戏水平。也有多种问题无法解决行业的需求,例如任务的概括,交叉理论和横向实施。在此阶段,本体论和大脑发育仍然高度合并。 AI技术评论:我听说有传言说即使是出色的技术也有自己的身体。 Zheng:是的,本体论的起点相对清楚。这是因为它需要通过标准化本体学到从世界模型到VLA的闭路链接的快速迭代。这将鼓励该模型将来促进其他客户机器人组织。 AI技术评论:您是否希望将来出售本体论? Zheng:实际上,我目前与几个终端的客户联系,主要是政府培训原因,大学研究Cenarios,Service ScenariosFamily Commercials等,提供了世界模型和VLA解决方案的原型软件和硬件解决方案。预计将在几年内过渡到C。 IA技术评论:因此,不仅有必要为行业提供一个全球模型平台,例如自动驾驶时代,而且还直接在终端中实施。 “在两条腿上行走”需要过多的能量才能创业吗? Zhen Zheng:分阶段实施此策略。 DeepSeek为每个人提供了更好的样本。当然,这种困难将比语言模型复杂得多,尤其是从数据角度来看。但这也是我们最大的优势。我们的短期目标是减少成立智能行业的数据成本。我们认为,世界模型是物理世界一般智能的最重要组成部分。训练数据由Modelo World生成的数据是唯一可以到达Internet数据L在规模和普遍性方面,大型语言模型的evel。
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
通知:上面的内容(照片和视频)如果有O)将由社交媒体平台NetEase Hao的用户加载和发布,仅提供信息存储服务。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注