2026-06-19
2026年的上半场,具身智能圈充斥着路线之争的焦虑。一方是坚持“端到端”的VLA(视觉-语言-动作)原教旨主义者,另一方是信奉“预演未来”的世界模型(World Model)拥趸。
就在业界还在为Jim Fan那句“为VLA默哀”争吵不休时,英伟达用Cosmos 3.0确立了行业风向。而在全球机器人产业竞逐的核心赛道上,一家名为“大晓机器人”的中国团队,用一份硬核的成绩单,直接将争论的战场推向新高度。
近日,大晓机器人自研的开悟世界模型(Kairos)在RoboTwin2.0、LIBERO-Plus、WorldModelBench Robot、DreamGen四大权威评测中同时登顶。在《智能新观察》看来,这不仅是“刷榜”,更是中国团队首次在复杂操作、极端泛化、物理精度、数据生成四个维度上同时证明了自己的统治力。
范式超越:为什么“理解-生成-预测”一体化架构是必然终局?
行业普遍将世界模型简单理解为视频生成模型在机器人领域的应用延伸,即通过预测下一帧画面来模拟环境变化。这种外挂式方案的本质是将一个预训练的视频生成模型拼接在VLA架构之上,让机器人先“看到”未来再决定行动。但这一设计存在结构性缺陷:视频生成模型的任务是像素级重建,而非物理因果推演;当它被强行植入决策链路时,机器人必须在画面想象与动作执行之间频繁切换,导致推理延迟累积和物理逻辑断裂。
针对外挂式方案在物理推演与决策延迟上的双重短板,Kairos所代表的一体化架构从底层逻辑上重构了设计思路。它将理解、生成、预测三个环节共用同一套参数空间,将物理规律的学习与动作决策的生成融为一体。模型不再先想象画面再决定动作,而是在预演物理状态变化的同时生成动作指令,两者在隐空间内同步完成。这不仅是工程上的优化,更反映了对“什么是世界模型”这一根本问题的不同回答。
Kairos 4B在Jetson平台上实现了1比1.5的实时生成能力,成为全球首款可端侧直驱机器人本体的具身世界模型。这意味着机器人不再依赖云端算力进行决策,推理延迟被压缩到毫秒级。对于工业装配、家庭服务等实时性敏感场景,这一突破直接将世界模型从实验室推向了工程化应用的前沿。
这种架构层面的创新,离不开数据策略的同步升级。Kairos所使用的十余万小时人类中心实景数据,代表了行业对数据来源的一次重新校准。此前,具身智能的数据训练主要依赖仿真数据或遥操作数据,两者分别存在“仿真到现实的鸿沟”和“采集成本过高”的问题。人类日常第一视角视频作为预训练来源,已经在NVIDIA的EgoScale研究中被验证为高效的数据飞轮引擎。Kairos在这一方向上的大规模投入,印证了具身智能数据策略正在从“仿真驱动”转向“真实人类经验驱动”。
四榜封王:四大维度证明“世界模型路线”的全面领先
评测是检验技术路线成色的最直接标尺。在具身智能领域,由于真实场景的复杂性和长尾特性,任何单一维度的评测都难以全面反映模型能力。RoboTwin2.0、LIBERO-Plus、WorldModelBench Robot、DreamGen四大基准分别从双臂操作精度、环境扰动鲁棒性、物理规律遵循度、新场景泛化能力四个维度构建了互补的评估体系。Kairos在这四项评测中同时登顶,意味着它在从实验室标准环境到开放真实世界的所有关键能力层级上均达到了领先水平。
RoboTwin 2.0由上海交通大学、香港大学、上海人工智能实验室联合提出,包含50项高难度双臂协作任务,是衡量复杂操作能力的权威试金石。Kairos以96.1分的平均成功率登顶,在标准场景取得96.9分,在随机化场景取得95.2分,全面超越MotuBrain、Fast WAM等主流世界模型。这一成绩验证了Kairos对动力学与动作演化的联合建模能力,为精细工业操作场景落地铺平了道路。
LIBERO Plus由上海创智学院、复旦大学、同济大学、新加坡国立大学联合提出,通过在光照、背景、噪声等7个维度引入扰动,测试模型在未知环境中的鲁棒性。Kairos以89.0分的总成绩超越所有VLA模型,在光照维度取得97.7分,噪声维度取得96.8分,均接近满分。这证明Kairos依靠物理常识推理而非死记硬背来适应复杂环境,是机器人走出工厂、进入家庭的关键能力验证。
WorldModelBench Robot由加州大学伯克利分校、加州大学圣迭戈分校、英伟达、麻省理工学院联合提出,是衡量机器人世界建模能力的行业金标准。Kairos 4B以9.30分的总成绩登顶,在牛顿力学、重力两大核心物理规律维度均获满分。仅用4B参数便全面超越了28B参数的Lingbot和16B参数的Cosmos3,创造了世界模型领域参数效率的新纪录,证明轻量化模型同样可以拥有精准的物理直觉。
DreamGen由英伟达联合华盛顿大学、加州大学伯克利分校、加州大学洛杉矶分校等顶尖高校提出,评估世界模型在新物体、新行为、新环境中的泛化能力。Kairos一举夺得平均物理遵循和总平均分两项全球第一,在新行为执行和新环境适配两个核心维度上均位居首位。这证明Kairos生成的合成数据符合真实物理规律,可以直接用于训练下游机器人策略,大幅降低了新场景落地的数据成本。
开悟登顶背后的三大产业信号
Kairos的四榜第一不只是单一产品的胜利,它折射出具身智能行业正在发生的深层结构性变化。从技术路线的演进方向、竞争壁垒的迁移轨迹,到中国企业在全球格局中的位置,这场评测结果背后隐藏着三条值得行业长期关注的线索。
Jim Fan在红杉AI Ascent 2026上高呼VLA已死,但从Kairos的实践来看,生成式预测作为VLA的预演模块或监督信号已经展现出显著价值。这提示行业,未来的技术演进方向或许不是二选一的对立,而是两者的深度融合。Kairos登顶四大榜单为业界提供了一个清晰的范本,即世界模型完全可以反哺动作策略,而非与之割裂。
Kairos的领先难以在短期内被复刻,核心壁垒在于其依托产业背景构建的高质量物理交互数据体系。十余万小时的人类中心实景数据不是靠融资就能快速积累的,这需要长期部署和持续迭代。2026年的竞争已经从模型架构的比拼,转向了物理数据工厂的产能与效率之争。谁拥有更多高质量的真实物理交互数据,谁就掌握了下一代具身智能的入场券。
在高端AI算力获取受限的行业背景下,Kairos 4B以仅4B参数实现了对海外大参数模型的全面超越。它的推理速度较Cosmos 3提升72倍,显存占用仅23.5GB,远低于Cosmos 3的70.2GB。这组数据有力证明,通过更聪明的模型架构创新,中国团队完全可以实现对算力瓶颈的弯道超车,以算法的精巧弥补硬件的限制,确立全球引领地位。
结语
业界普遍认为,具身智能当前仍处于类似GPT-2的早期探索阶段。当前通用世界模型在真实场景中仍面临诸多长尾挑战,距离通用机器人的大规模普及还有相当长的路要走。
大晓Kairos这次四榜第一的价值,在于证明了轻量化与高泛化可以通过架构创新兼得,同时其端侧实时推理能力正在实质性降低部署成本。这标志着具身智能正从实验室演示阶段,加速跨入真实场景的规模化应用周期。