给车装一个＂脑内模拟器＂：小米汽车发布世界模型全新框架

2026年05月26日，小米汽车正式发布了 Xiaomi Auto World Model 世界模型全新框架。这是我对这次发布的技术拆解。

自动驾驶行业争了这么多年，核心问题其实就一个--车到底能不能"理解"物理世界，而不是只会"条件反射"。

看到小米这次发布的世界模型框架时，我的第一反应不是看 benchmark 数字，而是先看架构设计。盯自动驾驶和世界模型这条线也有一段时间了，看完官方论文和几篇技术复盘，我一直在关注一件事：各家说的"世界模型"到底是在炫技，还是真能解决工程问题。

小米这次的方案，给出了一个我觉得值得认真对待的答案。

官方给的定义很精炼："重建锚定几何、生成填补想象"。这是小米首次将三维重建与视频生成深度耦合的一体化架构。在 Waymo、nuScenes 等主流基准测试上全面 SOTA，已经落地合成数据、仿真和驾驶学堂三大场景。相关的技术论文也已经挂在 arXiv 上（编号 2605.18137）。

但比成绩更重要的是，这个思路可能指向了自动驾驶世界模型的一个正确方向。

先搞清楚"世界模型"到底在争什么

先说一个大多数人没说清楚的事。

世界模型不是"更聪明的感知系统"。它的核心任务是在车的"脑子"里建一个可以推演的物理世界沙盘--不是死记硬背地图，也不是简单识别眼前的物体，而是能在脑子里模拟"如果我现在左转，接下来 5 秒会发生什么"。

用一个不太恰当但很好理解的类比：就像棋手下棋之前会在脑子里推演几步。好的世界模型就是那个推演能力。

但现在的问题是，行业里做世界模型的路线分成了两拨。

一拨走纯视频生成路线。给模型看一段驾驶视频，让它预测接下来会生成什么样的画面。小鹏之前发布的 X-World 就是这个方向。画面确实好看了，但有一个致命问题--几何幻觉。模型生成了一辆实际不存在的车，或者把路的走向"想象"错了，感知系统就会基于这些幻觉做出错误的驾驶决策。

画得好看不代表画得对。在自动驾驶这个场景里，"对"比"好看"重要一万倍。

另一拨走纯三维重建路线。用传感器数据重建周围环境的三维几何，精度很高，能准确描述"现在是什么样"。但它做不了"接下来可能怎么样"的预测--就像一个摄影师能拍出极其精准的照片，但无法告诉你下一秒会发生什么。

所以行业一直在找一个能兼顾的方案。

小米的方案到底做了什么

小米这次发布的 Xiaomi Auto World Model，核心是两个模块的深度耦合。

WorldRec（重建模块）。用 sparse queries（稀疏查询）和 3D Gaussian（三维高斯表示）来锚定几何。通俗地说，就是先把物理世界的"骨架"搭准--路在哪里、车道线怎么走、周围的物体在什么位置，这些都用三维重建的方式固定下来，保证几何一致性。

WorldGen（生成模块）。在重建好的几何骨架上，用双向预训练（bidirectional pretraining）加因果微调（causal fine-tuning，4 步）来"填补想象"--基于准确的几何骨架，生成未来可能的画面。

这两件事分开做，都不新鲜。

新鲜的是把它们深度耦合在同一个框架里。

官方那句话的技术含义就在这里--"重建锚定几何"保证棋盘规则是准的，"生成填补想象"在准确的棋盘上推演各种可能的变化。不是两个模块简单拼在一起，而是一套统一的技术系统同时处理世界表征和世界生成。

这也是为什么它在 Waymo、nuScenes 这些主流 benchmark 上能拿到 SOTA。

（具体 benchmark 数字有待官方详细论文披露，目前官方口径是"全面 SOTA"。）

为什么说这个思路可能是对的

我认为世界模型的核心竞争不在生成质量，在几何一致性。这个判断不是凭空来的--我翻过几个开源世界模型项目的技术文档和实测报告，发现一个规律：凡是几何一致性差的，生成画面再好看，下游感知任务的错误率都高。我把它叫做"几何一致性优先法"--评价一个世界模型好不好，先看几何准不准，再看生成对不对，最后看一体化能不能落地。

还是回到那个下棋的类比。一个好的世界模型应该像一个棋手在脑子里推演棋局：棋盘规则必须准--车在马路上不能飞到天上去，这是几何一致性；推演变化可以灵活--前车可能刹车、旁边可能有车变道，这是生成能力。

纯视频生成的问题在于，它有时候会在棋盘上"变"出一个本来不存在的棋子。生成画面质量很高，但几何关系是错的。对人类来说一眼能看出"这路不对劲"，但对自动驾驶系统来说，它可能就会基于这个错误的几何信息做出致命的决策。

纯重建的问题则是，它能告诉你棋盘上现在有什么棋子，但不会推演对手下一步会怎么走。

小米的解法：先用重建保证"棋盘规则准"，再用生成实现"推演变化灵活"。

这不是小米一家的技术路线选择。从行业信号来看，"几何一致性 + 因果正确"正在成为自动驾驶世界模型的一个共识方向--只不过小米是第一个把重建和生成深度耦合后拿出 SOTA 成绩的。

落地场景和理性看待

目前这个框架已经落地了三个场景：合成数据生成、仿真测试和驾驶学堂。

但也要说清楚一件事：从世界模型到真正的量产智驾，还有距离。

SOTA 是学术 benchmark 上的成绩，量产要考虑的是另一套问题--inference 延迟够不够低，车上算力能不能跑得动，遇到没见过的 corner case 会不会崩。

这三关，每一关都不好过。

不过方向对了比跑得快更重要。用"几何一致性优先法"的视角来看，当世界模型的设计思路从"怎么生成更逼真的画面"转向"怎么构建更准确的物理世界表征"，这本身就是一个值得注意的信号。

好的世界模型不是画得好看，是想得准确。

这个号会持续更新这种把科技趋势拆开来讲的内容，希望能陪你一起把复杂的事看明白。