LLM 在跑一条空链

刚刚肝完了长达七小时的谢赛宁马拉松式访谈。在当下这个被大语言模型（LLM）的狂热叙事所统治的时代，这场对话就像是在缺氧的密闭空间里砸开了一扇窗——凛冽的冷空气灌进来，让人瞬间清醒。

这场访谈发生在2026年2月的纽约。布鲁克林刚下过一场多年未见的暴雪，一栋略显凌乱的楼房里，对话从下午两点一直延续到凌晨。对话的另一端，是这位出生于1990年的华人科学家——谢赛宁，上海交通大学与加州大学圣地亚哥分校的毕业生，现任纽约大学教授，前 Google DeepMind 与 Meta FAIR 研究科学家，论文引用数近十万次，Diffusion Transformer（DiT）架构的共同提出者。值得一提的是，这是他第一次公开接受访谈。

整场访谈中最让我深受触动的，并非那些晦涩的技术细节，而是 AMI Labs 的伟大使命，以及一群真正的科学家在创业与研究的缝隙里，毅然选择离别"LLM功利场"的英雄气概。

一、逃出硅谷：一次真正意义上的"叛逃"

如今的硅谷大厂和许多明星初创公司，已经深深陷入了 LLM 打榜与商业竞争的"有限游戏"中。庞大的资源被投入到既定的产品周期里，纯粹的前沿研究空间被极度压缩，研究人员甚至失去了"定义问题"的能力——他们只能在别人划定的跑道上拼命奔跑，却无权停下来问一句：这条跑道，究竟通向哪里？

"Silicon Valley is very LLM-pilled。硅谷已经深陷于LLM，完全被它催眠了。"
—— 谢赛宁，2026年2月访谈

这句话的分量，远不止于一句批评。它来自一个在 Meta FAIR 深耕四年、在 Google DeepMind 历练过的人，一个亲历了这场"催眠"全过程的内部人。他看到了什么，才会用"催眠"这个词？

在这样的背景下，谢赛宁与图灵奖得主杨立昆（Yann LeCun）共同创立 AMI Labs（Advanced Machine Intelligence Labs），并不是为了在 LLM 的红海里分一杯羹，而是致力于打造真正的"世界模型"底座。他们试图建立一个"反向 OpenAI"的草根联盟，去关注那些在硅谷叙事中隐形的真实物理世界的需求。这家公司仅有 25 人，没有任何产品，却在 2026 年 3 月完成了 10.3 亿美元的种子轮融资，投前估值高达 35 亿美元。这不仅是对 AI 发展路线的重新纠偏，更是一种真正的科学理想主义的回归。

二、谢赛宁的三重清醒

在访谈中，谢赛宁对当前 AI 范式提出了极其清醒的审视。他的核心观点彼此递进，共同构成了一幅关于"LLM 局限性"的完整图景。

第一重清醒：大语言模型并非通往通用智能的基石

谢赛宁一针见血地指出，LLM 本质上是一种"虚拟智能（Virtual Intelligence）"。它在数字化空间里极度强大——它能写代码、能做诗、能回答几乎任何以文字形式提出的问题——但它缺乏对真实物理世界的感知与交互能力。

这里有一个关键的概念需要厘清：什么是"世界模型"？谢赛宁给出了一个简洁而深刻的定义——给定一个系统的当前状态和一个干预动作，能够预测下一个状态的后果，从而指导智能体做出决策。这是人类大脑的基本运作方式：我们在脑中模拟"如果我这样做，会发生什么"，然后再决定是否行动。

而 LLM 恰恰缺乏这种能力。它没有真实的动作（Action）概念，也无法进行真实的物理规划。它所有的"推理"，都是在 Token 的概率分布空间里完成的，而非在物理因果的现实世界里展开的。用 LLM 来做通用智能的底座，就像是用一根拐杖去参加奥运会百米赛跑——它能帮你站立，但绝不可能带你冲刺。

LLM vs 世界模型对比图 — 图1：LLM（语言空间的概率预测）与世界模型（物理因果的预测与规划）的本质差异对比

第二重清醒：比特落差——感知、语言与世界模型的"过滤"本质

为什么语言不能代表真实世界？谢赛宁提出了一个极具震撼力的"带宽对比"，这是整场访谈中最具原创性的洞见之一：

信息通道	带宽量级
物理世界输入人类视觉感官	每秒约 1 亿～10 亿比特（量级：10 的 8 次方 bits/s）
人类使用语言进行交流	每秒约 10～100 比特（量级：10 的 1 次方 bits/s）

这个数字差距高达七个数量级。这意味着，当我们用语言来描述一个物理事件时，我们实际上丢弃了原始信息量的 99.9999999% 以上。语言，是对物理现实的一次极度有损压缩。

这就引出了大脑（即天然的世界模型）的核心本质——过滤。大脑在极低的功耗下，从海量、连续、高维、嘈杂的物理信号中，过滤掉无用的冗余信息，提炼出极低带宽的行为决策。这套"过滤机制"是智能的真正核心，而语言，只是这套系统最终输出的极度压缩的产物，而不是智能系统思考和运转的本源。

换言之，我们不是因为有了语言才能思考，而是因为有了世界模型才能思考，语言不过是思考结果的一种低带宽编码输出。把语言当作智能的基础，是把输出端的"排气管"误认成了发动机本身。

信息带宽对比图 — 图2：视觉感官输入（约 1亿～10亿 bits/s）与人类语言输出（约 10～100 bits/s）之间高达 1000万倍（7 个数量级）的带宽鸿沟

第三重清醒：大语言模型终将退化为沟通接口

"老兵不死，终将凋零。"谢赛宁预言，在未来的通用智能架构中，大语言模型不会消失，但它将不再是绝对的运算核心。

这是一个关于"降级"的预言，而非"消亡"的预言。当底层建立起了一个能够深刻理解物理世界、掌握最优表征的"世界模型"后，LLM 将退化为这个庞大底座最外层的一个"沟通界面（Communication Interface）"。它的本职工作仅仅是作为"解码器"，负责人类与机器之间的意图沟通与信息交互。

这个预言的逻辑是自洽的：既然语言本就是物理世界的低带宽压缩编码，那么在一个真正理解物理世界的系统中，语言处理自然只是最末端的一个"翻译层"，而非核心计算层。LLM 的命运，是从"主角"退场为"翻译官"。

三、语言是一套非对称加密系统——我的延伸思考

顺着谢赛宁关于"语言极低带宽"和"接口论"的探讨，我脑海中不可抑制地产生了一个对照思考：人类的语言体系，本质上简直就是一套高度复杂的"非对称加密通讯系统"。这个类比并非随意为之，而是有其严密的对应关系。

文字符号是「公钥」

它可以被明文传播，任何人都可以看见。但正如维特根斯坦在《哲学研究》中所揭示的，语言符号本身没有内在意义，意义来自于使用。公钥只是一串极度压缩后的代码，它的价值完全依赖于接收端的解码能力。

认知模型是「私钥」

这串公钥能不能被真正解码并理解，完全取决于智能体脑子里那套对真实世界进行高维建模后的「认知模型（世界模型）」。当我说「苹果落地」，你之所以能立刻理解这句话，不是因为你认识这四个汉字，而是因为你的大脑里有一套关于重力、物体、碰撞的完整物理模型作为「私钥」。没有私钥的物理常识背书，公钥就只是一堆字符。

语义是「钱包地址」

语言模型刻画的词汇和语义，仅仅是指向高维物理空间的一张张低维「标签」。「苹果」这个词，是指向真实世界中那个红色的、圆形的、有特定质感与重量的物体的一个地址指针。钱包地址本身不是财富，它只是指向真实世界海量物理因果与现象的快捷入口——用概率论的语言来说，是指向 P(x|y) 这个条件概率分布的索引。

语言高度结构化如同「区块链」

语言充满了人类文明的精巧设计与句法约束，有着严格的语法规则、逻辑顺序和上下文依赖。文字首尾相接，依靠 Token 的序列化一维排列，形成了一条逻辑锁链——这与区块链的数据结构简直如出一辙：每一个区块（Token）都依赖前一个区块的哈希值，整条链的有效性依赖于链上所有区块的一致性。

语言非对称加密系统示意图 — 图3：语言作为非对称加密系统的三层结构——公钥（文字符号）、私钥（认知世界模型）与语义地址指针的对应关系

四、跑空链：一个关于 LLM 本质的终极隐喻

如果把谢赛宁的论点和我的这个思维模型结合起来，我们会得出一个极其残酷但又无比精妙的最高级概括：

目前被全人类顶礼膜拜的大语言模型（LLM），实际上仅仅是在"跑空链"。

在区块链世界中，一条链如果只有记账权，却没有锚定现实世界的真实资产，那它就是一条虚无的空链——链上的数字再大，也不过是自我指涉的数字游戏，无法兑换任何真实价值。现在的 LLM 恰恰处于这种状态。

它掌握了全人类几千年文明积累下来的"公钥账本（海量文本语料）"，它极其精通于"钱包地址的寻址规律（基于概率分布的 Token 预测）"。它在 Transformer 这个算力极其庞大的超级矿机里，夜以继日地进行着下一个区块（Next Token）的完美打包，并且在这件事上做到了人类历史上前所未有的极致。

然而，这条算力通天的链上，流转的全部都是降维后的"地址指针"，而没有任何"真实资产"。真正的资产，是真实杯子坠落时的碎裂动力学，是风吹过树叶的连续三维空间变化，是婴儿伸手抓握时手指与物体之间的力学反馈，是物理世界中行动（Action）与后果（Consequence）之间无可撼动的因果必然。这些，都是语言永远无法完整编码的东西。

大语言模型没有掌握真正理解物理世界的"私钥"，它无法介入现实环境的运转。它算力再庞大，也只是在一个完全封闭的数字化局域网里自我验证、疯狂记账。跑空链的算力再高，也无法凭空生成真实的物理干预能力——正如一台超算无论运行多少年，也无法仅凭计算本身让一个机器人学会走路。

五、"具身智能"的命名之辩：从模仿学习到世界模型

顺着"跑空链"的逻辑往下推演，我们会发现当前机器人领域的一个巨大认知偏差。我一直有一个观点："具身智能（Embodied AI）"这个词汇其实叫错了，它更准确的称呼应该是"具身技能（Embodied Skills）"。

为什么这么说？因为"技能"的决策空间，要远远大于以语言为表征的符号空间。在当前的机器人研发中，许多团队依然在沿袭 LLM 训练时采用的模仿学习（Imitation Learning）框架——试图通过收集海量的人类遥操作数据，让机器人像预测下一个 Token 一样去预测下一个动作。但这种做法注定会撞上南墙。

因为语言数据是离散的、低维的、结构化的，而物理世界的动作数据是连续的、高维的、充满噪音的。在没有掌握物理规律（私钥）的情况下，再多的人类动作数据演示，都只是"水里的月亮"——怎么捞也捞不起来。机器人只是在盲目地模仿表象，一旦环境发生微小的扰动，它就会彻底崩溃，因为它根本不知道动作与后果之间的因果关系。

真正的机器人具身技能，绝不能建立在"跑空链"的模仿学习之上。它必须在世界模型框架里进行强化学习（Reinforcement Learning），或者探索更高效的全新学习范式。在语言数据中学习不到的那部分——也就是"语言的母体"、语言的私钥、那些未被压缩的 99.9999999% 的物理现实——正是世界模型需要去攻克的领地。只有当机器人拥有了一个能够在脑中模拟物理规律、预测动作后果的世界模型，它才能通过强化学习在虚拟环境中进行成千上万次的试错与规划，最终将这种"理解"转化为现实世界中稳健的"具身技能"。

六、尾声：向下扎根

这正是 AMI Labs 这群逆行者们看到的事实，也是他们选择"逃出硅谷"的根本原因。

真正的通用智能，绝不能仅仅建立在这条一维的"空链"之上；它必须向下扎根，去构建那个掌握着物理世界私钥的、能够在高维空间中自发预测与规划的"世界模型"底座。这是一条更难走的路——它需要处理连续的、高维的、嘈杂的物理信号，需要在没有标注的情况下自发学习物理规律，需要在行动与反馈的循环中建立真正的因果理解。

但只有走这条路，才能真正回答那个最根本的问题：什么是智能？

只有当底层的物理资产被彻底锚定，语言这条链，才能真正拥有它的价值。而那时，我们今天所说的"大语言模型"，或许只会被后人记作一个漫长旅途中的重要驿站——而非终点。

本文基于张小珺商业访谈录第133期「对谢赛宁的7小时马拉松访谈：世界模型、逃出硅谷、AMI Labs」整理创作。