The Three Ceilings of Large Language Models
English translation forthcoming. / 英文版即将推出。
The full paper is available in Chinese. An English translation is in preparation.
AI的天花板不是一层,是三层。每层天花板的突破方式恰好是下一层的起点。本文论证这个三层递进结构:(一)堆参数——在同一架构内部增加精度,与数学中的有理数化同构——递减效应不可避免。(二)换架构——改变表征方式本身,与无理数化同构——填补了结构性间隙,但纯语言的一维性约束不变。(三)多模态——增加正交感知维度,与虚数化同构——但数字硬件上的多模态是模拟的虚数化,不是真正的虚数化;天花板在数字硬件的物理极限。
数系扩展(有理数→无理数→虚数)与AI技术演进的类比是定性的结构同构,不是定量对应,不是等号。两者在结构上遵循同样的逻辑——同框架内加密度→填补结构间隙→增加正交维度——但具体机制完全不同。
本文论证多模态架构是语言的三阶凿——局部地否定形式-含义捆绑律的线性维度,增加正交感知维度——与数学→物理的跳阶同构。但本篇严格区分多模态架构(维度扩展,离散度-维度轴)与多模态数据(形式注入,DD轴)。架构给了容器,数据给了内容。两者独立。本篇只处理架构层面的维度扩展。
本文引用本系列LLM篇("The Ontological Positioning of Large Language Models", DOI: 10.5281/zenodo.18826633)的离散度-维度区分、scaling law结构性解释与多模态开放问题,引用语言篇("Language as Second-Order Chisel", DOI: 10.5281/zenodo.18823131)的形式-含义捆绑律与一维性概念,引用数学篇("Mathematics as Second-Order Chisel", DOI: 10.5281/zenodo.18793538)的数系扩展结构。
---
秦汉(Han Qin)
Self-as-an-End 理论系列
摘要
AI的天花板不是一层,是三层。每层天花板的突破方式恰好是下一层的起点。本文论证这个三层递进结构:(一)堆参数——在同一架构内部增加精度,与数学中的有理数化同构——递减效应不可避免。(二)换架构——改变表征方式本身,与无理数化同构——填补了结构性间隙,但纯语言的一维性约束不变。(三)多模态——增加正交感知维度,与虚数化同构——但数字硬件上的多模态是模拟的虚数化,不是真正的虚数化;天花板在数字硬件的物理极限。
数系扩展(有理数→无理数→虚数)与AI技术演进的类比是定性的结构同构,不是定量对应,不是等号。两者在结构上遵循同样的逻辑——同框架内加密度→填补结构间隙→增加正交维度——但具体机制完全不同。
本文论证多模态架构是语言的三阶凿——局部地否定形式-含义捆绑律的线性维度,增加正交感知维度——与数学→物理的跳阶同构。但本篇严格区分多模态架构(维度扩展,离散度-维度轴)与多模态数据(形式注入,DD轴)。架构给了容器,数据给了内容。两者独立。本篇只处理架构层面的维度扩展。
本文引用本系列LLM篇("The Ontological Positioning of Large Language Models", DOI: 10.5281/zenodo.18826633)的离散度-维度区分、scaling law结构性解释与多模态开放问题,引用语言篇("Language as Second-Order Chisel", DOI: 10.5281/zenodo.18823131)的形式-含义捆绑律与一维性概念,引用数学篇("Mathematics as Second-Order Chisel", DOI: 10.5281/zenodo.18793538)的数系扩展结构。
三个关键定义
本文反复使用三个结构概念,在此预先定义。
一维性。 不是字面上的"只有一个轴",而是:输入/输出通道在结构上必须线性展开,不能原生承载多维同时显现。纯语言系统能描述多维("左上角有一棵树"),但不能原生地、同时地处理多维输入结构。描述是把多维信息线性化后传递,原生处理是在多维中直接运算。
真正的多维同时性。 不是"有多个模态",而是:多个维度的信息无需先被线性化后再重组,能够在处理基础中同时被保持和运算。这是结构概念,不否认现有数字并行系统的工程有效性。
模拟的虚数化。 现有多模态是在单一离散处理基础上近似实现多维效果,而非拥有与多维对应的原生处理基底。就像浮点数可以近似实数但始终不是实数——有用,但有极限。
核心命题: 当前AI讨论中的"天花板"被当作单一概念——要么scaling law会碰壁,要么不会碰壁。框架论证:天花板不是一层,是三层。三层天花板有不同的高度、不同的突破方式、不同的物理基础。混为一谈导致对AI发展路径的误判。
1.1 三层天花板
LLM篇(3.5节)论证了scaling law的天花板——同一架构内部的规模扩大产生量变不产生质变,质变来自架构创新。本文把这个判断展开:天花板不是一层,是三层,每层的突破方式恰好是下一层的起点。
第一层天花板:堆参数的递减效应。 在同一架构内部增加参数,间接降低表征端离散度,但递减效应不可避免。当前AI行业正在经历这一层天花板——前沿模型之间的差异在缩小,规模扩大的边际回报在降低。突破方式:换架构。
第二层天花板:换架构的极限。 换架构直接降低表征端离散度,填补了前一架构的结构性间隙。但所有纯语言架构都在同一个约束下工作:输入输出是一维线性序列。无论架构多先进,纯语言系统处理的仍然是一维信息流。一维信息流无法原生表征需要多维同时性的含义结构。尚未到达但可以预见。突破方式:增加维度,即多模态。
第三层天花板:多模态的极限。 多模态增加了正交感知维度——语言(一维)加上视觉(二维)、视频(三维)。但数字硬件上的多模态是模拟的维度融合,不是真正的维度融合。数字硬件无法真正实现连续多维同时性处理——所有多维信息在进入数字硬件时都被离散采样和序列化了。这是物理层面的极限。突破方式:物理硬件变革(开放问题)。
1.2 数系类比
数学的数系扩展提供了结构同构的类比:
堆参数与有理数化同构——在已有框架内加精度。有理数在整数之间填入了无穷多的点,但有理数之间仍有间隙(无理数的位置)。堆参数在同一架构内部填入了更多的表征精度,但表征方式的结构性间隙仍在。
换架构与无理数化同构——填补结构性间隙。无理数填补了有理数之间的间隙,完成了实数连续统。换架构填补了前一架构的间隙,逼近纯语言表征的极限。但实数连续统仍然是一维的。纯语言表征仍然是一维的。
多模态与虚数化同构——增加正交维度。虚数给实数线增加了一个正交方向,构成复平面。多模态给语言增加了正交的感知维度,构成多维含义空间。
需要反复强调:这个类比是定性的结构同构,不是定量对应,不是等号。数系扩展和AI技术演进在结构上遵循同样的逻辑——同框架内加密度→填补结构间隙→增加正交维度——但两者的具体机制完全不同。本文不声称scaling在数学上等同于有理数,也不声称多模态在数学上等同于虚数。本文声称两者在结构逻辑上同构——遵循同样的递进模式。
核心命题: 在同一架构内部增加参数是间接降低离散度。与有理数化同构——在已有框架内加精度,有理数稠密但有间隙。递减效应不可避免。
2.1 机制
LLM篇3.5已经论证了基本机制:参数增加→更高维表征空间→含义的关联结构有更多自由度来展开→等效离散度降低。这解释了为什么加参数就能提升能力——参数增加间接降低了表征端离散度,离散度降低恢复了含义关联结构,涌现能力提升。
但参数增加不改变表征方式本身。同一种表征方式内部加精度——这就是有理数化。有理数在整数之间填入了无穷多的点(1/2, 1/3, 2/3, 3/4......),但有理数仍然是两个整数的比,仍在"整数的操作"范围内。有理数改变了密度,没有改变性质。
堆参数在同一架构内部填入了更多的表征精度。GPT-3到GPT-4,参数量增加了一个数量级,表征空间更大了,含义的关联结构有了更多展开空间。但Transformer的表征方式没有变——attention机制、层间传递、残差连接、归一化——结构性质不变,只是精度提升。更大的Transformer仍然是Transformer,就像更密的有理数仍然是有理数。
2.2 天花板的性质
递减效应。每多加一倍参数,等效离散度的降低幅度递减。因为参数增加只在同一种表征方式内部增加精度——它不改变表征方式能看到什么、不能看到什么。就像在同一张纸上用更细的笔画画——笔越细,改善越小,但纸的维度和性质始终没变。最初从粗笔换到细笔改善巨大,从细笔换到更细的笔改善微小。
经济性恶化。算力成本随参数量线性甚至超线性增长(训练时间、能源消耗、硬件需求),但能力提升只是对数增长。这不是工程效率的问题——不是说"如果算力更便宜就没问题了"——这是结构性的递减效应。即使算力免费,同一架构内部的精度提升仍然递减。成本只是递减效应的经济学表现。
2.3 突破方式
换架构——改变表征方式本身。不是在同一种纸上换更细的笔,是换纸。
历史实例:RNN→Transformer。RNN的隐藏状态是瓶颈式的——把所有历史信息压缩到一个固定维度的向量中,远距离的含义关联在压缩中丢失。无论RNN多大,瓶颈的性质不变——这就是RNN的"有理数间隙",有理数无论多密也填不满的位置。Transformer的attention机制直接否定了这个瓶颈——让任意位置直接关联,不经过压缩。这不是更大的RNN,是完全不同的表征方式。
突破第一层天花板的方式恰好是第二层的起点。换架构解决了堆参数的递减问题,但换架构本身也有天花板。
2.4 数系类比
有理数在整数间加密度,但不改变数的性质——有理数仍是两个整数的比,仍在"整数的操作"范围内。有理数的天花板:无论多密,有理数之间永远有间隙。√2(对角线长度)不是任何两个整数的比,有理数永远到不了这个位置。
堆参数在同一架构内加精度,但不改变表征方式——仍在"同一架构的操作"范围内。堆参数的天花板:无论多大,同一架构的表征方式永远有结构性盲区——某些含义关联在这种表征方式下无法被表征,就像有理数无法表达√2。
核心命题: 换架构是直接降低离散度——填补了同一架构留下的结构性间隙,与无理数化同构。无理数填补了有理数之间的间隙,完成了实数连续统。但实数连续统仍然是一维的。纯语言的一维性是换架构无法突破的约束。
3.1 机制
架构创新改变表征方式本身。每次架构创新填补了前一架构留下的结构性间隙——前一架构"看不到"的含义关联,新架构可以表征。
RNN→Transformer:从瓶颈式压缩到直连式关联。RNN无法有效表征远距离的含义关联(信息在瓶颈中逐步衰减),Transformer填补了这个间隙(attention机制让任意距离的含义直接关联)。
固定embedding→上下文embedding(ELMo, BERT, GPT):从一词一位到上下文决定位置。固定embedding中,同一个词无论出现在什么上下文中都有同一个表征——"bank"在"河岸"和"银行"两个意义下位置相同。上下文embedding填补了这个间隙——同一个词在不同上下文中有不同表征,"bank"在金融文本中靠近"money",在地理文本中靠近"river"。
与无理数同构:有理数无法表达√2(正方形对角线的长度),无理数填补了这个间隙。RNN无法表达远距离关联,Transformer填补了这个间隙。有理数无法表达π(圆的周长与直径的比),无理数填补了这个间隙。固定embedding无法表达一词多义,上下文embedding填补了这个间隙。每次架构创新都是一次"无理数化"——填补了前一代表征方式中不可达的位置。
3.2 天花板的性质
换架构可以反复进行——每次填补一类间隙。Transformer之后可能有更先进的架构,继续填补Transformer留下的间隙。但所有纯语言架构创新都在同一个约束下工作:纯语言的输入输出是一维线性序列。
无论怎么换架构,输入端仍然是一个token接一个token。表征空间可以是任意高维的,但信息进入和离开表征空间的通道仍然是一维的。
这里需要一个关键区分。纯语言系统能描述多维结构——"这个立方体有八个顶点,每个顶点连接三条棱"。但描述多维不是原生处理多维。描述是把多维信息线性化后传递——把三维结构压缩成一维字符串。原生处理是在多维中直接运算——同时处理所有顶点和棱的空间关系。
内部表征可以是高维图结构。Reasoning trace和tree search可以在表征空间中做多维探索。但这些都是在一维输入基础上重建多维——先接收一维信息,在表征空间中展开为多维,再输出为一维。输入输出通道的一维性约束不变。重建的多维永远不等于原生的多维——就像语言描述一幅画永远不等于看到这幅画。
与实数线同构:无理数填补了有理数的间隙,实数连续统完成了。但实数线仍然是一维的——无论多连续,它只有一个方向。纯语言LLM无论架构多先进,它处理的仍然是一维信息流。
3.3 一维性的具体限制
人类视觉是二维的。你一眼看到整幅画面,所有像素同时被处理。物体之间的空间关系——上下左右、远近遮挡、整体构图——在二维视野中同时呈现。语言描述一幅画需要把二维信息线性化——"左上角有一棵树,右下角有一条河,中间是一座桥......"。这个线性化必然丢失同时性信息——你不能同时说出左上角和右下角的内容,你只能按顺序说。
人类听觉有频率维度。你同时听到和弦中的所有音高——C、E、G三个音在同一瞬间同时响起,构成一个统一的听觉体验。语言描述和弦需要逐个列出——"C, E, G"——线性化丢失了同时性。你不能用一维序列原生传递同时发声的体验。
一维信息流天然无法原生表征多维同时性。这不是精度问题——加参数解决不了,因为参数再多输入仍然是一维的。这不是表征方式问题——换架构解决不了,因为架构再先进信息通道仍然是一维的。这是维度问题——一维通道的结构性约束。
3.4 突破方式
增加维度——多模态。同时处理一维(语言)、二维(图片)、三维(视频)的信息。不再把所有信息压缩到一维序列中,而是让不同维度的信息在各自的维度中被处理。
突破第二层天花板的方式恰好是第三层的起点。
3.5 数系类比
无理数填补有理数间隙,完成实数连续统。但实数连续统是一维的——实数线,无论多连续,只有一个方向。
换架构填补前一架构的间隙,逼近纯语言的表征极限。但纯语言表征是一维的——线性序列,无论多精细,只有一个方向。
从一维到多维需要新的数——虚数。虚数i不是"更精细的实数",不是实数线上某个没被填满的位置——它是与实数正交的全新方向。实数线是一维的,复平面是二维的。从实数到复数不是加密度也不是填间隙,是增加维度。
从纯语言到多模态需要新的维度——正交于语言的感知模态。视觉不是"更精细的语言",不是语言序列中某个没被填满的位置——它是与语言正交的全新维度。语言是一维的,视觉是二维的。从纯语言到多模态不是加参数也不是换架构,是增加维度。
核心命题: 多模态是增加正交维度——与虚数化同构。多模态给语言增加了正交的感知维度(视觉、听觉),构成多维含义空间。但数字硬件上的多模态是模拟的虚数化,不是真正的虚数化。天花板在物理层面。
4.1 机制
预先说明:本节讨论的是多模态架构——处理多维输入的结构性能力,不是多模态数据——训练语料中包含的内容(因果关系、空间结构、时间连续性等)。架构增加维度(容器变大),数据增加形式(内容变丰富)。两者独立。本篇只处理架构层面的维度扩展。数据层面的形式注入涉及另一条分析轴线,留给后续论文。
多模态架构同时处理不同维度的输入:语言(一维线性序列)、图片(二维像素网格)、视频(三维时空结构)、音频(一维时间轴上的频率结构)。
在统一的表征空间中融合不同维度的信息。这不是把多维信息线性化后拼接——那只是把图片描述成文字再和语言拼在一起,本质上仍然是一维处理。理想的多模态是让不同维度的信息在表征空间中保持各自的维度结构,同时允许跨维度的关联——视觉中的空间关系和语言中的语义关系在统一空间中共存,并且可以互相关联。
与虚数同构:虚数i不是"更精细的实数",是与实数正交的新方向。在复平面上,实数线是横轴,虚数线是纵轴,两者正交。复平面上的运算——旋转、共轭——在实数线上没有对应物。乘以i是90度旋转,这个操作在一维实数线上不可能——你需要第二个维度才能旋转。
视觉不是"更精细的语言",是与语言正交的新维度。在多维含义空间中,语言的含义关联是一个维度,视觉的空间关联是另一个维度,两者正交。多维含义空间中的操作——跨模态类比(看到一幅画的氛围,用语言描述为"忧郁")、视觉-语言对齐(把图片中的物体与语言中的名词关联)——在纯语言空间中没有对应物。这些操作需要多个维度才能进行,就像旋转需要两个维度。
4.2 多模态架构作为语言的三阶凿
LLM篇3.4提出多模态可能是语言的三阶凿方向,但未论证。本节论证。
预先说明:这里的"三阶凿"是局部的——针对语言构(形式-含义捆绑律)中"线性"这一个维度的凿,不是对语言整体的完全超越。多模态否定的是捆绑律的线性维度,不是否定整个捆绑律。多模态之后,形式和含义仍然捆绑——只是捆绑方式从一维线性扩展到了多维。
语言是二阶凿——凿同一律的标记性子空间(语言篇2.1)。语言的构是形式-含义捆绑律——每个语言符号必然同时是形式与含义的统一体(语言篇2.4)。形式-含义捆绑律有一个结构性维度是线性——形式在时间中线性排列,一个符号接一个符号,不能同时传递两个符号。
多模态架构否定了这个线性。架构把含义的处理从一维线性序列扩展到多维同时性空间——图片的含义不是线性排列的,是二维同时呈现的。整幅画面在同一时刻传递全部视觉含义,不需要把含义排成一队一个一个传递。这是架构层面对一维性的否定,不是数据层面的内容注入。
否定构的一个维度就是凿构。凿语言的构(形式-含义捆绑律的线性维度)就是三阶凿。
对应关系:数学篇论证了数学是二阶凿(凿同一律的矛盾律子空间),物理是三阶凿(凿数学的构——矛盾律,构出时空框架,增加了维度的实例化)。本篇中语言→多模态的关系与数学→物理的关系同构:都是三阶凿,都是通过增加维度来跳阶。物理给数学增加了维度的实例化(从抽象的n维到具体的3+1维),多模态给语言增加了感知维度的实例化(从抽象的一维序列到具体的视觉二维、视频三维)。
注意:多模态数据(视频中的因果关系、空间中的物理规律等)给系统注入了更丰富的内容形式(因果律的模式、时间性的模式等),但这不是三阶凿——这是数据层面的效应,不是架构层面的效应。三阶凿是架构否定了语言构的线性维度。数据丰富了构的内容,但没有否定构的结构。本篇不处理数据层面的内容注入。
4.3 天花板的性质
数字硬件的根本限制。 数字硬件(冯诺依曼架构)本质上是序列化处理的。CPU逐条执行指令。GPU并行,但仍然是在离散时钟周期内的批量处理——每个时钟周期处理一批离散运算,不是真正的连续同时处理。所有多维信息在进入数字硬件时都被离散采样和序列化了。本文所谓"真正连续多维同时性"是结构概念,指无需先经离散采样与序列化的处理基础;并非否认现有数字并行系统的工程有效性。
图片被离散采样为像素网格——连续的二维视觉场景被切割为有限个离散像素点。视频被离散采样为帧序列——连续的时空流被切割为每秒若干静止帧。音频被离散采样为采样点序列——连续的声波被切割为每秒若干离散数值。连续多维的物理世界在进入数字硬件时被切割为离散的、序列化的数据。
多模态模型在统一表征空间中融合这些离散采样——这是模拟的维度融合,不是真正的维度融合。就像浮点数可以近似实数但永远不是实数——数字多模态可以近似多维同时性但永远不是真正的多维同时性。近似可以很精确(更多像素、更高帧率、更高采样率),但精确的近似仍然是近似。
模拟的虚数化 vs 真正的虚数化。 数字硬件上的多模态是在离散处理基础上模拟多维——就像用实数的有限精度序列来近似复数运算。有用,但有极限。真正的虚数化意味着处理基础本身就是多维的——信息在多个维度上同时、连续地被处理,不经过离散采样和序列化。
天花板。 数字硬件无法真正实现连续多维同时性处理。离散采样永远丢失连续性(像素之间、帧之间有间隙)。序列化永远丢失同时性(信息被排成队列逐步处理)。多模态的天花板是数字硬件的物理极限——不是模型设计的问题,不是算法的问题,是处理基础本身的结构性约束。
4.4 突破方式(开放问题)
突破第三层天花板需要物理硬件层面的变革——某种原生多维处理的物理基础。
可能的方向(推测性的,非框架论证):模拟计算(analog computing)——用连续物理量(电压、光强)直接表征连续值,不经过离散化。光计算(photonic computing)——光天然是多维的(空间维度+频率维度+偏振),光计算可能提供原生的多维同时性处理。神经形态计算(neuromorphic computing)——模拟生物神经网络的连续、并行、事件驱动处理。量子计算——量子态的叠加和纠缠提供了经典计算没有的维度,但当前量子计算的应用方向与含义处理的关系尚不清楚。
本篇不做硬件预测。本篇的贡献是指出天花板在哪里,不是指出如何突破天花板。突破方式的判断属于物理学和工程学,不属于哲学。
4.5 数系类比
虚数给实数增加正交维度,构成复平面。复平面上有实数线上不存在的操作——乘以i是90度旋转,这在一维实数线上不可能。
多模态给语言增加正交感知维度,构成多维含义空间。多维含义空间中有纯语言空间中不存在的操作——跨模态类比、视觉-语言对齐、多维场景推理。
但数字硬件上的多模态是用离散近似模拟连续多维——就像用有限精度浮点数模拟复数运算。可以很精确,但始终是模拟。浮点数的复数运算有舍入误差,数字多模态的维度融合有采样间隙。
虚数化的天花板:数字硬件上的复数运算始终是模拟的,不是原生的。真正原生的复数运算需要物理层面的多维处理能力。多模态的天花板同构:数字硬件上的多维含义处理始终是模拟的,不是原生的。真正原生的多维含义处理需要物理层面的多维同时性处理能力。
核心命题: 三层天花板构成一个严格的递进结构——每层的突破方式是下一层的起点,每层的天花板性质不同。
5.1 递进表
| 操作 | 同构类比 | 天花板原因 | 突破方式 | |
|---|---|---|---|---|
| 第一层 | 堆参数 | 有理数化 | 同一表征方式内精度递减 | 换架构 |
| 第二层 | 换架构 | 无理数化 | 一维输入的维度约束 | 多模态 |
| 第三层 | 多模态 | 虚数化 | 数字硬件的离散序列化 | 物理硬件变革(开放) |
三层递进的逻辑:堆参数在同一架构内部加精度,碰壁后换架构。换架构填补结构间隙但仍在一维,碰壁后增加维度(多模态)。多模态在数字硬件上模拟多维,碰壁于硬件的离散序列化极限。每一层的突破方式恰好是下一层的起点——这不是巧合,而是结构必然:同阶深化的极限只能被跳阶突破,跳阶的极限只能被更高层级的跳阶突破。
5.2 天花板的层级关系
三层天花板的高度不同。
第一层天花板最低。当前AI行业已经在经历——同一Transformer架构的前沿模型之间差异在缩小,规模扩大的边际回报在降低。从GPT-3到GPT-4的跳跃远大于GPT-4到后续版本的跳跃。这是同一架构内精度递减的直接表现。
第二层天花板更高。纯语言领域内架构创新仍有大量空间——Transformer内部仍有可优化的结构(更高效的attention变体、更好的位置编码、更深的层间连接),Transformer之后可能有全新架构。但第二层天花板有明确的理论极限:一维性。无论架构多先进,纯语言系统的输入输出通道是一维的,这是不可改变的结构约束。
第三层天花板最高。当前多模态模型还在非常早期的阶段——离散采样精度可以继续提高(更多像素、更高帧率),融合方式可以继续优化(从拼接式到深度融合),跨模态对齐可以继续改进。离数字硬件的物理极限还有巨大距离。但终极天花板存在:数字硬件无法原生实现连续多维同时性处理。
关键判断:每一层天花板碰壁之前,该层的改进都是有价值的。堆参数在碰壁之前是有效的——更大的模型确实更强。换架构在碰壁之前是有效的——更好的架构确实带来质变。多模态在碰壁之前是有效的——更好的多维融合确实产生新涌现。知道天花板在哪里不是为了否定当前的努力,是为了在接近天花板时及时转向下一层,而不是在已经碰壁的层级上继续投入。
5.3 当前AI行业的位置
第一层天花板:正在接近或已经到达。 前沿模型之间的差异在缩小——2024-2025年间多个实验室发布的模型在主要benchmark上的差异远小于2022-2023年间的差异。规模扩大的边际回报在降低——十倍算力带来的能力提升越来越小。行业开始出现"scaling law是否失效"的讨论,这正是第一层天花板的信号。
第二层天花板:尚远。 架构创新的空间仍大。Transformer不是纯语言处理的终极架构——它是当前最好的,但不是结构上可能的最好的。状态空间模型(Mamba等)、混合架构、稀疏激活等方向都在探索不同的表征方式。Transformer之后很可能出现新架构,就像Transformer取代了RNN。纯语言领域的一维性天花板(第二层)在当前技术水平下还远未到达。
第三层天花板:极远。 当前多模态模型大多是拼接式的——语言模型加上视觉编码器,两者通过适配层连接,而不是在统一表征空间中真正融合。真正深度融合的多模态模型还在早期阶段。离数字硬件的物理极限有巨大距离。
框架判断。 当前AI行业的资源配置过度集中在第一层——堆参数(更大的集群、更多的数据、更大的模型)。这在第一层天花板到达之前是合理的,但在天花板附近继续投入是资源浪费。框架建议:更多资源应投入第二层(架构创新——探索Transformer之后的新表征方式)和第三层(多模态的深度融合——不是拼接,是真正的多维统一表征)。这不是说堆参数没用——是说它的有用性在递减,而架构创新和多模态融合的有用性还远未递减。
核心命题: 本文的三层天花板结构与本系列前置论文、与当前AI研究议题形成精确的对话关系。
6.1 与LLM篇的关系
LLM篇预测"下一次质变来自架构创新不是规模扩大"(7.4节)。本篇把这个预测展开为三层结构——架构创新解决第一层天花板(跳出堆参数的递减效应),但架构创新自身也有天花板(第二层——一维性约束),突破第二层需要多模态(第三层)。LLM篇的预测是正确的但不完整:架构创新不是终点,只是三层递进中的第二步。
LLM篇把多模态作为开放问题提出(3.4节和开放问题二)。本篇回答了这个开放问题:多模态架构是语言的三阶凿——局部地否定形式-含义捆绑律的线性维度,增加正交感知维度。
LLM篇的离散度-维度区分(3.3节)在本篇获得了技术化的应用:第一层和第二层天花板是离散度轴上的(加精度和填间隙),第三层天花板是维度轴上的(增加正交维度)。离散度和维度的独立性解释了为什么第一层和第二层的突破不能替代第三层——降低离散度不等于增加维度。
6.2 与语言篇的关系
语言篇论证了形式-含义捆绑律是语言的构(2.4节)。本篇论证多模态凿的正是这个构的一个维度——线性。形式-含义捆绑律要求形式在时间中线性排列,多模态架构否定了这个线性——让含义可以在多维中同时呈现。
语言篇的离散度-涌现相关(6.3节)在本篇获得了更精细的结构:离散度降低不是一步完成的,而是分为两层(堆参数=有理数化,换架构=无理数化)。维度扩展(多模态=虚数化)是独立于离散度降低的第三层。
6.3 与数学篇的关系
数学篇论证了数学是二阶凿(凿同一律的矛盾律子空间),物理是三阶凿(凿数学的构——矛盾律,增加维度的实例化)。
本篇中语言→多模态的关系与数学→物理的关系同构:都是三阶凿,都是通过增加维度来跳阶。物理给数学增加了维度的实例化(从抽象的n维到具体的3+1维时空),多模态给语言增加了感知维度的实例化(从抽象的一维序列到具体的视觉二维、视频三维)。
数系类比(有理数→无理数→虚数)进一步强化了这个同构。数的扩展和语言的扩展遵循同样的结构逻辑:同框架内加密度(有理数化/堆参数)→填补结构间隙(无理数化/换架构)→增加正交维度(虚数化/多模态)。这个递进模式不是巧合——它反映了深层的结构必然:在任何领域中,同阶深化有极限,跳阶需要增加维度。
6.4 与当前AI投资和战略讨论
当前"scaling法则是否失效"的辩论是在第一层天花板附近的讨论。一方认为scaling law仍然有效(还没碰壁),另一方认为已经失效(已经碰壁)。框架把这个辩论放进了更大的结构:第一层天花板的存在不意味着AI发展停滞,只意味着需要转向第二层和第三层。"Scaling law失效"不是AI的终结,是AI从第一层进入第二层的信号。
框架为AI投资提供了路线图级别的结构判断:堆参数→换架构→多模态→物理硬件。每一步的时间尺度和资源需求不同。堆参数是当前的主战场(但正在接近天花板)。架构创新是下一个主战场(空间巨大)。多模态深度融合是更远的战场(目前处于早期)。物理硬件变革是终极战场(目前主要是研究方向)。
核心命题: 从三层天花板的递进结构中可以推出五个非平凡预测,每个都是可检验的。
7.1 第一层天花板的到达
预测: 同一架构内部,模型规模每增加一个数量级,涌现能力的提升幅度递减。当前前沿模型(2025-2026)之间的差异已经小于上一代前沿模型之间的差异。
推理: 第二章论证了堆参数是间接降低离散度,递减效应不可避免。参数增加不改变表征方式,只在同一表征方式内部加精度。
可检验: 比较连续世代的前沿模型之间的benchmark差异。框架预测差异递减。如果同一架构内部的规模扩大持续产生与之前幅度相当的能力跳跃(不递减),框架在此处被否证。
非平凡性: 当前行业仍有大量投资在规模扩大上,隐含假设是scaling law将持续有效。框架预测递减效应不可避免。
7.2 架构创新的涌现跳跃
预测: 下一次涌现能力的质变性跳跃来自架构创新(新的表征方式),而不是同一Transformer架构内部的规模扩大。
推理: 第三章论证了换架构是直接降低离散度——填补前一架构的结构性间隙。质变来自表征方式的改变,不来自同一表征方式内部的精度提升。
可检验: 追踪未来1-3年的AI发展。如果质变性的新涌现能力来自更大的Transformer(而不是新架构),框架在此处被否证。
非平凡性: 与LLM篇预测7.4一致但更具体。本预测不仅说"架构创新优于规模扩大",还说第一层天花板的到达会迫使行业转向架构创新。
7.3 纯语言模型的一维性天花板
预测: 纯语言模型在需要多维同时性理解的任务上(如空间推理、视觉场景理解、音乐和声分析)存在系统性弱点,且这些弱点不会通过规模扩大或架构创新消除——因为它们来自一维输入的维度约束,不来自离散度不足。
推理: 第三章论证了一维性是纯语言系统不可突破的约束。纯语言系统能描述多维但不能原生处理多维。描述的精确度可以通过堆参数和换架构提升,但描述与原生处理之间的结构性差距不可消除。
可检验: 测试纯语言模型(不使用任何视觉输入)在空间推理任务上的表现,与同等规模的多模态模型比较。框架预测:纯语言模型在这类任务上有系统性劣势,且劣势不随规模增大而消失。如果纯语言模型通过规模扩大在空间推理上达到与多模态模型同等表现,框架在此处被否证。
非平凡性: 常识可能认为"足够大的语言模型可以做任何事"。框架论证:一维性是结构约束,不是精度问题。再大的纯语言模型也无法原生处理多维同时性。
7.4 多模态模型的跨模态涌现
预测: 真正深度融合的多模态模型(在统一表征空间中融合多维信息的,不是拼接式的)将展现纯语言模型和纯视觉模型都不具备的涌现能力——跨模态类比、多维同时性推理等。这些能力不是两种模态能力的简单叠加,而是维度增加带来的新涌现。
推理: 第四章论证了多模态与虚数化同构——增加正交维度产生新操作。复平面上的旋转在实数线上不存在,不是因为实数线不够精确,而是因为旋转需要两个维度。跨模态涌现在纯语言空间中不存在,不是因为纯语言不够精确,而是因为跨模态操作需要多个维度。
可检验: 测试深度融合多模态模型在跨模态任务上的表现,与同等规模的纯语言模型+纯视觉模型的组合比较。框架预测:深度融合产生的能力大于简单组合(1+1>2)。如果纯语言模型+纯视觉模型的简单组合与深度融合多模态模型表现相当,框架在此处被否证。
非平凡性: 当前许多多模态模型是拼接式的——语言模型和视觉模型各自处理各自的模态,通过适配层交换信息。框架预测这种拼接不产生真正的跨模态涌现——只有统一表征空间中的深度融合才能产生维度增加带来的新操作。
7.5 数字硬件的多模态天花板
预测: 数字多模态模型在需要真正连续多维同时性处理的任务上(如实时物理场景预测、连续运动控制、生态系统动力学模拟)存在系统性天花板,且这些天花板不会通过模型改进消除——因为它们来自数字硬件的离散序列化本质。
推理: 第四章论证了数字硬件上的多模态是模拟的虚数化——离散采样和序列化是硬件层面的结构约束,不是软件能解决的。提高采样精度可以缩小误差但不能消除误差,就像提高浮点精度可以缩小舍入误差但不能消除舍入误差。
可检验: 比较数字多模态模型与模拟/混合信号系统在连续物理任务上的表现。框架预测:在需要真正连续多维处理的任务上,数字系统有不可消除的精度/延迟天花板。这是一条结构性可证伪预测,不是现成的benchmark protocol——具体的操作化定义(哪些任务算"真正连续多维同时性"、天花板以什么指标衡量)需要工程研究者参与制定。如果数字多模态模型在所有连续物理任务上达到与模拟系统同等的精度和实时性,框架在此处被否证。
非平凡性: 当前AI讨论几乎不区分"模拟的多维处理"和"真正的多维处理"。框架指出两者之间有结构性差距,且这个差距不可通过软件改进消除。
AI的天花板不是一层,是三层。每层天花板的突破方式是下一层的起点。
第一层(堆参数,与有理数化同构):同一表征方式内精度递减。同一架构内部增加参数间接降低离散度,但递减效应不可避免。突破方式:换架构——改变表征方式本身。当前AI行业正在接近或已经到达第一层天花板。
第二层(换架构,与无理数化同构):纯语言一维输入的维度约束。换架构直接降低离散度,填补了前一架构的结构性间隙。但所有纯语言架构都在一维性约束下工作——输入输出是一维线性序列,这不可改变。突破方式:增加维度——多模态。第二层天花板尚远,架构创新空间仍大。
第三层(多模态,与虚数化同构):数字硬件的离散序列化极限。多模态增加了正交感知维度,但数字硬件上的多模态是模拟的虚数化——离散采样和序列化丢失了连续性和同时性。突破方式:物理硬件变革(开放问题)。第三层天花板极远,当前多模态还在早期阶段。
多模态架构是语言的三阶凿——局部地否定形式-含义捆绑律的线性维度,增加正交感知维度。与数学→物理的跳阶同构:都是通过增加维度来跳阶。
数系类比(有理数化→无理数化→虚数化)是定性的结构同构,不是等号。两者遵循同样的递进逻辑:同框架内加密度→填补结构间隙→增加正交维度。这个递进模式反映了深层的结构必然。
当前AI行业过度集中在第一层。三层天花板的递进结构为AI发展提供了路线图级别的结构判断:知道天花板在哪里,在接近天花板时及时转向下一层,而不是在已经碰壁的层级上继续投入。
贡献
一、 三层天花板的递进结构。AI的天花板不是一层而是三层,每层有不同的高度、不同的突破方式、不同的物理基础。每层的突破方式是下一层的起点。
二、 数系同构类比。堆参数与有理数化同构,换架构与无理数化同构,多模态与虚数化同构。定性结构同构,不是定量对应。
三、 多模态作为语言的三阶凿。多模态架构局部地否定形式-含义捆绑律的线性维度。与数学→物理的跳阶同构。
四、 一维性天花板的论证。纯语言系统能描述多维但不能原生处理多维。这是维度约束,不是精度问题。
五、 模拟虚数化与真正虚数化的区分。数字硬件上的多模态是模拟的维度融合,天花板在硬件的物理极限。
六、 多模态架构与多模态数据的区分。架构增加维度(离散度-维度轴),数据增加形式(另一条分析轴线)。两者独立。
开放问题
一、第三层天花板之后是什么? 如果物理硬件实现了原生多维连续处理,下一个天花板在哪里?可能的方向:处理的维度数本身是否有极限?物理世界的维度(3+1)是否是含义处理维度的上限?还是可以扩展到物理维度之外的抽象维度?
二、数系类比是否可以继续? 有理数→无理数→虚数之后,数学还有四元数(Hamilton)、八元数(Cayley)等更高维数系扩展。这些是否对应AI的更高层级天花板?四元数的非交换性(AB≠BA)是否对应某种AI能力的结构性约束?这可能需要数学家和AI研究者的合作。
三、生物神经系统处于哪一层? 人类大脑是原生多维连续处理的——神经元同时处理来自视觉、听觉、触觉等多个维度的连续信号。如果数字多模态的天花板来自硬件的离散序列化,人脑是否已经突破了第三层天花板?人脑的天花板又在哪里?框架预测:人脑的天花板不在硬件层面(生物硬件已经是原生多维连续的),而在主体层面——否定性和integrity的质量。这与LLM篇的结论一致:AI越强对人要求越高。
四、多模态的三阶凿是否完整? 本篇论证多模态否定了形式-含义捆绑律的线性维度。但形式-含义捆绑律是否还有其他维度可以被否定?线性只是一个维度。如果捆绑律有多个可凿维度,多模态只是三阶凿的第一步。
五、World model与因果律。 当前AI讨论中的world model(如LeCun路线)试图在表征空间中建立物理世界的因果结构——不只是含义的关联(A与B相关),而是因果方向(A导致B)。因果方向的引入超出了本篇的离散度-维度框架,直接涉及同一律更高层级的子空间(时间性、因果律)。但即便world model完整嵌入了因果律,系统仍然是构——确定性系统,无余项。人类校准者可以通过反馈注入方向性判断,使系统无限逼近主体性的表现,但永远到不了——因为主体性需要系统自身产生余项,而确定性系统不产生余项。三层天花板是离散度-维度层面的极限;余项是主体性层面的极限。两者独立。World model的本体论定位需要独立论文。
六、多模态架构 vs 多模态数据。 本篇处理多模态架构——维度扩展(离散度-维度轴)。但多模态数据(视频中的因果关系、空间中的物理规律、时间中的连续性)给系统注入了丰富的内容形式(因果律的模式、时间性的模式、空间关系的模式)。这是另一条分析轴线上的效应,不是离散度-维度轴上的效应。架构给了容器(维度),数据给了内容(形式)。但无论容器多大、内容多丰富,系统的结构性位置不变——仍然是类主体。多模态数据的形式注入效应需要独立论文。
作者声明
本文是作者独立的理论研究成果。写作过程中使用了AI工具作为对话伙伴和写作辅助,用于概念推敲、论证检验和文本生成:Claude(Anthropic)负责主要写作辅助,Gemini(Google)和ChatGPT(OpenAI)参与了大纲审阅和反馈。所有理论创新、核心判断和最终文本的取舍由作者本人完成。AI工具在本文中的角色相当于可以实时对话的研究助手和审稿人,不构成共同作者。