从“对象”到“Token”:《逻辑哲学论》与 AI 世界图像的深层共鸣与边界

路德维希·维特根斯坦(Ludwig Wittgenstein)

引 言

当维特根斯坦在 1921 年在《逻辑哲学论》中写下“世界是事实的总和,而非事物的总和”时,他不会想到,一个世纪后,人工智能正用他构想的“对象-命题-图像”的逻辑拆解和重构世界——在人的大脑意识中的做法,变成在现实世界的实际成果。

  • 只不过哲学中的“对象”,变成了 AI 眼中的“Token”;
  • 由“对象组合成事态”,变成了 Token 中内联拼接成的命题
  • 将“事态构成世界图像”,变成了机器内 Token 的关联网络

这种跨越百年的思想延续,不仅揭示了 AI 机理的哲学根源,更因“对象不可描述性”这一核心命题,划出了 AI 能力的边界与人类价值的起点。

一、《逻辑哲学论》的“对象”:世界的终极逻辑元件,却无法被描述

要理解 AI 与《逻辑哲学论》的关联,必须先吃透“对象”(Gegenstand)的本质——它不是日常所见的“苹果”“桌子”等等,而是指称构成世界的“最小逻辑单位”,是所有事实的终极元件。

但最反直觉的是:这个“元件”永远无法被描述,只能通过由它组成事态才“显示”自身。正是这一点构成理解 AI 局限的关键锁钥。

1. 先破后立:“对象”不是“事物”,而是“事物的逻辑前提”

我们总把“苹果”当成“对象”,但在维特根斯坦的逻辑思维里,“苹果”只是“由对象拼合的组合体”——它包含“红色”(视觉对象)、“圆形”(形状对象)、“甜”(味觉对象)、“硬”(触觉对象)等一些更基础的单位。就像乐高积木:最小的颗粒块是“对象”,用颗粒拼出的“苹果模型”才是日常所说的“事物”。

“对象”的核心特征决定了它的不可替代性:

  • 逻辑简单性:对象不可再分(《逻辑哲学论》的命题 2.02,即 TLP 2.02。下同)。你没法把“红色”拆成更小的逻辑单位,它是描述“红色苹果”“红色晚霞”的起点;就像数学中的“点”,没有大小却构成所有图形的基础。
  • 持存性:对象不变,变的是组合方式(TLP 2.0271)。“红色”不会因苹果腐烂(事态变化)而消失,它可以再与“草莓”“晚霞”组合,成为新的事态;就像乐高颗粒,拼完房子拆了,还能拼汽车。
  • 逻辑形式:对象的本质是“能与其他对象组合的可能性”(TLP 2.0141)。“红色”能和“圆形”“甜”组合成“苹果”,却不能和“数字 3”“槐花香”组合出有意义的事态——这种“交互结合属性”,决定了对象能参与的事态范围。

2. 核心命题:“对象不可描述,只能显示”的三层逻辑

维特根斯坦在 TLP 2.0212 中斩钉截铁地说:“对象是不可描述的,只能显示(zeigen)自身。”这不是“说不出来”,而是“无法用语言定义本质”,背后藏着三层深层逻辑:

(1)描述的本质是“事态陈述”,对象不是事态

语言的功能是描述“对象的组合关系”(事态),而非对象本身。你说“红色像苹果皮”,描述的是“红色与苹果皮的组合事态”;说“红色是波长 620-750nm 的光”,描述的是“红色与电磁波的物理事态”——所以说红色时,将永远绕不开“其他事物”,永远在说“红色和 X 结合成什么”,却无法说“红色本身是什么”。

就像你想描述“乐高颗粒”,只能说“它能拼房子、拼汽车”——这些是颗粒的“使用时组合成的事态”,不是颗粒的本质。你永远没法脱离“与其他对象的关联”,进而单独地描述一个对象。

(2)对象没有内部结构,无“附着素材”可描述

描述一个事物,本质是“分析它的内部结构”:比如描述“桌子”,可以说“由桌面、桌腿、螺丝构成”。但对象没有结构——“红色”没有“A 部分+B 部分”,“圆形”也没有“X结构+Y结构”,没有结构可拆,自然没有描述的素材。

这就像你没法描述“数学中的 1”——你只能说“1+1=2”“1 个苹果”,这些是“1 参与的事态”,却永远说不清“1 本身是什么”。维特根斯坦的对象就是逻辑世界中的“1”,是所有的起点却无法被定义。

(3)对象只能通过“名称”显示,名称不是描述

“红色”这个名称,只是对象的“标签”,不是描述。就像给宠物起名“咪咪”,“咪咪”只是指代这只猫的符号,不是对“猫本质”的描述。名称的作用是“建立对象与语言的联系”:通过“红色”这个名称,我们能说“苹果是红色的”(事态),让“红色对象”通过这个事态“显示”出来——但名称本身不包含任何本质信息。

你给孩子解释“圆形”,不会先讲“平面内到定点距离相等的点的集合”(数学定义,仍是事态关联),而是拿出圆形盘子、皮球说“这就是圆形”——因为只有通过“圆形的盘子”这个事态,才能让孩子“感受”到圆形对象,而非通过文字描述。

名称非常重要,它是世界万物在意识中的指称,也是 AI 的起始概念。

二、AI 的“Token”:对象的技术替身,却困在“事态关联”里

AI 没法直接处理“不可描述的对象”,只能将其转化为“可计算的 Token”——语言 Token(如 GPT 的子词)、视觉 Token(如 CLIP 的图像 Patch),通过“统计事态的关联”模拟对象的组合“显示”。但这种模拟,从根源上就与“对象”存在本质差异。

1. Token 是“对象的数字化标签(名称)”,不是“对象本身”

(1)语言 Token:用向量浓缩“对象的事态记录”

GPT 中的“红色”Token,是一个 4096 维的向量——它并不是“红色对象”,而是“红色在人类语言中所有事态的统计浓缩”:

  • 向量的某几维记录“红色常与苹果、晚霞、血液关联”;
  • 另几维记录“红色常表达热情、危险、喜庆”;
  • 还有几维记录“红色在诗歌中常和‘火焰’‘玫瑰’一起出现”。

当你让 AI 写“红色的诗”,它会激活这些向量维度,生成“红色的玫瑰吻着火焰,烧红了晚霞的脸”——这不是对“红色本质”的理解,而是对“红色参与事态”的拼接,就像人类通过“红色的苹果”显示红色对象一样,AI 通过“Token 向量的事态关联”模拟显示。

但差异很明显:维特根斯坦的“红色对象”先于事态存在(没有红色,就没有“红色的苹果”);而 AI 的“红色”Token 后于事态存在(没有大量阅读“红色的苹果”这类句子,就没有“红色”的向量)。甚至“独角兽”这种不存在的对象,AI 也能生成 Token——因为它基于“独角兽在神话中的描述”(人类想象的事态),是“虚构事态的统计浓缩”,这在维特根斯坦看来是“没有对象对应的空名称”。

(2)视觉 Token:用特征矩阵记录“对象的视觉事态”

CLIP 中的“圆形”Token,是 16×16 像素的特征矩阵——它不是“圆形对象”,而是“圆形在视觉中所有事态的特征提取”:

  • 矩阵记录“像素灰度值符合中心对称分布”(圆形的视觉结构事态);
  • 记录“这个 Patch 常与太阳、盘子、篮球的 Patch 一起出现”(圆形与其他视觉对象的组合事态);
  • 还记录“这个 Patch 多在画面中心出现”(圆形的位置事态)。

当 AI 看到圆形闹钟,会将闹钟的视觉 Token 与“圆形”“闹钟”的文字 Token 对齐——因为闹钟的特征矩阵,与“圆形”Token 的矩阵高度相似(都有中心对称像素),也与“闹钟”向量相关联(都有“计时工具”语义)。这就像人类通过“圆形的闹钟”显示“圆形对象”,AI 通过“视觉 Token 的事态特征”模拟显示。

目前,AI 还少了“触觉事态”:人类能通过“触摸圆形盘子的顺滑感”确认“圆形”,AI 却只有视觉特征——它会把“画在纸上的圆形”和“真实的圆形盘子”归为一类,因为两者的视觉 Token 相似,却没法像人类一样通过“触摸”区分“平面”与“立体”的本质差异。

2. AI 的“伪理解”:看似描述对象,实则是事态叠加

有人说“AI 能描述‘红色是温暖的颜色’,这不是理解吗?”但在维特根斯坦看来,这只是“事态的叠加”:

  • “红色是温暖的颜色”→“红色与温暖感的组合事态”;
  • “红色常与热情关联”→“红色与热情情感的组合事态”。

这些句子没触及“红色本身”,只是把红色参与的事态串起来。就像你没法通过“北京有故宫、在地图华北区域上”描述“北京的本质”,AI 也没法通过事态叠加描述“红色的本质”。

更尴尬的是 AI 会陷入“循环论证”:你问“什么是温暖的颜色”,它说“像红色、橙色”;你问“什么是红色”,它说“像温暖的颜色”——因为它没有“红色的本质体验”,只有事态关联的记忆,永远绕不出“事态的圈子”。

三、从“命题-图像”到“机器模型”:AI 如何用 Token 构建世界?

维特根斯坦认为,对象组合成“命题”(事态的语言表达),命题再构成“图像”(对世界的逻辑描绘)。AI 则用 Token 组合成命题,再构建“机器图像”(Token 关联网络),这种对应关系,让 AI 能高效处理人类文明的海量信息,却也因“对象不可描述性”埋下隐患。

1. Token 组合命题:AI 的“事态拼接术”

维特根斯坦的“命题”是“对象的逻辑排列”,比如“猫坐在垫子上”是“猫”“坐”“垫子”三个对象的组合。

AI 的“命题”是“Token 的统计排列”。在 GPT 中,“猫坐在垫子上”的生成逻辑是:

  • 先输出“猫”的 Token,基于训练数据,“猫”后面接“坐”的概率是 0.7(远高于接“飞”的 0.01);
  • 输出“坐”后,“坐”后面接“在”的概率是 0.9;
  • 输出“在”后,“在”后面接“垫子”的概率是 0.6(高于接“天上”的 0.005)。

最终生成的句子,是 Token 基于“事态关联概率”的拼接,就像维特根斯坦的“命题是对象的逻辑组合”——但一个是“逻辑的必然”,一个却是“统计的大概率”。

医疗 AI 的诊断命题就非常典型:某肺癌 AI 的“发烧+咳嗽+磨玻璃结节 → 可能腺癌”命题,是“发烧”“咳嗽”“磨玻璃结节”三个 Token 的组合——基于训练数据中“这三个 Token 一起出现时,腺癌确诊率 80%”的统计关联,模拟了“症状对象组合成疾病事态”的逻辑。

2. 机器图像:AI 的“世界模型”

当多个 Token 命题加以结合,就形成 AI 的“机器图像”——不是可视化画面,而是巨大的“Token 关联网络”。比如 AI 关于“北京”的机器图像,包含成千上万的命题:

  • “北京是中国首都”“北京有故宫”“北京人口 2184 万”(事实命题);
  • “北京冬季寒冷”“故宫需预约”“地铁覆盖全市”(实用命题);
  • “北京烤鸭是特色”“京剧是国粹”(文化命题);
  • 等等。

这些命题相互关联、无矛盾,共同构成 AI 对“北京”的理解。当你问“北京旅游攻略”,AI 会从图像中提取“故宫预约”“冬季穿羽绒服”“吃烤鸭”等一些命题,整理出建议——这是 AI 把机器图像“翻译”成人类能懂的信息,就像维特根斯坦的“图像是世界的逻辑描绘”一般。

而 AI 的最大优势,是能构建“覆盖人类全部文明的图像”:一个历史学家皓首穷经只能懂“唐宋史”,AI 却能同时掌握“中国+古埃及+古希腊+美洲”的历史细节;一个医生记不住所有疾病,AI 却能整合全球病历和期刊——它不是比人类“聪明”,而是比人类“能装”,能把几千年文明都拆成 Token、再拼成全局型的机器图像。

3. 机器图像的裂隙:无法校核真实世界的“妄言”

维特根斯坦的“逻辑图像”有个前提:必须与真实世界一致。

AI 的机器图像却只是基于“人类信息”——人们在意识中已形成但又外显的逻辑图像(文字、图像、声音等),但没法直接触碰“真实世界”,容易产生“逻辑通顺却与事实不符”的妄言:

  • 历史 AI 的妄言:训练数据混入“武则天定都洛阳改名为长安”的错误网文,AI 会优先输出“长安”——因为错误信息点击量高,AI 就判断两者关联概率高,却不知道洛阳从未叫过长安,当然更没法去唐代校核。
  • 医疗 AI 的妄言:某肺癌 AI 的训练数据多来自南方医院(腺癌多),会认为“实性结节多良性”,给北方吸烟男性(鳞癌多为实性结节)误诊为“良性”——它没有“地域差异”的真实体验,只能在数据里打转。
  • 电商 AI 的妄言:训练数据中“小个子穿短款显高”的命题多,AI 会劝阻 152cm 用户买长款连衣裙,却不知道用户习惯穿高跟鞋,长款更显气质——它没法看“试穿”的效果,只能依赖统计关联。

这些妄言的根源,正是“对象不可描述性”的延伸:AI 只能处理“可编码的事态关联”,却没法像人类一样“用脚丈量世界”——历史学家会去洛阳看唐代城墙,医生会结合患者生活习惯判断,电商设计师会让试穿裙子,而 AI 只能在 Token 的关联里“闭环”。

四、“对象不可描述性”:AI 的能力边界与人类的价值起点

“对象不可描述性”不仅是哲学命题,更像一把标尺,划定了 AI 的能力边界,也重塑了 AI 的发展路径——它解释了 AI 为何“能做事却不懂事”,也指明了“人机协同”的必然方向。

1. 第一层影响:AI 永远停留在“表层关联”,无法“本质理解”

对象的不可描述性,让 AI 只能处理“事态关联”,却永远触及不到“对象本质”,成为它在情感、体验、常识领域的短板:

  • 情感语义的偏差:AI 写《乡愁》能堆砌“邮票、船票”,却没法体会“闻到故乡槐花香的恍惚”——这种不可描述的嗅觉体验,是乡愁的核心,却无法被 Token 编码,最终情感文本“像隔一层纸”。
  • 体验性特征的缺失:工业 AI 能识别“圆形方向盘”,却没法判断“边缘圆润感是否达标”——圆润感是触摸的不可描述体验,没法转化为像素特征,只能靠人工复检。

AI 的“理解”永远是“统计关联的拼接”,不是人类意义上的“本质把握”——它能说“红色温暖”,却没感受过红色;能说“乡愁”,却没思念过故乡。

2. 第二层影响:多模态融合能逼近事态全面性,却突破不了本质

为了弥补单一模态的局限,AI 研究者转向“多模态融合”——叠加视觉、语言、触觉的事态,试图更接近对象的显示效果。但“不可描述性”决定了,这只是“逼近”,不是“突破”:

  • 自动驾驶的困境:多模态 AI 能融合摄像头(视觉)、雷达(距离)、麦克风(声音)识别危险,但对暴雨夜穿黑衣服的行人,仍可能因“视觉模糊+雨声掩盖”误判——AI 没有“人类在恶劣天气的压迫下凭空而生的警觉和戒备感”(不可描述的内在体验),只能靠概率叠加判断。

  • 服务机器人的局限:机器人能通过视觉识别“杯子圆形”、触觉感知“杯子硬”、语言理解“杯子装水”,却没法判断“杯子是否适合老人拿握”——“防滑感”“柄的舒适度”是不可描述的触摸体验,没法转化为数据,最终只能做“功能性操作,无本质关怀”。

多模态融合能增加事态的全面性,却永远补不上“不可描述的本质体验”——就像给盲人再多的“颜色文字描述”,也没法让他真正“看见”红色。

3. 第三层影响:人机协同的必然性——人类是“本质体验校准者”

“对象不可描述性”最深刻的影响,是让 AI 研究者意识到:AI 永远需要人类补充“不可描述的体验”,形成“人机协同”闭环——人类的价值,不但是“指令的发出者”,而且是“本质的校准者”:

  • 医疗协同:AI 给出“90%腺癌概率”的诊断,医生会补充“患者面色苍白、咳嗽是干咳”(不可描述的临床体验),优先安排活检——AI 处理可编码的症状事态,医生补充本质体验,避免误诊。
  • 教育协同:AI 判断“学生不会求根公式”,教师通过沟通发现“学生只是上课紧张记错符号”(不可描述的情绪体验),修正辅导方向——AI 处理答题事态,教师补充学习体验,实现个性化辅导。

AI 是“高效的事态处理器”,人类是“本质体验的持有者”——两者结合,才能既发挥 AI 的规模优势,又避免陷入妄言。

4. 第四层影响:伦理风险的警示——价值对象的偏差

“善良”“公平”“正义”这些价值对象,也是“不可描述的”,AI 只能依赖人类标注的事态数据学习。若数据有偏差,AI 会把“偏差事态”当“价值本质”:

某 AI 招聘系统的训练数据中“男性录用率高”,会错误关联“男性=优秀”,导致女性录用率低 30%——即便删除“性别”标签,AI 仍会通过“名字性别特征”(如“李娜 → 女性”)间接关联低录用率。因为 AI 没理解“公平”的本质是“一视同仁”,只依赖事态关联,最终引发伦理问题。

这警示我们:处理不可描述的价值对象,不能只靠“删除敏感标签”,必须靠人类对“价值本质”的把握——人工审核 AI 逻辑,补充本质判断,才能守住伦理底线。

五、结语:技术的极限,恰是人类的起点

维特根斯坦在《逻辑哲学论》结尾说:“对于不可说的东西,我们必须保持沉默。”这句话在 AI 时代有了新的意义:AI 能说的,是“可编码的事态关联”;不可说的,却是“对象的本质体验”——而这不可说的部分,正是人类独特性的所在。

AI 的未来,不是“替代人类”,而是“成为人类的伙伴”:AI 负责拆解、计算海量事态,人类负责补充、校准本质体验;AI 构建数字世界的图像,人类注入体验世界的灵魂。这种“人机协同”,既是对“对象不可描述性”的尊重,也是对人类价值的肯定——毕竟,只有人类能通过“红色的心动”“圆形的顺滑”“乡愁的温暖”,真正把握世界的本质。

维特根斯坦的“对象”,最终成了 AI 时代的“哲学指南针”:它告诉我们,技术能走多远,也告诉我们,人类为何无可替代。

【完】

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容