我最近听了一期播客,里面有些想法很给人启发,并激起了我的好奇心。播客的精简版文字稿可以在这里获得:https://zhuanlan.zhihu.com/p/1913614732318995171
用deepseek总结了当前AI研究的核心挑战与前沿方向。
核心观点的合理性与第一性原理
-
NLP vs CV 的表征学习差异
- 合理性高:语言token的离散性、高信息密度及人类生成属性,确实使next token prediction成为高效的“理解-生成-对齐”三位一体任务。而图像patch的连续低信息密度及自然生成属性,使纯像素预测难以捕获高层语义。
- 第一性原理:信息的抽象层级与任务目标的对齐。语言本质是符号系统,token天然携带语义;图像像素需通过多级抽象才能关联语义。对比学习/MIM等方法依赖人工设计的“不变性假设”(如空间平移不变性),而非数据驱动的语义抽象,天花板明显。
-
业界佐证:
- LLaVA、Fuyu等多模态模型证明:纯视觉自监督学习无法直接实现复杂推理,需引入语言作为“语义桥梁”。
- Meta的DINOv2显示:监督信号(如图像标题)能显著提升视觉表征质量,印证“纯像素建模不足”。
-
Next Token Prediction的缺陷与CoT的价值
-
核心洞见:
- 计算复杂度错配:Transformer的固定计算复杂度(O(n))无法解决需O(n²)的问题(如大数乘法),而CoT通过分解步骤实现“计算时间扩展”。
- 分布拟合≠正确推理:模型可能模仿错误答案的分布(如直接报答案),而非学习正确推理路径。
- 第一性原理:智能的本质是计算过程的显式化。CoT本质是将高维隐式计算(黑箱)转化为低维显式步骤(白箱),符合人类认知的“分治策略”。
-
业界进展:
- OpenAI的o系列、DeepSeek-MoE通过RL激发预训练中的CoT模式,显著提升数学能力。
- Gemini 1.5 Pro的“无限上下文”支持长CoT,但检索依赖外部工具(如搜索API),与笔记观点一致。
-
核心洞见:
-
多模态推理的关键:数据驱动而非架构魔法
- 核心结论:预训练数据中存在高质量推理模式(如标注图像、分步思考)是泛化能力的基石。
-
案例验证:
- 作者构造的“图像标注走迷宫”数据因缺乏预训练支持,泛化差;
- 而“图片裁剪/缩放推理”因数据丰富(网页常见),泛化好。
-
前沿方向:
- 合成高质量多模态CoT数据:如GPT-4V生成“视觉推理流程图”(如连接AB点、物体关系图)。
- LLaVA-Interactive、CogVLM等工具支持视觉标注+语言推理协同。
争议点与相反观点
-
“纯视觉路径是否完全走不通?”
-
反对声音:
- 生物启发的可能性:人类婴儿无需语言即可学习物体恒存性、物理规律(如MIT的ADEPT模型)。
- 自监督的进步:FAIR的“Data2Vec 2.0”显示,统一模态的自监督框架(掩码预测+对比学习)在视觉、语音上逼近监督学习。
- 关键分歧:笔记认为视觉需与语言对齐才能实现“人类式理解”;反对者认为物理世界的结构信息本身蕴含推理基础(如3D重建、动力学模型)。
-
反对声音:
-
Long Context的解决路径
-
笔记观点:
- 当前“大海捞针”式长上下文可能低效,应拆分记忆系统(如无限context+工作记忆)。
-
业界分歧:
- 支持者:Google的Titan模型、Infini-Transformer尝试“记忆压缩+检索”架构。
- 反对者:Mistral的滑动窗口、Gemini的MoE架构证明,智能检索可替代无限context(如仅提取关键片段)。
-
笔记观点:
-
Reward Hacking与自然语言反馈(NLF)
-
笔记洞见:
- 数值reward丢失语言反馈的丰富信息,易被破解(如迎合评分标准却逻辑错误)。
-
NLF的挑战:
- 稀疏性与歧义:文本反馈(如“逻辑不严谨”)难转化为梯度信号。
-
尝试方案:
- Anthropic的“宪法AI”用多智能体辩论生成对齐反馈;
- TextGrad(微软)将NLF转为可微损失函数,但仍处实验阶段。
-
笔记洞见:
最热门的前沿方向
-
推理架构革新
- CoT自动化:AutoCoT、Self-Discover让模型自生成推理模板。
- 超越Transformer:状态空间模型(Mamba)、递归架构(RWKV)处理长程依赖更高效。
-
多模态统一范式
- 视觉token压缩:如Patch n' Pack(微软)将图像patch聚合为高信息密度token。
- 联合推理框架:视频/图像+语言的时序协同推理(如GPT-4V的“动态思维链”)。
-
训练范式演进
- RL与预训练融合:o1范式普及化,让RL从预训练中“唤醒”能力而非从头学习。
- 自我改进系统:模型生成训练数据(如AlphaGeometry)、自我批评(LLM-as-a-Judge)。
-
记忆与知识管理
- 动态记忆库:检索增强生成(RAG)结合向量数据库,替代无限context。
- 世界模型集成:将物理规则编码为外部模块(如DeepMind的FunSearch)。
总结建议
当前AI发展的核心矛盾:“拟合数据分布”与“实现可靠推理”之间的鸿沟。CoT、RLHF、多模态协同本质是将人类先验知识注入系统,弥补纯统计学习的不足。未来突破可能依赖三点:
- 数据质量 > 数据量:构建含显式推理链的多模态数据集;
- 系统设计 > 单一模型:记忆、推理、工具调用模块化协同;
- 学习过程类人化:自然语言反馈、自我反思、试错机制。
理性提醒:纯数据驱动派(如Yann LeCun)仍主张“自监督学习最终能涌现推理”,但短期来看,笔记中“注入人类偏好与显式推理”的路径更接近实用化突破。建议持续关注OpenAI的o系列、DeepSeek GRM、Google Titan等项目的技术报告,这些是验证笔记预测的“试金石”。