熊猫家“Deepseek”用550万美元去打开漂亮国5000亿美元的“星际之门”,这是“deepseek”这个小孩揭开了漂亮国“open ai”“chat GPT”这个“皇帝的新衣”
上述还只是一种现象!透过现象看本质才是“若见诸相非相,则见如来”。进一步深度探索(deepseek)则可见如来:中美的竞争,最终是文化的竞争。中文的字Vs英文的词;十四亿中华儿女的民智Vs漂亮国资本精英......
上述结论的以下分析供参考:
大语言模型背后的认知是这样,人类的一部分思考,可以用语言的方式来体现。
最早期的大语言模型的概念,是把思考看做一种基于统计规律的序列变换,举个简单的例子,中国学生听到 How are you?就会回答 Fine thank you。在计算机里面管这个叫做对序列进行自动补齐,初代人工智能就是这么搞的。
GPT的突破在于意识到一段话里面有一些“关键词”比其他的更值得关注,也就是所谓“注意力模型”,它产生的效果给人的感觉是更能“抓住重点”,因此更“像”说人话。
在之后科学家又开始模拟“反思”,“推理”等思考过程。
到了比较近的时期,科学家们发现训练所用的语言和训练的结果有相当大的关系。比如你用贴吧上辩经的素材训练,和用维基百科训练,效果显然是完全不同的。
大部分人开始意识到东大的科研人员比鹰酱有个几乎是“与生俱来”的优势,就是语言。东大所有的科研人员的英语水平放在美国都是拔尖的,因为我们这边也是用英语写论文的,所以理解英语没障碍。
就是说如果说英语在训练AI上有什么优势,那么两边是对等的,没有区别的。但鹰酱的中文水平那是有目共睹的。你觉得在鹰酱公司里面开个会讨论中文的特点能开起来吗?
这就意味着,如果中文有什么独特的优势,那就是东大特有的竞争优势。
然后大家发现,中文不仅有优势,还挺大。
中文的“字”是有含义的,可用于建立词之间的天然联系
中英文都有“词”的概念,但中文有“字”的概念,而英文的“词”除了特定情况,一般来说无法拆解成仍然有含义的相当于‘字’的东西。
导致的后果就是,英文词的关联性未必能被AI把握。
举几个例子说明。中文有一个字叫做“火”,用火的表达很多,比如火焰,野火,这人火了。如果对应到英文,它们依次是 flame,wildfire,popular,让计算机分析这些语料的时候,如果看的是中文,它有机会分析火焰、野火、这人火了几个表达为什么都出现同一个火字,理论上说,如果这个模型设计足够好,计算机就能把握住“火”的具体含义和抽象含义,它的理解就更接近人类。
但是当计算机看到flame,wildfire,popular,它会认为这几个概念完全没关系。你说它有什么理由认为几个不搭噶的词有关系?
用形式上不类似的字表达含义上相关的概念,也就是形式和内容不对应,这个坑我们的祖宗走过。汉语也走过造字太多的弯今天英语还在朝这个坑里面走,就是随着概念的增加一味地造单词,现在基本上每个专业方向的英文词都是上万甚至好几万的规模,设想哪天英文要是突破一百万单词了,他们自己咋学~
形式和内容不对应,在人工智能时代就表现为AI无法通过形式上的相似性理解内容上的相关性,也就阻碍了AI认知语言的本质内在联系。
历史悠久的好处在于老祖宗走了太多的弯路,让我们可以通过学习历史少走弯路。
现代汉语的发展方向是原则上不造字,用现有的字组合新的词
其实中文不是“生下来”就是现在这样子,我们也是几千年无数的尝试和失败,最后演变成现代中文今天的样子。大冷天说个冷知识,其实中国远古时期就设计过不止一套表音文字体系,最后都是种种原因被淘汰了。很多人看英文体系现在发展的挺好,你要懂得,对于语言历史这种动辄周期以‘千年’为单位计算的东西,英文体系还没走完第一个周期,远没到可以下结论的时候。
英文体系确实克服了表音文字的挺多大坑,比如因为方言造成语言分化,取得的成就挺大,这咱都不否认,但是他们面前就有个词汇量爆炸的坑等着,咱只能说,祝福他们好运。
中文演变成以几千个常用字为基础构造庞大数量的词的这套表达体系,不是我们喜欢,而是别的方法在华夏漫长文明史中全都淘汰了。
所谓的人工智能,就语言模型这部分而言,本质就是帮助计算机理解人类语言,那么很显然你用一套漫长历史中最能经受考验的语言最可能取得成功。
下一步中文的优势会具体如何体现呢?
最近看到广大人民群众各种调教DeepSeek,这是个好的开端,未来中国人民会用各种非常有创意的中文表达来“喂养”中国的AI模型,相信以14亿中国人民的创造力,一定能让AI模型把这几千个汉字整的明明白白的。
早期是PK算力,DeepSeek这一轮是PK模型的设计水平,但终极比拼的是人民群众创造语料的数量和品质。
AI最终是一场人民战争
到了2024年,硅谷的大语言模型演进明显有放缓的趋势,他们总结的表面原因是基本上耗尽了互联网的语料素材。为什么我说这是表面原因呢?因为深层次的原因是,英文缺乏“字”这一级别的构造,人民群众难以灵活创造新概念,因而难以给AI喂养新的“精神食粮”。
鹰酱的算力储备是占优势的,鹰酱也可以通过抄袭DeepSeek迅速拉齐设计水平,但英语表意能力的局限是无法克服的,除非鹰酱放弃英语全民学中文。我相信看到这里,很多喷子就已经跃跃欲试了,我提醒各位喷子,尔等在评论区贴的文字,也会成为喂养中文AI模型的食粮,尔等越努力,就越有机会证明作者的正确。
如果这段话把尔等的CPU干烧了,那尔等就滚蛋吧,你们连当喷子的料都不够。
对于认可作者的同志们,作者要提醒各位,推动中国AI模型,不只是靠科学家,也是靠你们。
算力和模型只是决定了这个AI“胃口好”,但精神食粮是靠亿万网民创造的。大家多说一些构思巧妙的话,就会提升中国AI模型的思维能力。
历史是人民群众创造的,要证明中文是智能时代最好的语言,就用一起创造高质量语料的方式,协助科学家们打赢AI战争。