Q1 为什么DeepSeek出来以后,国家那么积极鼓励使用?
基于NFL的基本理论(如果还不理解NFL的理论精髓,可以参考前面的文章自己和DeepSeek聊一聊),能力的增长是与问题领域、领域经验相关的,一个问题领域中,经验越充分,解决这个领域中问题的方法和能力就越靠谱。
只有积极使用,才能让DeepSeek变得更强大。
Q2 为什么说“只有积极使用,才能让DeepSeek变得更强大”?
这句话的关键词是“只有积极使用”,就像之前Google的《Attention is All You Need》一样,很多人都理解成了Attention很重要,没认为是 All You Need。
“只有积极使用”,是因为:
- 基于书面知识的训练遇到了天花板:去年下半年,Meta的一系列研究表明:基于人类书面知识训练的大模型,能力已经达到了一定的顶峰(这个Paper我当时没有保存——或者说是保存了忘记放哪里了——现在怎么也搜不到了)。按照NFL的理论,不能在这个方向上继续投入了,性价比不高,就要找一些出路。
- 基于快速训练的技术的发展:强化学习、蒸馏,为提高训练效率给出了很好的方法。
- 需要转变训练的问题领域:从知识训练这个单一的问题领域,转变到应用领域。之前几百年的书面知识训练完成了,下面就是铺天盖地的实际应用领域的问题丢给他,这个问答、运用的结果可以继续微调和训练大模型。——这也就回答了,为什么关键研发、新材料、新技能等等创新领域的业务,不能使用公共大模型的原因,这些对话材料不久就会变成语料重新训练大模型,你跟他之间对话所产生的创意、创新,都将成为大模型的记忆,公开给用户了。
Q3 可是我都不知道怎么用大模型啊?
还记得1997年的自己,从学校打着铺盖到达连云港市第二人民医院,学了3年的理论知识,即将进入临床实习。说句实话,老师也不知道我们这批学生将来会怎样。我自己更不知道自己将来会怎样。
唯一一个理念就是:好好活,做有意义的事。
从医到从事营销再到从事IT,都是用而知不足,不足而学,学再用,层层迭代。再加上一点不知疲倦。
大模型本身是通了电就能用的,他没有疲倦的压力,那不知道怎么用大模型的问题不在知不知道,而是用得少了、随便用用就放弃了。或者说句难听的就是,用户的水平不行——一将无能累死三军。(用户对于大模型其实就是工作中的顶头上司,用户给的方向错误、局限、偏见严重,大模型的产出就不行)。
所以,我类比今年的现像就是:
DeepSeek就是个大学,培养了对标北大、清华、耶鲁的大学生(距离加州伯克利还有点距离,请允许我对认知科学有成就的大学的一些个人偏见)。
现在开源了,就像这些大学生只要想招,就可以到岗,作为实习生、管培生,分配到任何想要的岗位上去。能不能用好这些顶级大学生,就要看带教老师的能力了。
我见到一个程序员,跟DeepSeek聊完以后,向我反馈:TMD!聊出了一个开发小组,从产品到UI到架构师到数据库工程师到前端到后端,都能搞定,甚至还能帮我跟客户怼两句URS,之前客户都说我IT不懂业务,现在我问问DeepSeek业务是啥,URS是否合理,合理的理由是什么,不合理的理由是什么。都能说得头头是道。拿着这个去开会,心里有底。——注意很多人都是被人怼败了回来亡羊补牢去问DeepSeek,这没用,这个程序员是在接到通知后,在会前问了DeepSeek,就像战场上提前爬到了上制高点。
所以说,多年以后,这个一流大学的大学生能混成什么样,主要看带教老师了。实际上,有很多人,不具备带教的能力,在用DeepSeek的时候总是找不到下手的地方。
算了,先到这吧,原本还有两个话题,一是关于相关产业的现像,前面也都提了,感觉不好说得太透,比如为什么现在各个大模型厂家都要做大模型入口,鼓励你使用他们的大模型,还是免费的,其实就是为了套取训练材料。二是为什么中央会反对用国外的大模型,前面也提及了。为什么中央会如此鼓励大模型使用,他们的决策一看就是符合NFL的理论的,是走在科学治国的路线上的。
这一个多月都在为DeepSeek的端到端的工程化忙碌,好不容易休息一天。
本来每年正月十五之前就会安排的当年的第一次山地骑行,也推迟到了今天,很幸运,天气很好,完美地骑了一圈。
wollaston
2025年03月22日
于连云港