2022年11月的最后一天,ChatGPT 的横空出世毫无征兆地掀起了新一波的人工智能热潮。
「大模型」三个字如同被打在了「世界公屏」上让任何人都无法视而不见。
随后的两年里,Meta 引领的开源社区开枝散叶、百花齐放,国内各大厂和创业公司「百模大战」如火如荼。
曾经的 chatbot 也已经不止满足于和人类聊聊天了:做 ppt、写文章、码代码甚至生成视频,基于大模型的下游应用也如同雨后春笋般涌现。
不仅一举摘掉了「人工智障」的帽子,还摇身一变成了名副其实的六边圆形战士🤖。
当然,与热潮一同袭来的,还有深深的焦虑:「我们大部分人是不是马上就要被 AI 取代了?」
很遗憾这个问题的答案我暂时也没法给出。
但是为了缓解大家的焦虑,今天我从反面的角度,给大家盘一盘当前代表着最先进人工智能的大模型有哪些做不好的事儿
?
大模型不太会讲笑话
是的,你没有看错。
别看 ChatGPT 回答起问题、写起文章来一套一套的,可是如果你让它讲个笑话,大多时候得到的是这样的结果:
且不说咱 get 不到它的笑点,它讲完了还一本正经的给你上价值🤷♂️。
关于这个问题,国外的研究员还专门发了篇论文来研究。
直接上结论:它其实只会讲25个笑话
,在进行的1008次尝试中有90%都是这25个笑话的变体,仅仅改变了一下措辞或者句式。
(研究人员还做了很多有趣的尝试,感兴趣的可以看看原论文。)
导致这个局面的原因大体有两个:
- ChatGPT 的训练过程的最后一步「与人类价值偏好对齐」时将大量有冒犯性质的内容都过滤了,其中自然包含大量的笑话
- 大模型本身对幽默的理解很片面,只停留在蹩脚的谐音梗、双关语层面(看来 AI 的品位也不咋地🤣)
所以至少在「幽默/搞笑」这个事情上,人工智能的段位和广大的网友还是差了十万八千里的!💪
大模型的「反转诅咒」
「反转诅咒(The Reversal Curse)」,是不是听起来十分唬人?这是去年9月份的一个发现,当时引发技术圈一片哗然。
简单来说就是:一个只在「A是B」的数据上训练的语言模型,并不能正确回答出「B是A」。
举个栗子🙋♀️🌰:
在已经知道「汤姆·克鲁斯的母亲是Mary Lee Pfeiffer」的前提下,当时最先进的 GPT-4 却无法答出「Mary Lee Pfeiffer的孩子是汤姆·克鲁斯」,这是连几岁小朋友都能作出的正常逻辑思考。
同样难倒它的还有「反写单词」的任务。
大模型在这两个问题上的「滑铁卢」也都源自它的训练机制,篇幅有限这里就不具体展开了。
截止发文的时候,「反转诅咒」在最新的 GPT-4 上已经不复存在了,从技术层面被解决。
尽管如此,这也是通过了专门的研究和优化才得以实现的,即便是这样两个在人类看来信手拈来的问题。
填字游戏/数独
「填字游戏」和类似形式的例如「数独」的游戏🎮,大模型始终没法学会。
训练数据层面看,巨量的文本中涉及到这类游戏的肯定是不占少数的。
调戏过大模型的朋友可能知道我们可以在聊天儿的过程中给它输入一些栗子🌰,这样大模型就能「照葫芦画瓢」地学会了。
但填字游戏这一类问题上,研究人员和广大网友做了各种尝试,大模型依然「学不会」😮💨。
根据我的浅显理解和臆测,这和这类游戏需要「空间感」有一定关系。
只在海量文本上训练过的大模型从未真正接触和体验过真实的世界
。
它对于包括空间在内的许多具身世界里才有的概念理解是片面的,如同只见过三维物体在二维平面上的投影。
当然,加入了视觉信息的多模态的大模型能否在将来学会这类游戏,就尚未可知了,让我们拭目以待。
正视「人工智能焦虑」
除了这里总结的这些令人意外的实例之外,即使是前面提到的很多应用场景里,大模型的「翻车」情况也不是少数。
不得不承认大模型的诞生让 AI 在理解和帮助人类这件事情上有了质的飞跃,让人感觉这一次的人工智能浪潮比以往都要巨大。
仿佛我们被人工智能取代的时刻已经近在眼前,让人免不了陷入深深的焦虑。
但仔细想想,哪一次的浪潮不是这样汹涌而来的呢?
潮水终将褪去,浪花终将平息,最后留在沙滩上的才是我们真正应该关注的。
与其在焦虑中自我内耗,不如跳出来思考一下如何与 AI 共存,让它成为我们的助力而不是阻力。
同时我们要「知己知彼」,找到自己的不可替代性
。
比如我就始终相信人类原创的创造力在很长很长的时间里都将是 AI 难以企及的高点,找到这些点并不断地放大它们,我们就永远不会有被取代的那一天。