一、武器决定战术,AI是流量大作战的新式武器
记得以前看库布里克导演的《Barry Lyndon》时,除了震惊于影片油画版的质感外,对里面英格兰和普鲁士两军交战细节颇感意外,两军对垒,然后双方各自随着自己的鼓手节奏排成横排,迈着整齐的步伐向对方走去,走到一定距离,开始向对方射击,双方士兵纷纷倒地,然而阵型不乱,继续前进,继续射击,直到近身肉搏。
后来得知战争有个原则是武器决定战术。17世纪得益于燧发枪和刺刀的普及,横队阵型开始出现,也就是俗话说的“排队枪毙”。横队阵型拥有更强的火力密度兼备良好的肉搏性,所以它迅速在欧洲普及。为什么他们采用看上去很傻的排队枪毙式队形呢?
首先,后膛枪出来之前枪是前膛装填的,士兵需要站起来才方便装填,这需要战场上士兵得一直站着。其次,当时使用的都是黑火药,无烟火药那时候还没有出来。在第一枪射击后,烟雾会完全模糊你的视线(当然后来无烟火药出现初期仍和横队模式并行了一段时间,因为横队模式存在还有其他理由)。很难知道谁在哪里,所以保持队形,在一个大致的位置开火是进攻的最佳选择。最后就是在古代和近代战争中保持阵型是非常重要的,因为当时的指挥将领和信号系统都无法胜任大量散兵的指挥,阵型散乱等于崩溃。
武器决定战术,横队阵型有那么多缺点(精度差、速度慢),但排成横向队形可以大大提高命中率,和现在媒体内容的“传播策略”(流量战术)有着异曲同工之处,那么看看横队战术如何淘汰的,也许能够给我们一些启发。
线膛枪枪管和子弹需要工业技术才能大量制造并具有较强的耐久性和较高的精度,滑膛枪体和子弹士兵手工就可以制作,“手工活”艺术性较高,不能对其稳定性、精确性和耐久性有过高期望,就像滑膛枪刚诞生初始还不如熟练的弓箭手杀伤力强,然而采用新原理的新武器一旦工业化生产,成本迅速降低,很快就淘汰了手工打造的武器。在当前和未来一段时间的流量战争面前,哪些是“手工活”,AI这个新武器又会决定什么战术?
起初AI的使用价格很贵,尤其是堪为可用的AI产品,媒体内容生产如需使用AI成本还比较高,且仍需要编辑记者的重度参与,你不妨算下价格,还是比传统生产贵多了,技术风险也不小。当前还处于训练-成长阶段的AI模型,你一个问题可能收费并不便宜,但是AI的训练和迭代是非常迅速的,有学者认为AI的使用成本大概率将越来越低,如果达到了现在互联网常规搜索的普及程度,又好用又便宜,AI的使用成本可能会趋于0,而产能却趋于无穷大。
过去传统媒体的传统生产,好的记者和编辑非常依赖于自我培养和成长,他们不断学习,努力提高写作技能,他们作品风格和他们自己的素养、志趣、成长经历密切相关,是高度个性化的,就像前膛装填的滑膛枪时代,写作也是一种“手工活”,为了尽可能提高传播范围、扩大影响力,需要采用横队排枪战术以提高命中率。然而AI就像线膛枪,越来越精准、适合大批量生产、成本越来越低,排枪的横队时代结束后,随着射击精度和速度的提高应运而生的是纵队战术,一战马克沁机枪又淘汰了纵队战术,出现了散兵线战术。
你还可以继续无限列举武器升级的例子,历史是螺旋上升的,总之AI看上去就像那个最新的武器。武器决定战术,在媒体融合语境下,AI会决定什么?媒体的纵队战术和散兵线战术又会是什么样的呢?
第一个问题:暂不论AI的哲学意味,从实用主义来看AI就是电影《人工智能》里的Dr.Know,你想了解什么,直接问,AI会根据它所掌握的数据和模型逻辑回答你。注意,这里的数据是贯通的,虽然也有分类和模型的限制,但理论上AI的算力可以使数据关联起来,我们人类很聪明,想象力和关联能力惊人,但受大脑皮层生理限制,关联能力有所谓“邓巴数”天花板,机器则没有这个限制。所以在一般应用层面上,我们可以理解AI就是“数据贯通”,“数据贯通”和近年来学术界提倡的“知识融通”有异曲同工之妙。
前些年清华大学新闻传播学院取消本科招生一度引起网络热议,而如今人们对各家媒体单位招聘人员公示中专业的多样化已不再惊诧,应聘记者和编辑岗的专业类别里除了常见的新闻传播、汉语言文学等专业,也不乏经济学、管理学、历史学、哲学甚至数学和计算机等理工类专业,这说明随着媒体融合实践的深化,“媒体”本身正在成为一个交叉学科已接近成为行业共识,交叉学科研究与实践的方法论之一就是“知识融通”。媒体好内容标准之一就是“深度”,由于当前经济现象和被采访内容具有较强的专业性和广泛的关联性,要挖好“深度”,常常也需要开拓“广度”,这个“深度”和“广度”的辩证统一就是知识融通。
第二个问题:可能是一个看上去颇为符合辩证思想的方阵集合(满矛盾却又相互依赖的)——方阵里每个成员都是多面手,但每个多面手的存在和发挥又必须依赖其他多面手;每个方阵的存在和发挥又必须依赖集合中的其他方阵。
二、甲骨文“人”、拉丁文“persona”和AI
近期因工作原因与同事讨论AI颇多,起初都是讨论具体的应用,对于当前AI的不好用,尤其是需要人类高度介入的特点,有同事笑言当前阶段的的AI就是需要大量“人工”辛苦实现的“智能”!脚踏实地的兄弟对科幻作品中AI达到的可能性不以为然,尤其是对于有些学者或哲学家给出的AI将具有类似人类主体性的判定嗤之以鼻,“什么?我们以后会成为尼安德特人被AI取代?就离谱!”貌似西方的学者和科幻作者是更早、也是更勇于设想这种可能性的。人类网红马斯克已经多次呼吁各国要停止研发AI,警告我们要认识到人类被AI取代的危险性。
好了,我没有参与辩论,我走神了,想到了“人”是什么,AI能成为或超越“人”吗?
很自然地,先是想到了从文字本身开始,人的甲骨文是象形字,字形像是垂臂直立的动物形象。金文基本承续甲骨文字形。篆文突出了弯腰垂臂、脸朝黄土背朝天的劳作形象,像是双手采摘或在地里忙活。隶书变形较大,弯腰垂臂的形象完全消失。造字本义:躬身垂臂的劳作者,地球上唯一会创造文明符号、自觉进化的动物。
象形字“人”的演变重“形”,是一种图像,非常具体和直观,但想想是不是好像少了一点要素?没错,是声音!听说历史研究现在都不在一亩三分地坐井观天了,都要对比着,要联系着研究,不能因现在的国界、地理、政治的区隔去预设过多的研究历史。所以我也查了下西方“人”这个词的词源,发现拉丁文中人的原意有声音要素,拉丁文“人”为persona,这个词的词根是per(面具)和son(声音),即“人”(persona)是透过面具(per)发出的声音(son),换言之,隔着面具发出声音的主体就是人。甲骨文“人”是直观图像,拉丁文“人”有声音要素,东西方解释综合起来“人”的定义似乎更加全面了,不过仔细品两者区别,也挺有意思,能看出东西方脑回路确有不同,中国古人认为具有独一无二外形(直立、会劳动)就是人,不会混淆,灵长目其他动物也许偶尔会直立,偶尔会用树枝掏蚂蚁吃,偶尔会用石头砸水果外壳,但不会真正的劳动,“直立+会劳动”这个判断绝不会弄错“人”。而古代拉丁人更加重视声音,虽然人脸就是一种面具(其实人脸是“元面具”),可他们还是强调“面具”后面发出声音就是人,这个判定会扩大范围啊,会把一些不一定是“人”的东西包括进来。也许正是这种大胆的词语起源,使得千百年来这种语言训练的脑回路会比东方人更加激进的认为AI将成为“面具”后面发出声音的“人”,也会更多的思考这种可能性。
其实我们的祖先不是不重视“声音”对人的重要性,只是认为甲骨文的“直立+会劳动”的图像不会弄错“人”,不必要再想方设法在“人”上面添加“声音”或“会发出声音”的甲骨文图像了。对于声音以及声音的规律形式——音乐和人的关系,我们祖先的《乐记》中有精彩的阐述:“凡音之起,由人心生也。人心之动,物使之然也。感于物而动,故形于声;声相应,故生变;变成方,谓之音;比音而乐之,及干戚羽旄,谓之乐也。乐者,音之所由生也,其本在人心之感于物也。”
音乐,乃人心之动,你看,我们不拿声音做为定义“人”的一部分要素,是因为简单发出声音、发出简单声音可算不上是人类独一无二的特点啊,只有声音的规律形式——音乐,才是人类的专属,异常理性却又不失优雅地称其为“人心之动”。
AI也许能作曲,甚至还能在“数字面具或实体面具”后面“发出声音”,但是Ta能够理解音乐吗?
三、人可“朝闻道”,AI不会“听”
在上一篇《甲骨文“人”、拉丁文“persona”和AI(近期AI讨论之二)》我提及“声音”对人的意义,后来又想到不管是普通声音还是音乐,对于人和AI来说都有一个“听”的过程,且不说AI是否能理解音乐,仅就“听”这样的行为对人的意义,AI恐怕就难以领会或者说“听”的意义是人的特权,AI没有听的特权,在理解“意义”上也会失去很多。
何出此言?
音乐为人心之动,“听”亦有心的参与。有句老话叫做“朝闻道”,《说文解字》中说“闻,知声也。从耳门声”,闻就是听,我们都承认视觉如此重要,有的哲学家认为视觉为“第一知觉”,然而“闻道”这么触及人类灵魂和世界本质的事情,却不是看见,却不是依靠眼睛,而是“闻道”,需要去“听”!哈哈,这“听”起来蛮奇怪的。
“看”也好,“听”也罢,对于AI的模型都是同一种输入,可对人来说是听却是和视觉几乎并行的另一套感知系统,除了结合使用,必要的时候也能单独使用,不管结合使用还是单独使用,听都有非凡的心理意义。除了“朝闻道”,还想到了三个例子:
例一:我仍然清晰的记得第一次看《水浒》里鲁智深圆寂的故事,鲁智深圆寂前的感慨“平生不修善果,只爱杀人放火。忽地顿开金绳,这里扯断玉锁。咦!钱塘江上潮信来,今日方知我是我。”竟然让彼时一个年轻学生泪流满面,扼腕叹息。当时我没有注意“听”的细节,后来才意识到正是“听”让鲁智深顿悟,很久以前智真长老曾经送给过鲁智深一个偈子“听潮而圆,见信而寂”,征战多年后鲁智深在听见钱塘江的潮信,然后问旁边师弟了解到圆寂之意,那一刻就是鲁智深顿悟,捅破那层窗户纸之时。
还有一个例子,我很喜欢的一首歌《The Sound Of Silence》里有段歌词是:
People talking without speaking.People hearing without listening.
People writing songs that voices never share.
And no one dare.Disturb the sound of silence.
人们hearing但没有listening,两者区别其实说的是“用耳听”和“用心听”的区别,就是“耳旁风”和“聆听”的区别,也许日常人们听见了无数声音,多数时候只是因为不能关闭耳朵功能不得不接收“空气振动”的结果。
有意思的是,这首歌意外的还道出了“听”的另一个用途和意义,可能悟道这种级别的人生事件需要听一些特定声音,还有一些次重量级事件需要“不听”或者更准确的描述为“听”一些“空”、听一些“沉默”,听一些“没有声音”的特殊声音——那就是寂静之声!无声也是一种声,只要你心动。
例三:这可能不是一个例子,是一类例子,那就是梦里的“听”,我们都知道睡觉时听觉并没有关闭,然而你梦里场景中的声音或对话肯定不是睡觉时周边声音导致的,再说一般睡觉时周边声音很安静,否则你也睡不着哈。
“听”还真有意思,想想“余音绕梁”的故事,这种美妙声音难道不让人想洗耳恭听吗?
四、你喜欢虚拟数字人的脸吗
近期与同事谈了不少关于虚拟数字人的应用,感觉当前“虚拟数字人”这一新鲜事在媒体人、AI码农、传播受众、网络本身中的传播周期还没有结束,有的圈子已传播完毕,有的还在传播中,有的甚至刚起步,因此N个“信息波”颇有叠加和相抵,有的共振还很强烈。
不过除了这些热热闹闹的数字人新技术,我倒是挺关注虚拟数字人的图像意义,尤其是脸。人脸的心理意义和文化意义无需多言,从古至今相关研究资料汗牛充栋。我在这里只是想说下自己的感受,人人都有一张脸,只有当一张脸与另一张脸或镜子中的自己目光交汇、彼此交流的时候,它才成为一张“脸”,眼神、声音和表情的变化才让脸生动起来。虚拟数字人的脸无论如何逼真,都无法和受众或者说它直接“面对”的镜头(背后也是受众)进行目光交流和神态互动,这张脸实际是一种面具。真实的人脸当然也有面具的功能,例如我们喜怒哀乐切换的时候、例如专业演员在表演的时候,这时候脸显然也是具有面具功能的,但真实人脸的面具功能仍然有眼神交流、神态互动的作用和效果,仍然具有强烈的心理意义和文化意义,除了话语或者哪怕压根没有说话只是一阵沉默,旁人或观众都接收到了大量有效的信息。
BTW:除了摹像逝者面容的脸模面具,物理面具出现的目的就是隐藏或模仿,就像我在《墨家的“墨”》小文中猜测,“墨”的本意不是黑,就是着面具的一群人,我觉得这也是墨家名字起源的本来意义,所以在《墨家的踪迹》小说中我假想到墨家在后期可能真的有独家面具,即“墨面”,它代表了一种统一而坚强的意志。
现在技术的进步如此迅速,以真人表情捕捉的电影例如《爱,死亡,机器人》动画中的人物,尤其是这个系列第三季中的《吉巴罗》,里面湖中女妖、骑士、传教士和真实人脸相当接近,并且这种相似已经越过了“恐怖谷”曲线,人们不觉得不舒服,反而接受度很高,甚至产生了“皮格马利翁效应”,那就是喜欢甚至爱上了这些“虚拟的脸”。
不过,面向公众进行内容播报的虚拟数字人就不同了。除了少数刻意打破“第四面墙”的电影外,电影中的人类演员、虚拟演员、虚拟脸并不和观众进行互动,可是内容播报的虚拟数字人就是传媒流程的一个环节,现在全媒体或者说媒体融合的全流程中非常强调与用户的互动,这种互动不仅仅体现在弹幕、留言、点赞、转载、评论,还包括播报者与受众的互动,不管是面对演播厅少数的现场观众,还是没有现场观众而直接面对镜头,播报者的眼神交流,以及声音、发型、表情、呼吸、化妆、气色等(不变或者微妙的变化)都能表达出特定的信息,这些信息受众都会接收到,然而你面对虚拟数字人播报员呢?你从这张数字面具那里得到的信息相当有限,久而久之,也许你想,我也拿个虚拟观众面对Ta吧,由于虚拟数字人技术的普及,用户将之反向应用这是非常有可能的,真实受众可能在打游戏或刷网页或根本不在线,而是让虚拟受众听虚拟数字人的播报,没准两个虚拟人还会互动。
那么问题来了,虚拟数字人工作的时候知道Ta面对的是虚拟受众吗?Ta在乎吗?
五、为痴迷ChatGPT的朋友泼盆冷水
最近身边一些朋友和同事兴奋地讨论ChatGPT,尤其是新发布不久的4.0,畅想它可能带来的效率、成本方面的惊喜,我并不否认它带来的有益之处,只是杞人忧天它的另一面。
说出杞人忧天之处前,我先得啰嗦一下:从如何认识互联网开始。个人认为我们认识互联网有三条路径:文本集合、事件集合、故事集合。
首先就抽象的层面而言,互联网可视为文本集合,互联网上你看到的精彩纷呈、万千气象不过是服务器上文本的集合,或者说是一串近乎无穷的比特序列。按照著名科幻作家特德·姜的理解,他将ChatGPT或大多数其他大型语言模型视为Web上所有文本的模糊jpeg,它保留了Web上的大部分信息,就像jpeg保留了原高分辨率图像的大部分信息一样,但是如果你要寻找一个精确的位序列,你得不到,得到的只是一个近似值。由于近似值以语法文本的形式呈现,而ChatGPT擅长创建这种文本,因此这种“模糊性”通常看上去是可以接受的,“我们可以在这个基础上修改修改嘛,可以省下很多时间。”
其次,加上时间轴的话互联网又可看作是事件集合,也是各个时期社会历史现实的一个组成部分,例如ChatGPT就是一个事件。作为事件的ChatGPT代表的是对互联网过去的一种特殊的解读(因为是模糊的近似值)。
最后,互联网又是网民心中一系列颇有影响力的故事集合,不同地区、不同文化背景、不同时代人们对“同一故事”的看法和理解都不尽相同。而作为故事的ChatGPT代表的是以过去为载体而对现在进行的一种特殊的解读,网民和Web自身都在用现在(你的问题、你的搜索、你的动作、你的互动、海量Web数据等)投喂ChatGPT,ChatGPT则生产出各种“模糊的jpeg”、“近似的文本”反过来投喂网民和Web本身。“事件路径”和“故事路径”都在过去与现在之间建立了一种互动关系,在此过程中,现在的网民经常按照自己不断变化的多样化的见解有意识或无意识地重新塑造着过去,拜托于ChatGPT这个擅长“近似文本”的模糊大师,“重新塑造过去”的速度和程度可能远超网民的想像。
那么问题来了,因为有了ChatGPT们这些强力工具,网民或者就说你吧,假如你现在是会偶尔回忆自己青春时代的油腻大叔,于是你想了解过去的故事,尤其是你自身经历的过去故事(甚至想参与编辑故事或提供些亲身经历的一手资料),会发生什么样的变化呢?假如你上中学时家乡举办了某个当时很红、现在也很红的某著名歌星的演唱会,你对这个过去故事的认识是靠自己那保存至今纸页已泛黄变脆的日记本、脑海中模糊的记忆、同学聚会的怀旧讨论,这个演唱会当年又是如此轰动,你甚至回家乡特意找到了当时的地方志记载,看了这些材料你不禁再次沉浸回忆中。然而当你使用ChatGPT生成那次演唱会的文本,这个“新故事”可能会颠覆你的记忆,你纳闷、震惊、怀疑,甚至表达不满等强烈情绪,你还发帖或直接回复ChatGPT表达自己的看法,然而不幸的是,关于此故事你发现“忠诚的”ChatGPT生成的内容会被大多数人认同(也许有和你一样亲历过演唱会的人表示它不太准确,但谁会真正在乎呢?大多数人不在乎!)而且ChatGPT们的内容生成近乎零成本、产能近乎无穷大,全网的内容将慢慢被似是而非的“近似值”覆盖,和这种级别的覆盖相比,前ChatGPT时代某百科上某些词条被不同立场的人群反复争夺和修改简直太小儿科了。
受益于IPv6、IPFS等各种扩容技术的进步,互联网体量越来越大,体验与真实也越来越“近似”,例如现在的元宇宙理念和实践,更别说一些学者、哲学家、科幻作家早就设想和评论过的“虚拟化生存”的可能,擅长生成“近似文本”的ChatGPT似乎很适合“培训”即将前往虚拟新世界的移民,它奏响了进入新世界的序曲。无论是现实中马斯克即将应用的“脑机接口”,还是从划时代的《黑客帝国》开始掀起的无数科幻设想和严肃文艺评论,以及最新的《流浪地球2》里面的数字生命设想,从技术、观念方面的持续变化看似乎以后很多人都会接受生活在虚拟世界里或至少会在其中花费越来越多的时间,某种程度上,这种向元宇宙的迁徙就像历史上发现新大陆后的迁徙浪潮,这个新世界看上去和旧大陆很像,然而动植物、环境、气候好像又有点不一样(近似值),能生存得好谁会在意这些!?
可是新世界的叙事谁来说呢,ChatGPT?