名字好绕啊。。。
没想到m兄这么有心,还真的认真看待这篇游戏之作了。
所以,本着逗逼逗到底送佛送到西的大无畏逗逼精神,我也要好好地回复一下。
“这个总概念有必要么?因为真要展开比较的话,还得逐一讨论各个维度。”
这是一个方法论的问题。
对于一个复杂系统,总会出现大量的指标量,这些指标量反映了系统的某些特性。
当我们要分门别类地讨论一个系统的细节的时候,指标量所反映的特性总是要越细致越好;反之,如果我们只是要看一个大概的趋势,那指标量就不需要很细致,只要能从一个恰当的层面反映整体就可以了——所以往往只用一个量是最好了。
比如说人口。
最粗的用来看人口变化的量,就是人口总数。这个当我们在看历年国家人口变化、生育率变化和死亡率变化的时候,看的就是这个。但,如果是很细致地做人口学研究,一个人口总数是不够的,你至少需要年龄分布和性别分布。但这两个分布其实还不够,真要细致的话,还要按照地域、职业、信仰以及健康状态做一个分布,这就很细致了。
所以,问题不是你抓住了多少量,而是你打算考察什么问题,这个问题需要哪些指标量。
就《也谈》一文来说,本来就是从一个大局来随便聊聊,所以只需要把握一个大体的值就好了。
否则,不同平台不同设备哪能这么轻易地揉在一起呢?
上面这个问题给整个讨论打下了一个主基调,那就是我们只看最大体上的情况——也就是所谓的一级近似,最粗略的近似。
既然是近似,那么诸如“对于一个熟练使用各种社交媒体的用户来说”这样的人就不用考虑了——用统计的话来说,就是把这些奇形怪状的人统统平均掉,只保留一个平均效应。复杂网络的术语叫“平均场方法”。
既然不考虑各类奇葩,只考虑平均,那一些特例就不用考虑了。
于是我们回头来看m兄所针对的第二个问题——那些参数。
诚然,那些参数的设置都是非常任意的。
没办法,我手上没数据,而且即便有数据,也懒得去整了。
所以参数的选择完全是依赖于我的个人感受——这自然不是科学的方法。
如果要科学地做这方面的参数设置,要怎么做呢?
方法也是有的。
如果我们掌握了全网全平台的数据,我们就可以将人群按照Foer和Foee的数量做分类,然后计算他们发布一条消息后,这条消息的各项指标——我文中的指标中,有些是可观测的,比如传播范围(多少用户转播了,层级关系是几层——复杂网络概念),比如生存时间(多少小时后转播和评论数量小于1次/小时),这些可观测量就是这里所说的信息的具体指标。而文中另一些量是不可观测量,比如我的核心概念——信息的重量。
然后,事情比较简单,根据全网的可观测数据——用户数、交互次数、传播范围、生存时间——来做一个极其复杂的多元回归,得到不同信息的拟合回归曲线——所以我们在做实验的时候先要将信息分类,看几乎相同的信息在不同平台上的指标数据——然后通过这些回归曲线来拟合具体的函数类型和待定参数——这样,按照我的理论,你就可以得到信息的重量,并验证此后几个定理中的数学形式是否正确——一般而言总是不正确的,因为现实情况不可能是如此正好的正比反比关系,更可能是看着像幂指数函数的不知道什么曲线。
通过这些拟合,你就可以得到真正的定理一二三四五,并且可以得到信息重量的拟合函数形式——然后就可以通过这个拟合函数形式来反推信息重量和信息长度及平台性质的函数关系了。
上述方法都是原则上的,事实上你根本做不到这种事情,因为一来数据不可能取全,二来函数拟合基本会很扯淡,但这些都是小问题,关键是第三个——用户是在时刻变化的。
对,用户的心态是在时刻变化的,所以现在的一套参数,在一秒以后就会不再正确,而需要另一套参数。
那你说去获取用户心态对那些参数的变化函数?
呵呵,哈利·谢顿笑了。
所以,任何社会科学的数学工具都是如此——不可能和事实接近,因为社会科学的研究对象——人,是在不断变化的。
社会科学不可能如自然科学一样用一个精确的数字表达一个对象,所以社会科学家事实上所作的是预估一个大致趋势,而不是精确态势。
所以,我完全不在意《也谈》一文中的那些参数到底是否正确,我给的定理的函数形式是否正确,这些都不重要。
什么重要?
能否给出大致的描述最重要。
换言之,如果我的参数和函数形式连大致描述都做不到,那这货就完蛋了。
而如果能描述一个大致的情况,那这货就有了存在的价值。
接下来,就是在这个框架的基础上,结合具体的数据,给出能更好描述的一组参数或者函数形式——这些已经是一级近似之上的二级近似了。
我要做的,如开篇所说,就是给个一级近似的框架,仅此而已。
所以,参数是否精确,或者是否针对某些特定人群,或者是否需要将参数细分,把指标量分解得更细,是否需要考虑更多的维度引入更多的指标量,这些对我来说都不重要。我只是给一个有意思的框架,这样就足够了。
@m1ch3ll3 的原文地址:回应《也谈各种微和各种博》一文