高一六班李泽翔
近来一时兴起,重读了一遍三体,发现这本小说里面其实有很多东西值得我们探讨。今天我们就来聊一下三体里面所提到的数据学和数据科学。
作者刘慈欣先是告诉我们“数据运营与分析”的局限性:
在“科学边界”的学者们进行讨论时,常用到一个缩写词:SF,它不是指科幻,而是上面那两个词的缩写。这源自两个假说,都涉及到宇宙规律的本质。
“射手”假说:有一名神枪手,在一个靶子上每隔十厘米打一个洞。设想这个靶子的平面上生活着一种二维智能生物,它们中的科学家在对自己的宇宙进行观察后,发现了一个伟大的律:“宇宙每隔十厘米,必然会有一个洞。”它们把这个神枪手一时兴起的随意行为,看成了自己宇宙中的铁律。
“农场主假说”则有一层令人不安的恐怖色彩:一个农场里有一群火鸡,农场主每天中午十一点来给它们喂食。火鸡中的一名科学家观察这个现象,一直观察了近一年都没有例外,于是它也发现了自己宇宙中的伟大定律:“每天上午十一点,就有食物降临。”它在感恩节早晨向火鸡们公布了这个定律,但这天上午十一点食物没有降临,农场主进来把它们都捉去杀了。
射手和农场主的故事告诉我们一个简单的道理:做科学调查时采样样本要足够,但是事实上却永远不足够。
我们能从数据里得出的结论只是一个统计性的结论,不是定论。从一定层面上讲,数据只反映结论成立的“概率”的大小,而不反映结论的“对错”。我们要时刻提醒自己:永远不能以小部分人或数据来得出所谓的“定律”。
《三体》中,汪淼又和另一位大师丁仪探讨了试验中数据所存在的风险。(有兴趣的读者可以去看《三体》第一部第三章)
汪丁两人做的台球试验并不是一个精心设计的科学试验,但是它和大多数科学家在现实中做的试验一样,简单,高效,目标明确。这个试验的结论非常符合“常识”和“预期”,但是和“事实”天差地别。科学边界的科学家们,做了更加精细的更加科学的试验,然后得到了完全不一样的结果。从某种角度来看,科学边界的试验结果更接近“事实”:在新的对撞能级下,同样的粒子,同样的撞击能量,一切试验条件都相同,结果却不一样。不但在不同的加速器上不一样,在同一加速器不同时间的试验中也不一样,物理学家们慌了,把这种相同条件的超高能撞击试验一次次地重复,但每次的结果都不同,也没有规律。
如何能够让我们所做的试验的数据更加准确,更加贴近“事实”,是一个不容易的事情。在不断提高“事实”的标准的情况下,试验会越来越难。这更加考验我们的实事求是和脚踏实地的精神。
——by