知识储备少的一个可能的好处是“不落窠臼”,大白话就是:套路少。
为什么能套路少?主要是因为懂得套路少。换句话说:大部分的知识都基于范式。学的多了,会发现教书先生的观点各有不同,然而教材里的内容是相似的。那还要继续学习吗?不耽误。想学就继续,套路虽然俗气,但认识的过程里也会有些乐趣。不想学也不错,守着有限的认识,过日子或者哲思。都很美好。
这些跟预测有什么关系呢?预测是有方法的,熟练掌握某种或某些方法后,就容易丧降低“空想”的意愿,养成一些依着套路走的习惯。这样对预测并不利。
太阳底下没有新鲜事。目之所及,预测问题都是常见场景。非典型的预测,则被称为冒险。尤其是量化预测领域。统计学家也费尽苦心,建立假设和约束条件,又寻求条件的放宽、转换,甚至废弃一组方法,重装出另一套方法,生生不息。
正统的方法自然有一大堆理论证明,还是聊一场朴素自然地随心畅想。
测一测玩哪个游戏
之前搜集过一份电竞职业选手的年龄样本,具体涉及到144位电竞职业选手的出生日期。基于这份数据,是不是能解决一些个相关的预测问题呢?比如:根据某人的出生日期,预测该人玩的哪个游戏。这个预测问题一抛出来,即使是一个对预测方法完全不懂的人,可以想的方面和方向就不少。这的确是一个很有意思的问题。
出生日期跟玩哪个游戏,有关系吗?怎么看有没有关系?如果有,是不是就承认了属相、星座哪一套说法?如果没有,是不是就是尊重客观事实?这样一想,两者应该是没有关系的。但还是可以主观上假设有,然后继续讨论。
如果有关系,那是前者影响了后者,还是后者影响了前者?是有因果关系,还是其他什么复杂的关系?因为本来就是假设的,所以不好具体讨论下去,于是就再假设一番。比方说,两者可能是一种同时出现或者不出现的关系,不一定是线性的,应该是一种概率问题,接着故事从啤酒和尿布开始了。再比分说,两者可能是一种类规则的关系,就是能设计一个机器猫,能准确预测出答案来的那种。
同一天生日的那些家伙,在预测问题里可能是个麻烦了。同年同月同日生,但玩着不一样的游戏,这种情况该怎么处理?简单粗暴的剔除即可。于心不忍的话,那就放到测试集里。实际上,有些同一天出生的职业选手玩的是一款游戏,有些个是玩着不同的游戏,所以等预测方法想出来了,拿那几天测试一下,应该会很好玩。
异常值不仅仅是表面上的异常,可能是数据处理过程带来的。比方说,144个样本中,其中有一份显示是1994年1月1日出生的职业选手,但是实际上,当初只是拿到了1994年这个年份数据,在处理过程中自动补全成了1月1日。不知道影响大不大?如果有影响的话,对最后的预测结果到底有多大的影响?
就算预测结果出来了,还是放心不下。是只有一个结果,还是有多个呢?每个结果可靠吗?可不可靠怎么比较呢?可不能像人民公园里面相亲的那样走马观花了。
预测NBA球员的第一次伤情
还有一种预测问题也很有意思,就是成功预言第一次出现。这类问题跟冒险的区别在于,冒险问题是没有类似的历史信息可以参考,包括自身时间序列、普世的横截面等,但NBA球员的伤情不是一个陌生的话题。
虽然,NBA球员的伤情很常见,但是,针对某个具体的球员,尤其是他/她还从来没有被报道过伤停,那怎么预测该名球员第一次受伤事件在什么时候发生呢?
文/良宵听雨。授权“游戏夜读”发表。