分类是指根据线索使用分类规则将个体分配到各个类别。
分类有两个常见的含义:
其一是,确定一组类别的行为,即建立分类系统;其二是,确定分类规则并将每个对象分配给某一给定类别的行为。
在这本书中,我们探讨的是第二个含义。这些分类可以为两个目标服务:诊断和预测。许多国家的医生会要求孕妇接受艾滋病毒检测,这种检测会将她们分为艾滋病毒阳性或艾滋病毒阴性。在这个例子中,“诊断”就是指诊断这位女性是否被感染,关注的是已经发生的事;相反,预测则关注未来:当信用评分算法将抵押贷款申请人归类为是否有信誉时,它预测该客户是否能按时连本带利偿还贷款。因此,诊断和预测不同,但也密切相关。例如分诊系统,它是一个关于受害者当前健康状况的诊断系统,不过也包含了受害者能否生存下来的预测。
人们如何进行分类,这个问题可以在心理实验室中研究。在实验室研究中,受测个体通常是大学本科生,类别、线索和分类规则由实验者定义和控制。例如,受测个体会被要求把在固定的几个维度(如颜色和形状)不同的一些几何图形分到不同的类别中,例如将黑色三角形分配至A类,将白色正方形分配至B类。[插图]为了确保所需的实验控制,这些研究通常采用的是参与者从未遇到过的人工设定的任务。研究者的兴趣在于观察参与者使用哪些规则分类,或是他们多快能学会最佳分类规则。我们把这类有可能知道最佳分类规则的定义明确的任务称为“实验室分类”。[插图]
然而,分类问题也可以“在现实情境中”研究。多车事故现场就是一个现实情境的例子,预测潜在借款人是否会违约也是一个现实情境的例子。通常在这些情况下,很多因素在发挥作用,包括一些永远无法预料的因素,因此我们需要首先确定相关线索。不同于实验情境设计有最佳的分类规则,现实情境在许多方面与生俱来地具有相当大的不确定性,这些不确定性无法以最优的理想设定来应对。这里给出一个重要的观点:
在现实情境中,未来可能以不可预知的方式不同于过去,最佳分类规则是不可知的。