说起偏见这个词,大多数人的直观感受是不怎么舒服的。但是在大数据包装之后,偏见这个词已然是变成了一个令人信服的词语。
我们知道,大数据的基础在于数据和模型,其中模型处于主导地位,能够从海量的数据中抽离出相对有用的部分,对外部环境进行抽象概括,从而得出结论指导现实。值得注意的是,模型的本性就是简单化,不可能囊括现实世界的复杂性或者人类交流的细微差别。在人的设置和干预下,有些信息不可避免地会被遗漏或突出,从而体现为偏见。这种偏见在大数据出现之前,是体现在过程之中,而大数据出现之后,偏见就提前埋伏在算法模型里了。因此,冰冷的计算机和数据化风险模型得出的结论,虽然看起来就是一副公正无私的样子,其实是把偏见隐藏在了更深的地方。
来看一个带有种族偏见的数据模型。长期以来,种族是美国审判的一个主要因素。研究表明,在休斯顿市,对于同样罪行的犯人,检察官判非裔美国人死刑的几率比白人高三倍,判西班牙裔美国人死刑的几率比白人高四倍。为改变这种情况,美国有24个州的法院采用了一种再犯模型,帮助法官评估每一个罪犯构成的危险,减少法官的情绪和偏见所带来的影响。其中,一个叫做LSI–R的普及模型应用最为广泛。这个模型要求罪犯填写冗长的问卷调查。比如“你之前犯罪次数是多少?”“其他人对这次犯罪起了多大的作用?毒品和酒精对于你犯罪起了多大作用?”等等。
这些问题看起来很正常,没毛病,但在实际操作中却存在问题。来自有特权背景的罪犯和来自治安差的平民街区的罪犯,答案肯定不一样。
比如,同样问“你第一次遭遇警察”的原因,在舒适郊区长大的罪犯也许会告诉你这是第一次入狱,而来自平民街区的年轻的黑人男性很可能已经被警察多次拦截,即使他们什么错事也没做。
研究报告显示,14-24岁的黑人男性和拉丁美洲男性仅占该市总人口的4.7%,但他们占被警察拦截盘查总人数的40.6%。而且,那些被盘查的人中90%多都是无辜的。然而根据模型统计,经常被拦截的嫌犯判分更高,更容易被模型分类为高风险等级,从而误导法官量刑。
更严重的是,罪犯还会被问到出生和成长的环境,他们的朋友和亲戚是否有过犯罪记录等等。事实上,法官应该对所做的事情进行审判,而不是对嫌犯的身份进行审判。这些细节不应该和刑事案件或者量刑相关。
然而,在LSI-R这样的数据模型下,原本身处底层社会的有色人种受到了更加严重的种族问题。“高风险”得分等级的人很可能是失业人员,而他的许多朋友和家人都触犯过法律。而且多年和一群罪犯关在一起,又增加了他再次犯罪的可能性。等他出狱时会回到同样的贫穷社区,有了犯罪记录,找工作就更难。如果他再犯罪,再犯模型又一次成功验证。事实上,正是这一模型导致了恶性循环,且一再地自行巩固。
面对真实现状,难道我们不应该质疑:我们是利用大数据彻底根除了人类偏见,还是只是用技术包装了人类偏见?答案其实就在眼前。