注：本文仅为相关科学原理的科普，文中所述场景或示例均为虚构，与现实中的具体情形或程序无关。

假设有这样一个场景：你无意中听到隔间一群劫匪正在聊他们刚刚实施的抢劫。你能听到他们的声音，但你看不到他们。过了几天，警察找到了你，希望你通过声音来帮助确认你听到的是谁。他们会给你播放不同人说话的片段，让你从其中指出谁是抢劫犯。你认为你能做到吗？或许你很有信心，因为你觉得你辨认声音的能力非常好。不过事实上，识别一个陌生人的声音是非常困难的，要想准确记住一个陌生人的声音更是难上加难。让我们了解一下声音是如何记忆的，以及这种“亲听证人”有没有可能帮助识别嫌疑人。

你能成为一名“亲听证人”吗？

亲听证人是指听到了有关证据的证人，他们听到的信息或许能帮助搜寻罪犯并定罪。

想象一下，你在火车上的卫生间洗手，无意中听到一名陌生人和他朋友在火车连接处跟人打电话，谈论着他最近实施的一起抢劫。你看不到这个人的脸，但你能听到他的声音——你注意到他似乎有一种奇怪的口音。然后，你一下火车就报警说了这件事。

几天后，警察告诉你，他们已经逮捕了一名嫌疑人，希望你去警局一趟听一听声音，帮助确认一下这个人是不是那天听到的。于是你听了九段不同的录音，其中只有一段录音是嫌疑人的，而其他的声音都是对照。每段录音持续一分钟，当你听完九段录音之后，你就需要辨认火车上的那个人是谁。你发现这太难了，而且这些声音听起来太相似了，你对你自己的决定也似乎没什么信心。不过，你最终选择了一个声音，警察向你表示感谢，然后你就回家了。过了几周，你发现你选择的那个人是犯罪嫌疑人。

声音辨认可作为一些法庭上的证据，帮助对嫌疑人定罪。我们应当信任声音辨认作为证据吗？心理学研究表明，亲听证人的证据不大靠谱，他们很可能会从几个不同的声音中选择了错误的人[1]。如果这种证据被用于法庭定罪，那么错误的人就可能会送进监狱，而真正有罪的人则可能逃脱惩罚。

声音辨认之所以困难，主要有三个原因。首先，当我们识别一个人时，我们通常记住的是这个人的脸而非他们的声音。其次，当我们听一个人说话时，我们往往更专注的是他们说的内容，而不是他们声音听起来如何。最后，我们的记忆并不像相机或录音机那样工作，你之前听到的声音，并不意味着你之后能够清楚的记住这些声音[2]。

记忆是如何工作的？

心理学家经常将记忆分成三个不同的阶段（图1）。编码阶段发生在你形成新的记忆时（就像你无意听到那个讨论抢劫的嫌疑人）；存储阶段对已经编码的记忆进行加工（就像你去警局帮忙确认之前的几天）；提取阶段则是指当你读取自己的记忆时（当你试图分辨火车上的那个人的声音）。

图1 - 记忆的三个阶段。

不过，记忆过程是十分不稳定的，在这三个阶段中的任何一个都有可能出现问题。记忆的内容也不一定准确，这种失真过程很可能在你没有注意到的情况下发生着。你很可能以为自己从这个声音中准确的识别了一个人，但事实上你识别的是错误的；同样的，你可能对自己的决定非常缺乏信心，但这个决定也有可能是正确的。就算你对声音的记忆非常准确，你作出的决定也可能被你的心理期待所影响。如果你认为警方确实抓到了正确的人，你可能会将9个声音中的一个指认为嫌疑人；但如果你认为警方抓错了人，你可能会选择谁也不选。

考虑到上面所说的复杂的记忆阶段，亲听证人所作出的证词不一定可惜。为了知晓亲听证人的判断在多大程度上可信，我们不妨深入了解一下记忆在编码、存储和提取阶段中可能出现的问题。

哪些因素影响声音辨认的准确度？

许多因素可能影响声音辨认的准确度。在对亲听证人的研究中，这些因素可分成两大类：估计者变量（estimator variables）和系统变量（system variables）[3]。

估计者变量

估计者变量是指能影响证人对案件的记忆和提取过程，但司法系统无法控制的因素。它们会在编码和存储阶段影响记忆的准确性，与证人品质、嫌疑人特征、事件发生环境等有关。估计者变量之所以叫估计者，是因为警察不在现场，因此他们只能估计这些因素对记忆的影响。对估计者变量与事件的相关性分析有助于预测亲听证人的证词的准确度。不过，估计者变量对相关记忆的损害是不可逆转的，一旦发生就无法恢复。

以火车听到的谈话为例，这里存在几个估计者变量。一个是熟悉度，即你对一个人的声音的熟悉程度。你对一个人的声音越熟悉，你就越可能在九段录音中准确地识别出这个人；如果你从未见过一个人，那么识别起来就比较困难[4]。在火车上无意中听到一个陌生人的声音，想必声音排查会相当困难。

另一个估计者变量是持续时间，即你听到一个人说话的时间[5]。你听的时间越长，你越可能听到更多的词语和声音变化，你就越容易将这些信息与九段录音中嫌疑人的声音匹配起来。假如，你在火车上听到了接近五分钟的话，这比只听两三句要有用的多。

最后一个估计者变量是声音的独特性。每个人的声音都不一样，但有些声音很有特点，与其他声音迥然不同。与普通的声音相比，你更有可能识别出一个有特点的声音[6]。在上面的例子中，火车上的陌生人有不太常见的口音，这使得你做选择容易得多。

系统变量

系统变量是指能影响证人提取记忆过程并作出决定的因素，这些是可以一定程度上可以避免的因素。系统变量与九段音频的播放和询问有关。如果安排得不好，这些系统变量会影响记忆提取阶段；但这些因素可以通过培训加以控制，以尽量减少对音频记忆的负面影响。

一个系统变量是询问的流程。在上面的例子中，你先听完了所有九段音频，才判断嫌疑人是谁。不过，你也可以听一个判断一个。不同的顺序可能会影响辨别声音的能力。研究人员目前正在研究哪一种流程更适合于声音辨别。

另一个系统变量是对照音频的组成。一些研究者认为，选择其他人声音作为对照时，应当选择声音和嫌疑人较为相似的声音，这样可以让嫌疑人的声音不会太突出，从而保持不同音频的公平性。不过，当声音变得相似时，辨别的难度也提高了。这可能是你在上面那个例子里感觉缺乏信心的原因。

最后一个系统变量是音频的时长。之前的九段音频，每段播放了将近一分钟，这是相当长的一段时间了。你或许会以为，听更长时间的录音或许能帮助你比较记忆中的陌生人声音，但研究发现并非如此——听较短的录音不会增加出错的几率[1]。另一方面，听较短的录音可能还有一些好处，这样亲听证人可能不会因为长时间听同一段录音而失去注意力。

结论

你认为你会是一名合格的亲听证人吗？当你读完此文、了解了这些信息之后，你觉得你能从不同录音中听出那个火车上的陌生人吗？你可以再思考下估计者变量和系统变量对你的影响。记住一个声音并从一系列声音中辨识出来并不是一件容易的事，而研究人员也正努力改进这个过程以确保这个流程更公平。

参考资料

[0] Smith H, Pautz N and Mueller-Johnson K (2021) Is It Possible to Identify a Criminal by Voice Alone?. Front. Young Minds. 9:689812. doi: 10.3389/frym.2021.689812
[1] Smith, H. M. J., Bird, K., Roeser, J., Robson, J., Braber, N., Wright, D., and Stacey, P. C. 2019. Voice parade procedures: optimising witness performance. Memory. 28:2–17. doi: 10.1080/09658211.2019.1673427
[2] Johnson, E. L., and Helfrich, R. F. 2016. <a>How brain cells make memories</a>. Front. Young Minds. 4:5. doi: 10.3389/frym.2016.00005
[3] Wells, G. L. 1978. Applied eyewitness-testimony research: System variables and estimator variables. J. Pers. Soc. Psychol. 36:1546–57. doi: 10.1037/0022-3514.36.12.1546
[4] Yarmey, A. D., Yarmey, A. L., Yarmey, M. J., and Parliament, L. 2001. Commonsense beliefs and the identification of familiar voices. Appl Cogn Psych. 15:283–99. doi: 10.1002/acp.702
[5] Cook, S., and Wilding, J. 1997. Earwitness testimony: Never mind the variety, hear the length. Appl. Cogn Psych. 11:95–111. doi: 10.1002/(SICI)1099-0720(199704)11:2
[6] Stevenage, S. V., Neil, G. J., Parsons, B., and Humphreys, A. 2018. A sound effect: exploration of the distinctiveness advantage in voice recognition. Appl. Cognitive Psych. 32:526–36. doi: 10.1002/acp.3424

听个声儿能抓坏人吗？