根据资料记载,我们可以推测古希腊人的穿着和生活方式,以及他们的竞技方式,但他们的思想发展却很难推测。对这方面的争论一直是哲学的焦点,一种理论是人类的思想活动包括想象,自我意识和做梦的根源是一样的,二是社会的变迁不仅对文化的形成有所影响,对人类思想的建构也意义深远。
那么,除了哲学的方式,用科学的方法是否也能探究古希腊人的思想状况呢?
既然我们可以通过砖石重建古希腊的城市,那我们是不是可以通过考古记录,化石和聪明才智来复原古希腊的文化呢。
古希腊关于精神研究的历史
通过对人类文化的古老书籍进行心理方面的分析,JulianJaynes在七十年代提出了一个大胆的假设,就是三千年前的人类都是精神分裂症患者。因为从当时的书籍来看,尽管传统和地域不同,但他们却有一个长期的共同行为,就是他们总是听到并遵从神或者缪斯的旨意,这在我们看来就是幻听。后来随着时间的推移,他们逐渐意识到这些声音来自于他们自己身体内部,他们开始反思自己的想法,获得了反省能力。
所以,Jaynes的理论是,自我反省即我们是自身存在的主宰这种认知,是近代文化的产物。这个理论虽然轰动一时,但有个明显的问题是样本的数量和丰富性都不够。所以,自我反省在三千年前就出现了这个理论是否能用量化和客观的方式进行检验。而且最本质的问题是我们需要找到自我反省这个词是何时出现的,因为在我们研究的书籍中并没有找到它的身影。
词语空间的创建
为此,我们构建了一个词语空间,它包含所有的词语,空间中词语之间的距离体现了它们的相关性。例如,猫和狗这两个词距离很近,但西柚和对数这两个词却很远,空间中任意两个词之间的距离都遵循这个原则。
构建词语空间有很多方法,一种是请教专家,跟我们求助于词典很相似。另一种是遵循一个原则,即如果两个词语是相关的,它们会经常同时出现在一个句子,一段话或一篇文章里。在这个假设的基础上,引入计算机技巧,就能创造出一个非常复杂且多维度的词语空间。
为了大家更好的理解,请看下面的这张图,这是我们进行分析的结果,你可以看到,相近的词会自动的汇集到一起,比如水果,身体器官,电脑零件和科学术语等。
这个算法还体现了我们构建观念时的分级制度,比如科学这个大分类下面还有天文学和物理学两个小分类,而且更精确的是,比如,天文学这个词,看起来位置好像很尴尬,但那确确实实就是它应该的位置,因为,天文学既是一门科学,同时又是一个天文学术语。
我们可以反复做这个事情,事实上,当你盯着这个看的时候,你会不由自主的从这个词跳到那个词,感觉就像写诗,在词语空间遨游就像在你的思想疆域里漫步一样,非常美妙。
词语空间是否推测历史上一些观念的产生过程呢?
回到我们的初衷,可以发现,这种算法验证了我们的直觉,与内省相关的词都排列在它的周围,比如“自我”,“歉疚”“理由”“情感”,而不相关的词如红色,足球,蜡烛香蕉等都离得很远。
所以,一旦我们建立了词语空间,对于内省或其它抽象和模糊的观念性词汇,我们都可以用科学量化的方式追根溯源。我们要做的就是把书籍数据化,以词语流的方式输入到词语空间里,然后观察每批词语流最后落到的位置是否离内省这个词很近。
因为有详细的文字记录,运用这个方法,我们可以分析古希腊传统中内省这个词出现的历史过程。我们把这些书籍按时间排序,每一本的词我们都输入到词语空间里,看这些词离内省这个词的远近,取一个平均值。然后我们观察,是否随着时间的推移,这些书里的词语离内省这个词越来越近呢。
我们发现,年代最久远的荷马史诗年代的书籍与内省这个词的距离的缩短过程比较缓慢,而到了耶稣记年前的四世纪,这些书籍与内省之间距离缩短的速度飞速增长,几乎是之前的五倍。这启发了我们,对于其它文化传统,是否也可以用这种方式研究呢?
后来,我们也用同样的方法研究了犹太和基督教,发现模式都很相同。旧约全书年代的书籍增长速度缓慢,新约全书时代迅速增长,圣奥古斯丁忏悔录时达到了峰值,离内省这个词非常近。这非常重要,因为圣奥古斯丁被学者心理学家和历史学家们公认为是内省这个词的创造者,甚至有一些人尊他为现代心理学之父。
这种算法,可以帮助我们在漫长调查中迅速得出一些重要的结论,而且它具有可量化,客观性,速度快(有时只需几分之一秒)的优点。这也正是科学的美妙之处,因为它同样适用于科学研究的其他领域。
词语空间是否能预测未来精神状况的走向呢?
既然我们可以追溯历史上某个观念的形成过程,那用同样的方法,对于未来的观念发展我们是否能预测呢?也就是说,我们今天说的话是否隐藏了未来几天,几个月甚至几年的思想发展信息。
就像我们今天佩戴感应器来测量心率呼吸和基因来预防未来疾病的发生,那么监测和分析我们所说所写的词语,是否也能帮助防止我们将来在思想上生病呢?我和我的兄弟Guillermo Cecchi开始了这项研究。
我们分析了34个年轻人的演讲记录,这34个人将来患精神分裂症的几率很大。我们先把他们一天的记录输入到词语空间里,然后观察是否能预测未来三年内他们精神病的发病几率。尽管我们抱有希望,但还是失败了很多次。还是没有足够的信息能预测他们精神活动方面的走向。这些词语可以很好的判断精神病人和正常人,但不能很好的预测精神病的发病几率。
新的衡量标杆--语义一致性出现的意义
我们突然意识到,也许最重要的不是他们说了什么,而是他们是怎么说的。具体来说,重要的不是这些词语体现了哪个语义,而是他们说话时,从一组同义词跳到另一组同义词 这两组同义词之间的距离,以及转换的速度。所以,我们创造了一个新的衡量标准即语义一致性,语义一致性是指当你在讲一个话题时的思维一贯性,而不是频繁的从一个话题突然跳到另一个无关的话题。
我们用语义一致性这个标准进行检测,发现它能百分百准确预测这个34个人,谁会患精神病,谁不会。而这是任何其他现有的医学手段都望尘莫及的。
我很清楚的记得,我在做这项研究的时候,无意中看到了以前在Buenos Aires的一个学生Polo在tweets的留言,他现在住在纽约。在这个留言中有某种东西,我说不清是什么因为留言本来也是模糊的,但是我强烈的感觉到不对劲。所以我打电话给Polo,事实上他当时确实是有些问题。从字里行间能体验到别人的感受,是一种非常有效的援助方式。
我想说的是,今天,我们正在努力把我们都具有的这种直觉转化为一种算法,而且,我们离这个目标已经越来越近。未来,我们也许有一种客观可量化和自动化的算法来分析我们的所说所写来帮我们构建更加健康的心理状态。 通过一种客观可量化自动化的方法分析我们的所说所写,我们能构建更加健康的心理研究机制。