知乎作者:李嘉铭
上一篇: 自然语言处理简史 – 开端
语言学 – 发明语言
对你来说,人能够发明一门语言可能不是什么十分能让人惊讶的事情,因为你随时随地都能见到语言的某些部分产生变化,比如社交网络上产生的新的流行语,或者你和你的朋友交流时会用暗号来拿过去发生过的事情开玩笑。指环王的作者托尔金为了写他的小说,创造了精灵语、矮人语以及其他一系列奇幻世界的语言。仅为了写小说、凭一个人就能创造一系列有着丰富底蕴的语言的托尔金在许多人眼中十分酷,但更加厉害的是,其实他不是为数不多的有创造语言能力的天才。事实上,只要被放在合适的环境和在合适的年龄,谁都可以创造新的语言。
指环王里被刻在至尊魔戒上的精灵语
什么是语言?
在说语言是怎么被创造出来的之前,我想稍微谈谈什么是语言。如果语言只是一种交流的方式的话,那其他动物有没有语言呢?狗会叫,鸟能唱歌,蜜蜂能通过跳舞和化学物质来告诉同伴几公里外有敌人或者食物。所以人的交流方式和动物的有什么区别?如今的共识是只有大脑占体重比例最大的人类才拥有学习和发明如此复杂的交流系统。虽然有些动物,如Kanzi和Chantek学会了美国手语,他们的语言水平只相当于四岁的人类儿童。智能是通往拥有语言能力的第一步,而语言是一种复杂到足够能表达纷繁的人类思维的通讯系统。
Chantek – 一只学会了美国手语的猩猩
语言能力是天生的么?
人拥有许多其他动物无法拥有的能力。我们能做饭,研究数学,务农等等。这些普遍被认为是一项科技,而不是人与生俱来的能力。语言是否也如众多人类科技一样,是被某个人偶尔发现的?或者语言其实是人与生俱来的、不用正规的教学就能掌握的能力?科学家至今仍在争论这个话题,但有一定的证据表明,至少某一些语言能力是被印刻在我们每个人的脑子里,而不是后天教会的。
全人类语言的共性
每个人不论生长在哪儿,走路的方式都多多少少一样,仔细想想的话这点其实很神奇,这表明每个人走路时用到的肌肉和脑内部分都和其他人的有一些共通性。同理,对于语言来说,如果我们能够在全人类的所有语言中找到一些共性,那这些共性就能够为“语言能力是被刻在基因里的”这一论点提供有力的证据。
据全球最佳的语言学方面网站–民族语言网的统计,全世界一共现存6909种仍被使用中的语言(引用自Number of languages)。每个语言都和其他的有所不同,比如语言中句子成分的先后顺序就不一定一样。日语中的动词是被放在句子的末尾,而英语中的动词通常在主语和宾语之间。例如:
I ate an apple.我 吃了 一个 苹果私 は リンゴ を 食べた。我 (话题提示词) 苹果 (宾语提示词) 吃了.
又例如Linguistics Society指出的,在威尔士语中,动词通常是在句子的一开始的,之后才是主语和宾语。
The student bought the book.这个学生买了这本书。prynodd y myfyriwr y llyfr买了 这个 学生 这本 书
语言中的发音似乎也非常的随机,它的证据之一是,不同语言中对同一个动物的叫法都不一样,并且几个世纪之前词的发音和现在相比也发生了很大的改变。语法也不例外,如果你学过语法或者尝试过和不以中文为母语的人解释中文语法的话,你很快就会发现其实很多事情你也说不清。我曾经学英语的时候我老师就把“英文语法就这样的”当作很多事情的解释。
所以,在6909种现存语言和无数的消亡的语言中,有任何共性么?
答案是肯定的,事实上科学家们发现了好些,以下列出其中的四个共性:
所有的语言都有名词,动词,物体,和代词(如你、我、他)
所有的语言都至少有两个元音(如a,i,u,e,o之类的)
所有的语言都至少有三种不同大小的语法单位:词、短语、以及句。
如果一个语言会把形容两个物体的代词和单数代词区分开的话(如中文中形容两个物体的代词有:我们,他们等),那这个语言一定也会把两个以上物体的代词和单数代词区分开。(摘自scribd.com)
这些证据表明语言的基础结构是存在于我们的基因中的,这也是史上著名的语言学家诺姆·乔姆斯基所提出的普遍文法中最重要的理念。而更加神奇的是,当新的语言被发明出来的时候,他们也必定会遵循同样的这些共性。
发明一种语言
在哥伦布发现新大陆后不久的十六世纪起,残酷的奴隶贸易从非洲绑架了1000万余人。这些不幸的非洲奴隶们大多都在种植园上度过了他们剩下的一生,他们来自于不同的区域和部落,并且互相之间语言不通。事实上奴隶主会有意的把说不同语言的非洲奴隶们放在同一个种植园上,因为如果奴隶之间语言不通,互相之间无法沟通的话他们就不会团结起来引发叛乱了。由于要和其他奴隶工作并要从奴隶主这边接受命令,许多第一代的非洲人奴隶们从奴隶主这边学会了一些语言的碎片,这些碎片大多是词、短语、以及残破的句子,词汇量非常有限并且没有系统的语法结构。
这种语言的碎片被称作混杂语言、皮钦语(pidgin),或者俗称洋泾浜。世界各地都能找到皮钦语,只要去那些两批或者更加多的说不同语言的人互相接触的地方就可以了。在皮钦语中,不同语言中的词会被借用来当作新的用法,例如eyeofhawaii.com中提到的,夏威夷皮钦语中的“brah”是英语中兄弟的意思(现在也在英语俚语中被经常用到),而”cockaroach”、蟑螂的意思在那里变成了偷窃。
话说回美国的种植园,当奴隶们结婚的时候,他们一般也是和自己说不同语言的人结的婚。夫妻们之间以及和孩子们的交流都是用的皮钦语,而那些从小听混合语言长大的孩子们接下来做的事情让研究者们大为惊讶。
当那些小孩听到支离破碎的词和短语时,他们自发的试图填补那些空缺的语法部分。比如如果他们父母说的混合语言句子中似乎少了一个暗指的宾语时,小孩们会把宾语填上。如果家长们不知道一些词怎么说,小孩们会试着把其他词组合起来。根据《语言的本能》中记载的,”go”、”stay”、”came”之类的简单的英文单词在夏威夷克里奥耳语中,会被系统性的用作如助动词、介词、用来标记主格和宾格之类的格标记、以及关系代词等。甚至我们熟悉的英文中表过去式的“-ed”也有可能是从do的过去式“did”演变过来的,所以古老的英语中可能会把“he cooked”写成“he cook-did”。
不仅如此,当那些奴隶的小孩们聚在一起的时候,他们各自的语言开始融合成一种新的语言。如果孩子们不喜欢一个词的发音会怎么样?他们就直接想一个新的发音拿来用。如果他们觉得某个语法不符合他们的逻辑的话,他们就会用一种符合他们自己逻辑的语法说话,无论那种新的语法符不符合原来的语法。这种语言被称作克里奥尔语(Creole),克里奥尔原意为“混合”,而克里奥尔语指的是母语环境为皮钦语的人们所说的语言。那些孩子们发明了自己的全新的语言,以及自己的一整套词汇、新的语法、之后也生下了新的使用这些语言的人们。
奴隶家庭的照片
这些奴隶的孩子们正是新语言的缔造者。
克里奥尔语对我们当今的语言有着重大的影响,比如在美国时常听到的美式黑人英语就有可能是一种基于英语的克里奥尔语,”Don’t nobody know the answer, Ain’t nothing going on.”之类的句式在美式黑人英语中完全符合它的语法,但并不符合普通英语语法。克里奥尔语给我们展示了语言是如何被借用、创造、并不断的改变的,并且所有被创造出来的克里奥尔语都仍旧符合其他人类语言的共性,比如之前提到的“所有语言都有三种不同大小的语法单位”之类的。即使克里奥尔语的发明者们大多小学都没上过,他们仍然用他们的克里奥尔语给我们展示了人类神奇的语言天赋。
在下一篇语言学相关的文章里,我打算说一说孩子学习语言时的趣事,我们能从孩子学习语言的过程中看到人类是怎么样理解语言的,并且这些理解能够如何帮助我们自然语言处理的研究。如果你有其他感兴趣的话题,请联系我。谢谢阅读!
引用:
The Language Instinct
History of African American English in the U.S.**
Pidgin language example
Nigerian Pidgin Wiki**
图片源:
The Ring
Chantek
Slave family