linguistats | 数据告诉你，刘欣的英语还有哪些需要提高的地方？

我所说的一切都可能是错的！
即使你赞同我的观点，你的生活也不会因此有任何改变！
除非——你采取了相应的行动。

（这是书先生的第172篇文章。本文约5300字，请花14分钟来阅读。）

引子

好了，今天我们再来看下句法复杂度。如果你对这句开场白感到莫名其妙，那请猛戳这里。

在开始我们的分析前，我想感谢一下读者们的热情支持。很多读者留言说我的文章让他们看到语言学研究是如此有趣。这种评论对我是莫大的鼓舞——这正是我想达到的目的。我目前是一名在读语言学博士，主要做认知语言学和量化文本分析。我热爱自己的专业，也希望更多人能够了解这个学科，甚至能够爱上这个学科。

不幸的是，非语言学的人往往对这个学科有点误解。很多人一说起语言学，想到的可能是文学，或者脑子里跳出的就是主谓宾定状补。甚至有人问我：你们语言学研究是不是就和语文课上归纳中心思想段落大意一样？这不是在开玩笑，而是在我身上真实发生的事情。而且问出这个问题的那几个人也是博士，只不过不是语言学专业的。

所以，我总觉得自己有一种使命，要做一些语言学的科普，让更多人了解语言学，减少大家对我们学科的误解。我最想传达出去的观点是：语言学是一门科学。让我感到高兴的是，写了近200篇原创文章后，这种观点似乎得到越来越多人的认可。这实在是让我很有成就感。感谢大家的支持。

有支持当然也就有批评。有读者批评说，仅仅词汇复杂度不足以衡量一个人的语言水平。我同意这种说法。但同时我们也不应该忽略，的确有不少研究表明词汇复杂度和句法复杂度和语言水平呈正相关。所以，如果有人说这种分析毫无意义，我就不能同意了。也许里面有一些指标有改进的空间，但分析工具需要改进，正是我们努力的方向，据此就全盘否认这种量化分析，这对学科来说是自掘坟墓的做法。

不过，像这样的建设性批评，我很乐于看到，因为它能促使我思考，帮助我进步。总之，无论是对赞赏还是批评，我都深表感谢。我写过一篇短文，表明过我对各种态度的反应，有兴趣的话，你可以点开这里看一下。

好了，下面言归正传。

基本单位及其定义

从上篇对词汇复杂度的分析中，想必你已经看出，用于分析的指标其实都是对基本单位进行的计算。句法复杂度分析也是一样，我们首先需要知道有哪些基本的句法单位。下面我就列出分析将会用到的基本句法单位和他们的定义。其中一些你已经非常熟悉，而另一些可能暂时有点陌生。不管是哪种情况，看完这篇文章，你也可以做句法复杂度分析了。

为了帮助大家理解，我先放几个比较复杂的英语句子在前面，作为例子。句子来自最近一期的《经济学人》。

Why are labour markets so buoyant? This is in part a cyclical phenomenon. Economic growth tends to push unemployment down. The recovery from the financial crisis is a decade old. In part because of appropriately lax monetary policy, America is about to achieve its longest-ever period of economic expansion. Meanwhile, lingering uncertainty related to the financial crisis and the rise of populism may mean that firms are keener on hiring staff than on devoting large amounts of capital to investment, which is harder to undo. The post-crisis period has also been characterised by rapid growth in the service sector, which is more labour-intensive than industry. For all these reasons it is no surprise that unemployment is relatively low. (引用自《经济学人》）

句子（sentence）：由句末标点符号——句号、问号、感叹号和省略号——分开的语言单位。比如上面的引文中，有1个问号，7个句号，所以上面一共有8个句子。
小句（clause）：包含一个主语和一个限定动词的语言单位。一个单句也算一个小句，主从句中的主句和从句分别都是小句，复合句中的每一个分句也都是小句。比如上面的This is in part a cyclical phenomenon.是一个小句，which is more labor-intensive than industry也是一个小句。显然，一个句子中可能有多个小句。
从句（dependent clause）：句子中充当主句定语、状语、主语或者宾语的小句。
T-单位（T-unit）：这可能是一个大家不是很熟悉的语言单位，但解释起来也很简单。T-unit就是一个主句+n个从句构成的语言单位。需要注意的是，这个n可以等于0，也就是说一个单句也是T-unit，一个复合句里面的分句也算T-unit。
复杂T-单位（complex T-unit）：n≥1的T-unit。一个主句可以有多个从句，但不管有多少从句，只要主句只有一个，就仍然是一个T-unit，只不过看上去复杂一点。
并列短语（coordinate phrase）：由连接词连接两个或以上动词、形容词、副词或名词构成的短语，比如young and beautiful, quietly but quickly，再比如上面文段里的lingering uncertainty related to the financial crisis and the rise of populism。
复杂名词结构（complex nominal）：这个语言单位包含3大类：1）名词加上修饰它的形容词、所有格、介词词组、定语从句、分词或者同位语等；2）名词性的从句，即做主语、宾语、表语或者同位语的从句；3）做主语的动名词和不定式。在上面的文段中，lingering uncertainty related to the financial crisis就是一个复杂名词结构。中心名词是uncertainty，它受到两个分词修饰，前置的现在分词lingering以及后置的过去分词结构related to the financial crisis。同样的，the recovery from the financial crisis也是一个复杂名词结构，中心名词短语the recovery受到后置的介词短语from the financial crisis的修饰。请注意，单独一个冠词+名词不是复杂名词结构，比如the recovery如果没有其它修饰，就不是复杂名词结构。显然，越复杂的文本，其中的复杂名词结构就越多。
动词短语（verb phrase）：限定动词和非限定动词都属于这一类。很多讲语法的喜欢用谓语动词和非谓语动词这样的术语，我个人不是很赞同。原因有机会再说。注意，在句法分析中，动词短语是包括动词后面的宾语和修饰动词的状语的。比如，上面文段中tends to push unemployment down就是一个动词短语，is a decade old也是。

好了，有了这些基础知识，我们就可以进行句法复杂度分析了，因为我们用于分析的指标都是基于这些句法单位频率的计算。

在分析之前，我有必要提醒读者，口语文本的句法分析在准确度上不如书面文本的分析准确，因为口语中会有很多重复、修正，还有过多使用的连接词，一些句子可能语法还不规范，这些都会影响计算的准确度。不过，我读了一遍两位主持人的发言，觉得她们两位在上面提到的这些方面，都问题不大——不愧都是高水平使用者。

句法复杂度

以下分析采用的是宾州州立大学陆小飞教授2010年论文的指标。在论文里，陆教授用了14种指标来衡量文本的句法复杂度，这些指标被分为5大类。方便起见，我直接从陆教授的论文里截图如下：

句法分析指标

产出单位长度（length of production unit）

产出单位长度包含三个指标：平均句长（mean length of sentences, MLS），平均T-单位长度（mean length of T-units, MLT）和平均小句长度（mean length of clauses, MLC）。产出单位越长的文本句法复杂度越高。

基本单位数量和产出单位长度比较

上表是两位主持人基本单位数量和产出单位长度的比较。鉴于分析的样本很小，我只高亮差异超过20%的指标较大的值。上表中有两条有意思的数据：1）刘欣比翠西多使用了一倍的并列短语；2）刘欣的句子平均比翠西长20%。

这两条互有联系，同时也各有原因。它们的联系就在于，当你并列短语用得多，平均句长自然会增加。它们各自背后的可能原因更有意思。

通过观察两位的并列短语，我发现刘欣使用的并列短语有些并非必要，而是同义重复，两个典型例子如下：

We don't want to be, you know, dwarfed or poor, or underdeveloped all the time, but it depends on how you define developing country, right.

Well, we would like to define a socialism with Chinese characteristics where the market where market forces are expected to play the dominating or the deciding role in the allocation of resources.

在上面的句子里，dwarfed, or poor, or underdeveloped其实意思差不多。dominating和deciding的意思也差不多。它们其实并没有为句子贡献新的意思，只是强调了同一个意思。

这是一个有意思的现象。我个人的观察（没有经过数据验证），外语学习者比母语使用者更喜欢这种重复。原因我只能推测，或许是对用词的不自信，也或许是为自己争取时间。

虽然这是一个未经验证的假设，但它是一个好假设，因为它可以被证实，也可以被证伪。实际上，可以被证伪这一点更重要。你会同意这种说法，如果你读过卡尔·波普尔的作品。所以，如果这个题目还没有人研究过的话，你可以尝试搜集更多的数据来验证一下这个假设。

比如，你可以分别建立一个英语母语使用者和英语外语使用者的口语语料库，从里面提取出所有的并列短语，检验是否外语使用者更喜欢“同义反复”。不要觉得这个很麻烦，无论是提取和检验现在都有很好的技术手段来处理，不需要太多人工，准确率也很高。

提取部分，你先用stanford parser标注你的语料库，然后用Tregex就可以提取你想要的东西。至于检验，也不难，你只需要使用词向量模型（word to vector）来检测并列短语中单词的相似度就可以了。python有不少库可以作这个，比如spaCy。如果有点机器学习的基础，做起来就更容易。

看，我为你提供了假设，也提供了研究方法。如果你感兴趣，并且去做了，记得give me some credit哦。你可能会问，我为什么不自己去做呢？原因很简单。我现在除了在公众号做点科普，就是专注于自己的博士论文题目，与论文题目相隔比较远的研究题目就暂时放在一边。

另外，因为我平时对这些语言现象比较敏感，也愿意花点时间去“把玩儿”小数据，经常会碰到自己觉得值得研究的问题。有了假设我就用evernote记下来，现在积累的研究问题已经接近100个了。（悄悄的说，我公众号文章的题目库里已经积累了将近300个未写题目了。在开公众号之前，我已经在网上发表过大约300篇原创文章，开公众号后，又发表了170多篇。而现在还有200多个题目没有写。所以，我只缺时间，不缺题目。）想着我这辈子应该还能活个几十年，挨个去做吧。或者以后带研究生了，把题目分给他们去做——嘿，想着就让人兴奋。

现在我们再来看翠西和刘欣的平均句长。刘欣的平均句长高于翠西，一个可能的解释是，刘欣的发言书面化程度更高。书面语的句法复杂度远高于口语，句子也要长得多。上一篇文章的留言里，也有读者也提到这个问题，他们认为刘欣用filler较少或者动词更难，或许是因为刘欣说话更书面化。这是一个很合理的解释。

这里，我需要顺便更正一下上一篇文章里的一个结论。感谢一位读者的提醒。使用filler虽然会使你的口语显得更native，但并不是值得提倡的习惯。实际上，正式场合应该减少对filler的使用。所以，最后结论里的加强对filler的使用教学，应该改为稍微提高学习者对filler的意识——武器可以不用，但武器库里要有。

需要注意的是，句子长不一定说明句子更复杂，我们马上就可以看到。

句子复杂度（sentence complexity）

句子复杂度用小句和句子之比来表示（C/S）。在这个指标上，刘欣（2.4045）比翠西（2.1034）高大约14.3%。单从这个指标说明不了什么问题，因为我们不知道小句的类型。我们知道，从句比并列复合句要复杂。如果刘欣用的并列复合句比例很高，那么即使刘欣这个指标更高，也不能说明刘欣的句子更加复杂。所以，我们要看下一个维度。

从属复杂度

从属复杂度通过4个指标来衡量：小句和T-unit的比值（T-unit complexity ratio, C/T），复杂T-unit在总T-unit中的占比（complex T-unit ratio, CT/T），从属小句在总小句中的占比（dependent clause ratio, DC/C）和每个T-unit中从属小句的平均数（dependent clauses per T-unit, DC/T）。下表是两位主持人在这个维度的比较。

从上表可以看出，翠西有两项指标都超过刘欣20%以上。这表明，虽然刘欣的句子更长，但是翠西的句子可能更加紧凑。为什么用可能呢？因为虽然从句比并列复合句紧凑，但是还有比从句更紧凑的，那就是非限定动词结构。所以，到底是哪种情况，还要看另外两个维度。

并列复杂度

并列复杂度通过3个指标来衡量：平均每个小句中的并列短语数量（coordinate phrases per clause, CP/C），平均每个T-unit中的并列短语数量（coordinate phrases per T-unit, CP/T），以及T-unit数量和句子总数的比值（sentence coordination ratio, T/S）。因为T-unit只考虑从句情况，所以T/S可以反映出一个句子平均有多少个分句。我们可以推测，刘欣在这个维度会占优，因为她使用的并列短语在数量上是翠西的两倍。数据也的确如此。

数据表明，刘欣在这个指标上大幅占优。但正如前面的分析，这可能是因为刘欣更倾向于“同义反复”。

特殊结构

现在我们来看最后一个维度，特殊结构。这个维度通过三个指标来衡量：平均每个小句中复杂名词结构的数量（complex nominals per clause, CN/C），平均每个T-unit中复杂名词结构的数量（complex nominals per T-unit, CN/T）和平均每个T-unit中动词短语的数量（verb phrases per T-unit, VP/T）。前两个指标和概念复杂度有关，学术论文中复杂名词结构就非常多。后一个指标可以反映句子的紧凑程度，因为一个T-unit中动词短语越多，非限定结构相应越多。

image.png

分析表明，两位主持人在这三个指标上打了个平手。也就是说，刘欣的句子也并没有包含更多的非限定结构。

结语

好了，通过上面的分析，我想我们可以得出以下两个结论：

刘欣的句子虽然更长，但是句子的紧凑程度不如翠西。这意味着表达相同的意思，刘欣可能需要比翠西使用更长的篇幅。考虑到刘欣用词可能更难，这说明刘欣的英语还不够简洁。这是需要提高的地方。
刘欣的并列短语中，同义反复的地方不少。这需要有意识的纠正一下。

上一篇文章中，我们通过词汇复杂度，了解了刘欣英语好在什么地方。今天，通过句法复杂度的分析，我们又发现了刘欣英语中可以提高的地方。数据分析是不是很有意思？嘿嘿，我也这么觉得！

当然，这些结论可不仅仅是针对刘欣而言，这对我们的英语学习和教学都有参考价值。我希望通过对这场对话的简单分析，让作为读者的你对语言研究有了不同的认识，对自己的英语学习或者教学也有了新的启示。如果我的这个目的达到了，请一定要在留言中告诉我，让我高兴高兴。

福利

上一篇文章的留言中，有朋友提到，如何更准确的测量双方用词的难度。有一个叫range的软件可以做到。这是词汇研究的大牛Paul Nation参与制作的，软件很小，使用也很简单。软件内置的词表是根据British National Corpus（BNC）制作。

如果你想自己“把玩儿”语料库，推荐使用北外许家金教授等参与设计的BFSU Power Conc。这个软件轻量，而且免安装，功能也强大，很适合初学者“玩儿”。

你也不用到处去找这两个软件了，我已经打包放在云盘了。你只需要在公众号后台回复“软件”，就可以获取下载地址。

另外，伯明翰杨大学的Mark Davies做了一个网站（没错，就是大名鼎鼎的COCA的制作者，我写开题报告时还请教了他一些问题），这个网站可以很直观的显示文本的词频分布，效果如下：

网址在这里：https://www.wordandphrase.info/analyzeText.asp
有空慢慢把玩儿吧。儿童节虽然已经过去了，但不要忘了保持儿童的好奇哦。

感谢阅读，欢迎分享。如果喜欢，请猛戳“在看”。

linguistats | 数据告诉你，刘欣的英语还有哪些需要提高的地方？