数理统计学充分佐证:《红楼梦》后40回并非曹雪芹所著!

自《红楼梦》问世200多年以来,学术界一直在争论后40回的作者是谁,也有一部分观点认为,后40回与前40回是都是曹雪芹所著。

今天我们就采用数理统计的方法,证明后40回与前80回非一人所著。这种数学上的证明,我们主要依据的是几个公认的前提。

第1个前提:

中文是一个超稳定的文字结构系统。这已是语言文字界的共识,也是老百性的共识。中文在秦朝至今的二千多年的时间内,保持着绝无仅有的稳定状态,这在全世界是独一无二的。因此,我们能比较容易读懂《诗经》中优美的诗句,稍具古文功底,也能读懂二千多年前的《史记》。这是我们中国人文化上独得天眷的一个重要方面。全世界独此一家,别无分店。因此,我们中国人没有理由不继承好自己数千年来的传统文化的精髓。

写几行C++代码,统计《史记》,便得到不同长度的句子出现的频率表:

句子长度出现频率

可以看出,长度为4的句子,是频率最高的。四字成语,也是我们的常用词。将上面的表格,转为下面的折线图,可以看得更为清晰。

《史记》中,句子长度与出现频率的折线图


从折线图可以看出,频率表现为一个山尖形。而4字句,其频率异乎寻常地高。

再对比一下《史记》与《明史》这二本相距约1800年的史籍,可以感觉出中文的结构稳定性。

《史记》与《明史》的等幅度频率折线对比:表现高度一致


从这个折线对比中,我们还可以推断出:著《明史》者,一定对于《史记》烂熟于心,否则,他写出来的《明史》,其用词的方式,不可能与《史记》如同一辙!

大家应当直观地看出,我们的中文是何等的稳定了。

第2个前提:

每一个时代、每一个人,其遣词造句、写作风格,实词、虚词的使用手法,必定带有极其明显的时代印记、地域特征个人烙印。这就象每个人说话,都带有固定的习惯、口头语是一样的道理。落实到文字上,就形成了文风。

第3个前提:

每个人说话,气息不同、语气不同、性格不同,带来的直接结果就是:文章断句后,其句子的长短、出现的频率,有极其强烈的个人特征。

有了前面的几个前提和折线对比,相信大家对于中文的特性有了更深的认识了。

下面来看看《红楼梦》,简单的C++编程,我们便得到了《红楼梦》句长与频率的表格。

将上面的表格转格为句长、出现频率的折线图,如下。

《红楼梦》前、中、后40回的句长、出现频率折线图


这个图中间的兰色折线,是1-40回的表现,而最上面的黄线,则是41回-80回的表现,他们的共同之处是,4字句的频率,只表现为一个尖峰。而最下面红色的第3条折线,是《红楼梦》最后40回,其拆线表现有着明显的不同:是一个典型的M形,且有2个尖峰,也就是长度为4和6的句子,频率相差不大。

再来看看《红楼梦》前、中、后40回的所有句子的平均句长,他们分别是:5.92,6.07,6.32,后40也明显高于前80回。

句子长度的频率与平均句长这二点的明显不同,就充分说明,后40回的作者,绝非曹雪芹!数学上,我们要用到"置信区间"这个概念,并且得到的结论是:后40回的作者与前80回是同一个完全是小概率事件

限于篇幅,未详细叙述另一些细节,比如,要判断两篇文章、小说、论文的相似性,需要用到大量的算法,比如聚类算法、关联分析、描述统计等等。其中的许多算法,也是大数据分析、云计算中,常常用到的。

数理统计学应用于语言文字方面,我们得到了许多引人入胜的结果,待我以后一一奉献于大家。当然,一家之言,未必正确,尚乞海内贤明不吝教之。

18.3.18 智有不明, 首发于今日头条

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,539评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,594评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,871评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,963评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,984评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,763评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,468评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,850评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,002评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,144评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,823评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,483评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,026评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,150评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,415评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,092评论 2 355

推荐阅读更多精彩内容

  • 总是不经意的想起你,早晨刚睡醒,晚上临入眠,它就长在那里。 ——致某人
    此间乱子不语阅读 153评论 0 0
  • 一、NSData的介绍 NSData 数据缓冲类,用于缓冲数据以便使用 。 二 、NSData 的初始化 下面介绍...
    NetWork小贱阅读 1,066评论 0 1
  • 望 落黄 心凄凉 木叶轮荒 何时觅归堂 轻举杯酒酣畅 希未忆几经过往 却怎奈何心中念想 堪把痴情恋相托醉觞 醒时已...
    执笔封神阅读 233评论 0 0
  • 最近發在朋友圈的自拍,被講皮膚好,又有光澤,其實是化妝的關係。是什麼化妝品可以讓皮膚看起來圓潤有光澤呢?答案就是:...
    斕珺阅读 956评论 0 3