No.3《数学之美》吴军

我们必须要问:提出巧妙数学思想的人是谁?为什么是他提出了这个思想?其思维方法有什么特点?

成为一个领域的大师有其偶然性,但更有其必然性。其必然性就是大师们的思维方法。

从事科学研究,最重要的是掌握思维方法。

数学一词来源于希腊语,意思是通过学习获得知识的意思。和任何事物一样,数学不断演化,演化的过程就是我们将生活中遇到的具体物质以及他们运动的规则不断抽象化的过程。

经过几千年的抽象化,人们头脑中能想象的数学只剩下数字、符号、公式和定理了。这些东西和我们的生活似乎渐渐疏远,甚至在表面上毫不相干了。事实上,数学在我们生活中无处不在。

数学和文字、自然语言一样,都是信息的载体,它们之间原本有着天然的联系。语言和数学的产生都是为了同一个目的——记录和传播信息。但是把数学和信息系统联系在一起是半个多世纪前香农博士发明信息论以后的事。

文字是信息的载体,而非信息本身。不用文字,其他载体,比如数字,也可以存储同样意义的信息。这也是现代通信的基础。

文字的出现是为了人与人之间的通信,字母、笔画、文字和数字都是信息编码的不同单位。任何一种语言都是一种编码方式,而语言的语法规则编解码的算法。我们把一个要表达的意思,通过某种语言的一句话表达出来,就是用这种语言的编码方式对头脑中的信息做了一次编码,编码的结果就是一串文字。对方如果懂的这门语言,他就可以用这门语言的解码方式获得说话人要表达的意思。这就是语言的数学本质。

1946年,计算机出现后,人类就开始琢磨两件事:第一,计算机能不能处理自然语言;第二,如果能,它的处理方式和人类一样吗。时至今日,这两个问题的答案都是肯定的!

最早提出机器智能的是阿兰•图灵,1950年,他在发表的论文中提出一种验证机器是否有智能的方法:让人和机器交流,如果人无法判断和自己交流的对象是人还是机器,就说明这个机器有智能。这种方法后被称为图灵测试。

自然语言处理的发展过程基本分为两个阶段。

早期的20多年,都局限在用电脑模拟人脑。科学家们认为,要让机器完成翻译或者语音识别这样只有人类才能做的事情,就必须让计算机理解自然语言,而做到这一点就必须让计算机有类似人类的智能。所以科学家从传统的自然语言处理方法开始分析语句和获取语义。这样的方法论被称为鸟飞派,就是看鸟怎么飞,就能模仿鸟造出飞机。事实上,我们知道发明飞机靠的是空气动力学而不是仿生学。实际上,这20多年的成果近乎为零。

第二个阶段从70年代开始,转到依靠统计学,但因为没有足够的统计数据和足够强大的模型,在接下来的15年里,基于规则的自然语言处理和基于统计的自然语言处理争执不断。前者的缺点是词性分析和句法分析太过复杂难以操作,后者因为数据不够只能处理浅层的自然语言处理问题。

到2015年,Google基于统计方法的翻译系统全面超过基于规则的SysTran翻译系统。

到今天,自然语言处理的研究已经从单纯的句法分析和语义理解,变成了非常贴近应用的机器翻译、语音识别、文本到数据库自动生成、数据挖掘和知识的获取等。

基于统计的自然语言处理方法,在数学模型上和通信是相通的,甚至是相同的。因此,在数学意义上的自然语言处理又和语音的初衷——通信联系在一起了。

到目前为止,虽然我们一直在谈论信息,但信息这个概念依然有些抽象,信息是怎么度量的呢?《史记》有50多万字,它的信息量有多少呢。1948年,香农博士提出信息熵的概念,用Bit来度量信息量,不仅解决了信息度量问题,还量化出了信息的作用。

信息熵的物理含义是对一个信息系统不确定性的度量,这这一点上,它和热力学中的熵概念相同,因为后者是对于一个系统无序的度量。这也说明科学上很多看似不同的学科之间也会有很强的相似性。

利用熵的概念,可以计算出《史记》的信息量大约是250万比特,用一个比较好的算法压缩一下,整本书可以压缩为一个320KB的文件。如果直接用两字节的国标编码存储,大约需要1MB大小,是压缩文件的三倍。这两个数量的差距,在信息论中成为冗余度。不过同样长度的书,所含的信息量可以相差很多,如果一本书重复的内容很多,冗余度就大,信息量就会小。

一条信息的信息量和它的不确定性有直接的关系,信息是消除不确定性的唯一方法。在没有获得任何信息前,一个事物就像一个黑盒子,慢慢引入信息,就可以了解黑盒子的内部结构。几乎所有的自然语言处理、信息与信号处理的应用都是一个消除不确定性的过程。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容

  • 个人见解:数学起源于数,来自于对物质世界精确的观测,可以精确的运算。所以数学更接近物理世界;哲学起源于人们用自己的...
    旧灵魂curiosity阅读 1,132评论 5 3
  • 很早之前看了几篇博文,只留下模糊印象 。这次是在学习人工智能的基础知识后再看,其中研究自然语言的方法从基于规则转变...
    轻舟阅读 5,885评论 0 9
  • 数学之美 不同的文字系统在记录信息上的能力是等价的 图灵测试 通信六要素 :发送者(信息源)、信道、接受者、信息、...
    IT_小马哥阅读 1,013评论 0 2
  • 第一章 文字和语言vs数字和信息### 数字、文字和自然语言一样,都是信息的载体。语言和数学的产生都是为了同一个...
    luckstarjianshu阅读 2,727评论 0 0
  • 数学常常给人一种深奥和复杂的感觉,但它的本质常常是简单而直接的。美德就如同华贵的宝石,在朴素的衬托下最显华丽。数学...
    张聪_2048阅读 715评论 0 1