很多人都推荐吴军博士的这本《数学之美》,所以我也抽空学习了一下。
第1章 文字和语言VS数字和信息
文字和语言于数字,从产生起原本就有相同性,虽然他们的发展一度分到扬镳,但是最终还是能走到一起
第2章 自然语言处理——从规则到统计
人类对机器理解自然语言的认识走了一条大弯路。早期的研究集中采用基于规则的方法,虽然解决了一些简单的问题,但是无法从根本上讲自然语言理解实用化,直到20多年后,人们开始尝试用基于统计的方法进行自然语言处理,才有了突破性进展和实用的产品。
第3章 统计语言模型
统计语言模型是自然语言处理的基础,并且被广泛应用于机器翻译,语音识别,印刷体或手写体识别,拼写纠错,汉字输入和文献查询。
第4章 谈谈分词
中文分词是中文信息处理的基础,它同样走过了一段弯路,目前依靠统计语言模型已经基本解决了这个问题。
第5章 隐含马尔科夫模型
隐含马尔科夫模型最初应用于通讯领域,继而推广到语言和语言处理中,成为连接自然语言处理和通讯的桥梁。同时,隐含马尔科夫模型也是机器学习的主要工具之一。
第6章 信息的度量和作用
信息是可以量化度量的。信息熵不仅是对信息的量化度量,也是整个信息论的基础。它对于通信,数据压缩,自然语言处理都有很强的指导意义。
第7章 贾里尼克和现代语言处理
作为现代自然语言处理的奠基者,贾里尼克教授成功的将数学原理应用于自然语言处理领域中,他的一生富于传奇色彩。
第8章 简单之美——布尔代数和搜索引擎
布尔代数虽然非常简单,却是计算机科学的基础,它不仅吧逻辑和数学合二为一,而且给了我们一个全新的视角看待世界,开创了数字化时代。
第9章 图论和网络爬虫
互联网搜索引擎在建立索引前需要用一个程序自动的将所有的网页下载到服务器,这个程序成为网络爬虫,他的编写是基于离散数学中图论的原理
第10章 PageRank——Google的民主表决式网络排名技术
网页排名技术PageRank是早期Google的杀手锏,他的出现使得网页搜索的质量上了一个大的台阶,他背后的原理是图论和线性代数的矩阵运算。
第11章 如何确定网页和查询的想关性
确定网页和查询的相关性是网页搜索的根本问题,其中确定查询中每个关键词的重要性有多高是关键。TF-IDF是目前通用的关键词重要性的度量,其背后的原理是信息论。
第12章 有限状态机和动态规划——地图与本地搜索的核心技术
地图和本地服务中要用到有限状态机和动态规划技术。这两项技术是机器智能和机器学习的工具,他们的应用非常广泛,还包括语音识别,拼写和语法纠错,拼音输入法,工业控制和生物的序列分析等。
第13章 Google AK-47的设计者——阿米特·辛格博士
在所有轻武器中最有名的是AK-47冲锋枪,因为他从不卡壳,不易损坏,可在任何环境下使用,可靠性好,杀伤力大并且操作简单。Google的产品就是按照上述原则设计的。
第14章 余弦定理和新闻的分类
计算机虽然读不懂新闻,却可以准确的对新闻进行分类,其数学工具是看似不相干的余弦定理
第15章 矩阵运算和文本处理中的两个分类问题
无论是词汇的聚类还是文本的分类,都可以通过线性代数中矩阵的奇异值分解来进行。这样一来,自然语言处理的问题就变成了一个数学问题
第16章 信息指纹及其应用
世界万物都有一个唯一标示的特征,信息也是如此。每一条信息都有它特有的指纹,通过这个指纹可以区别不同的信息。
第17章 由电视剧《暗算》所想到的——谈谈密码学的数学原理
密码学的根本是信息论和数学。没有信息论指导的密码是非常容易被破解的。只有在信息论被广泛应用于密码学后,密码才真正变得安全。
第18章 闪光的不一定是金子——谈谈搜索引擎反作弊问题和搜索结果的权威性问题
闪光的不一定是金子,搜索引擎中排名靠前的网页也未必是有用的网页,消除这些作弊网页的原理和通信中过滤噪音的原理相同。这说明信息处理和通信的很多原理是相通的。
第19章 谈谈数学模型的重要性
正确的数学模型在科学和工程中至关重要,而发现正确模型的途径常常是曲折的,正确的模型在形式上通常是简单的。
第20章 不要吧鸡蛋放到一个篮子里——谈谈最大熵模型
最大熵模型是一个完美的数学模型,他可以将各种信息整合到一个统一的模型中,在信息处理和机器学习中有着广泛的应用,他在形式上非常简单,优美,而在实现时需要有精深的数学基础和高超的技巧。
第21章 拼音输入法的数学原理
汉字的输入过程就是人和计算机之间的通信,好的输入法会自觉或不自觉的遵循通信的数学模型。当然要做出最有效的输入法,应当自觉使用信息论作指导。
第22章 自然语言处理的教父马库斯和他的优秀弟子们
讲自然语言处理从基于规则的研究方法转到基于统计的研究方法上,宾夕法尼亚大学的教授米奇·马库斯功不可没,他创建了今天在学术界广泛使用的LCD语料库,同时培养了一大批精英人物。
第23章 布隆过滤器
日常生活中,经常要判断一个元素是否在一个集合中。布隆过滤器是计算机工程中解决这个问题最好的数学工具。
第24章 马尔可夫链的扩展——贝叶斯网络
贝叶斯网络是一个加权的有向图,是马尔可夫链的扩展。而从认识论的层面看:贝叶斯网络客服了马尔可夫链那种机械的线性约束,他可以把任何有关联的事件统一到他的框架下面。他在生物统计,图像处理,决策支持系统和博弈论中都有广泛的使用。
第25章 条件随机场,文法分析及其他
条件随机场是计算联合概率分布的有效模型,而句法分析似乎是英文课上英语老师教的东西。
第26章 维特比和他的维特比算法
维特比算法是现代数字通信中使用最频繁的算法,同时也是很多自然语言处理的解码算法。可以毫不夸张的讲,维特比是对我们今天生活的影响力最大的科学家之一,因为如今基于CDMA的3G移动通信标准主要就是他创办的高通公司制定的。
第27章 上帝的算法——期望最大化算法
只要有一些训练数据,在定义一个最大化函数,采用EM算法,利用计算机经过若干次迭代,就可以得到所需要的模型。这实在是太美妙了,这也许是我们的造物主刻意安排的。所以我把他们称作上帝的算法。
第28章 逻辑回归和搜索广告
逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型,它不仅在搜索广告中起着重要的作用,而且被广泛应用于信息处理和生物统计中。
第29章 各个击破算法和Google云计算的基础
Google颇为神秘的云计算中最重要的MapReduce工具,其原理就是计算机算法中常用的‘各个击破’算法,他的原理原来这么简单——将复杂的大问题分解成很多小问题分别求解,然后再把小问题的解合并成原始问题的解。
第30章 Google大脑和人工神经网络
Google大脑并不是一个什么都能思考的大脑,而是一个很能计算的人工神经网络。因此,与其说Google大脑很聪明,不如说他很能算,不过,换个角度来说,随着计算能力的不断提高,计算量大但简单的数学方法有时能够解决很复杂的问题。
第31章 大数据的威力——谈谈数据的重要性
如果说在过去的40年里,主导全球IT产业发展的是摩尔定律,那么在今后的20年里,主导IT行业继续发展的动力则将来自于数据。