读《数学之美》

很多人都推荐吴军博士的这本《数学之美》，所以我也抽空学习了一下。

IMG_2137.JPG

第1章文字和语言VS数字和信息

文字和语言于数字，从产生起原本就有相同性，虽然他们的发展一度分到扬镳，但是最终还是能走到一起

第2章自然语言处理——从规则到统计

人类对机器理解自然语言的认识走了一条大弯路。早期的研究集中采用基于规则的方法，虽然解决了一些简单的问题，但是无法从根本上讲自然语言理解实用化，直到20多年后，人们开始尝试用基于统计的方法进行自然语言处理，才有了突破性进展和实用的产品。

第3章统计语言模型

统计语言模型是自然语言处理的基础，并且被广泛应用于机器翻译，语音识别，印刷体或手写体识别，拼写纠错，汉字输入和文献查询。

第4章谈谈分词

中文分词是中文信息处理的基础，它同样走过了一段弯路，目前依靠统计语言模型已经基本解决了这个问题。

第5章隐含马尔科夫模型

隐含马尔科夫模型最初应用于通讯领域，继而推广到语言和语言处理中，成为连接自然语言处理和通讯的桥梁。同时，隐含马尔科夫模型也是机器学习的主要工具之一。

第6章信息的度量和作用

信息是可以量化度量的。信息熵不仅是对信息的量化度量，也是整个信息论的基础。它对于通信，数据压缩，自然语言处理都有很强的指导意义。

第7章贾里尼克和现代语言处理

作为现代自然语言处理的奠基者，贾里尼克教授成功的将数学原理应用于自然语言处理领域中，他的一生富于传奇色彩。

第8章简单之美——布尔代数和搜索引擎

布尔代数虽然非常简单，却是计算机科学的基础，它不仅吧逻辑和数学合二为一，而且给了我们一个全新的视角看待世界，开创了数字化时代。

第9章图论和网络爬虫

互联网搜索引擎在建立索引前需要用一个程序自动的将所有的网页下载到服务器，这个程序成为网络爬虫，他的编写是基于离散数学中图论的原理

第10章 PageRank——Google的民主表决式网络排名技术

网页排名技术PageRank是早期Google的杀手锏，他的出现使得网页搜索的质量上了一个大的台阶，他背后的原理是图论和线性代数的矩阵运算。

第11章如何确定网页和查询的想关性

确定网页和查询的相关性是网页搜索的根本问题，其中确定查询中每个关键词的重要性有多高是关键。TF-IDF是目前通用的关键词重要性的度量，其背后的原理是信息论。

第12章有限状态机和动态规划——地图与本地搜索的核心技术

地图和本地服务中要用到有限状态机和动态规划技术。这两项技术是机器智能和机器学习的工具，他们的应用非常广泛，还包括语音识别，拼写和语法纠错，拼音输入法，工业控制和生物的序列分析等。

第13章 Google AK-47的设计者——阿米特·辛格博士

在所有轻武器中最有名的是AK-47冲锋枪，因为他从不卡壳，不易损坏，可在任何环境下使用，可靠性好，杀伤力大并且操作简单。Google的产品就是按照上述原则设计的。

第14章余弦定理和新闻的分类

计算机虽然读不懂新闻，却可以准确的对新闻进行分类，其数学工具是看似不相干的余弦定理

第15章矩阵运算和文本处理中的两个分类问题

无论是词汇的聚类还是文本的分类，都可以通过线性代数中矩阵的奇异值分解来进行。这样一来，自然语言处理的问题就变成了一个数学问题

第16章信息指纹及其应用

世界万物都有一个唯一标示的特征，信息也是如此。每一条信息都有它特有的指纹，通过这个指纹可以区别不同的信息。

第17章由电视剧《暗算》所想到的——谈谈密码学的数学原理

密码学的根本是信息论和数学。没有信息论指导的密码是非常容易被破解的。只有在信息论被广泛应用于密码学后，密码才真正变得安全。

第18章闪光的不一定是金子——谈谈搜索引擎反作弊问题和搜索结果的权威性问题

闪光的不一定是金子，搜索引擎中排名靠前的网页也未必是有用的网页，消除这些作弊网页的原理和通信中过滤噪音的原理相同。这说明信息处理和通信的很多原理是相通的。

第19章谈谈数学模型的重要性

正确的数学模型在科学和工程中至关重要，而发现正确模型的途径常常是曲折的，正确的模型在形式上通常是简单的。

第20章不要吧鸡蛋放到一个篮子里——谈谈最大熵模型

最大熵模型是一个完美的数学模型，他可以将各种信息整合到一个统一的模型中，在信息处理和机器学习中有着广泛的应用，他在形式上非常简单，优美，而在实现时需要有精深的数学基础和高超的技巧。

第21章拼音输入法的数学原理

汉字的输入过程就是人和计算机之间的通信，好的输入法会自觉或不自觉的遵循通信的数学模型。当然要做出最有效的输入法，应当自觉使用信息论作指导。

第22章自然语言处理的教父马库斯和他的优秀弟子们

讲自然语言处理从基于规则的研究方法转到基于统计的研究方法上，宾夕法尼亚大学的教授米奇·马库斯功不可没，他创建了今天在学术界广泛使用的LCD语料库，同时培养了一大批精英人物。

第23章布隆过滤器

日常生活中，经常要判断一个元素是否在一个集合中。布隆过滤器是计算机工程中解决这个问题最好的数学工具。

第24章马尔可夫链的扩展——贝叶斯网络

贝叶斯网络是一个加权的有向图，是马尔可夫链的扩展。而从认识论的层面看：贝叶斯网络客服了马尔可夫链那种机械的线性约束，他可以把任何有关联的事件统一到他的框架下面。他在生物统计，图像处理，决策支持系统和博弈论中都有广泛的使用。

第25章条件随机场，文法分析及其他

条件随机场是计算联合概率分布的有效模型，而句法分析似乎是英文课上英语老师教的东西。

第26章维特比和他的维特比算法

维特比算法是现代数字通信中使用最频繁的算法，同时也是很多自然语言处理的解码算法。可以毫不夸张的讲，维特比是对我们今天生活的影响力最大的科学家之一，因为如今基于CDMA的3G移动通信标准主要就是他创办的高通公司制定的。

第27章上帝的算法——期望最大化算法

只要有一些训练数据，在定义一个最大化函数，采用EM算法，利用计算机经过若干次迭代，就可以得到所需要的模型。这实在是太美妙了，这也许是我们的造物主刻意安排的。所以我把他们称作上帝的算法。

第28章逻辑回归和搜索广告

逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型，它不仅在搜索广告中起着重要的作用，而且被广泛应用于信息处理和生物统计中。

第29章各个击破算法和Google云计算的基础

Google颇为神秘的云计算中最重要的MapReduce工具，其原理就是计算机算法中常用的‘各个击破’算法，他的原理原来这么简单——将复杂的大问题分解成很多小问题分别求解，然后再把小问题的解合并成原始问题的解。

第30章 Google大脑和人工神经网络

Google大脑并不是一个什么都能思考的大脑，而是一个很能计算的人工神经网络。因此，与其说Google大脑很聪明，不如说他很能算，不过，换个角度来说，随着计算能力的不断提高，计算量大但简单的数学方法有时能够解决很复杂的问题。

第31章大数据的威力——谈谈数据的重要性

如果说在过去的40年里，主导全球IT产业发展的是摩尔定律，那么在今后的20年里，主导IT行业继续发展的动力则将来自于数据。

最后编辑于：2018.04.25 08:39:47

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,635评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,628评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,971评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,986评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,006评论 6赞 394
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,784评论 1赞 307
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,475评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,364评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,860评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,008评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,152评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,829评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,490评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,035评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,156评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,428评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,127评论 2赞 356

读《数学之美》

第1章 文字和语言VS数字和信息

第2章 自然语言处理——从规则到统计

第3章 统计语言模型

第4章 谈谈分词

第5章 隐含马尔科夫模型

第6章 信息的度量和作用

第7章 贾里尼克和现代语言处理

第8章 简单之美——布尔代数和搜索引擎

第9章 图论和网络爬虫

第10章 PageRank——Google的民主表决式网络排名技术

第11章 如何确定网页和查询的想关性

第12章 有限状态机和动态规划——地图与本地搜索的核心技术

第13章 Google AK-47的设计者——阿米特·辛格博士

第14章 余弦定理和新闻的分类

第15章 矩阵运算和文本处理中的两个分类问题

第16章 信息指纹及其应用

第17章 由电视剧《暗算》所想到的——谈谈密码学的数学原理

第18章 闪光的不一定是金子——谈谈搜索引擎反作弊问题和搜索结果的权威性问题

第19章 谈谈数学模型的重要性

第20章 不要吧鸡蛋放到一个篮子里——谈谈最大熵模型

第21章 拼音输入法的数学原理

第22章 自然语言处理的教父马库斯和他的优秀弟子们

第23章 布隆过滤器

第24章 马尔可夫链的扩展——贝叶斯网络

第25章 条件随机场，文法分析及其他

第26章 维特比和他的维特比算法

第27章 上帝的算法——期望最大化算法

第28章 逻辑回归和搜索广告

第29章 各个击破算法和Google云计算的基础