数学之美读书笔记

上周重读完了吴军的《数学之美》,来总结下期中的内容:

余弦定理和新闻分类:

余弦定理在初中就学过,$cos \theta = \frac{}{|b| · |c|}$

计算文档相似性通过余弦定理进行计算,将文档按照词库内分布构建文档的词分布矩阵,计算两两之间的相似性,技巧:将每篇文章的分母计算存储下来,去除虚词,只考虑非零元素内积,可以大大提高计算速度。

可以通过计算相似性对文本进行聚类

对于构建的大型的文本矩阵,进行计算比较复杂,可以通过svd矩阵分解来处理降维,从而大大降低计算复杂度。

文本方向

文本的处理,包括自然语言处理、统计语言模型、分词等

自然语言处理过去是学习人理解信息的思路,将信息分为实词、虚词、形容词、主语等,但是后台出现的统计模型,利用统计学对信息进行处理,取得较好效果,而文本中词的出现及信息含义和之前的文本是相关的,于是构建复杂的高阶语言模型,如果将高阶变为二阶那就是马尔科夫链,只依赖上一个的信息。

因为要对语言进行统计,自然就出现了分词,分词的目的是将文本按照分词进行统计,分词的形成过程就是文本结合在一起形成一个词的概率比较大,大于和其他的词结合后形成新词组的概率。

信息方向

信息熵是衡量信息量的大小,变量不确定性越大,熵也就越大,网络搜索过程中,网站根据用户输入的信息搜索相关的文档,每次输入都是信息熵降低的过程,引入条件熵的概念,条件熵是在已知信息下,其他信息不确定性的大小。

决策树中用信息熵最多,决策树的分叉过程就是寻找信息熵下降最大的特征进行分叉,从而使得每次分叉后信息的不确定性降低最大。

爬虫及搜索引擎相关

爬虫的本质是寻找和相关的网页,然后爬取下来,包括两种算法BFS,DFS,爬虫的本质就是就找到网址,然后爬取下来,于是两个问题,网址怎么找,找到的网址怎么存,存网址是通过Hash Table来记录爬取过的信息,如何记录大量的已经爬去的网址呢,比如将网址分治交给不同服务器下载,这样不用重复判断,每次获取一批网址,每次更新一批网址为已爬取,减少交流次数。

搜索引擎查询过程中,如何度量网页和查询的相关性呢?

TF-IDF(词频,逆文本频率指数$log(D/D_{w})$)比如用户搜索:核聚变的前景,那么可以分词为核聚变、前景,计算每个文章的核聚变TF-IDF值TF1和前景的TF2,然后计算TF1+TF2值最大的网页,即为搜索的相关性比较大的网页,结合pagerank算法,便可以得到比较好的搜索结果了。

反作弊用到的:重复关键词、图论,作弊本质是在网页排名中增加噪声,因此反作弊的关键是去噪音

数学模型重要性

托勒密通过50个以上的圆来构建宇宙模型,造成500年才有12天的误差,可见构建模型有多精细,而500年后教皇人为改变历法从而符合天体规律。

古代的欧洲,亚里士多德欧几里得等认为圆是完美的,是天体运行的规律,对圆有着近乎痴狂的崇拜,所以相信一定是圆的运行规律,而天体运行规律是椭圆的。

托勒密的准确模型确立了地心说,以至于后开普勒的椭圆定理通过模型计算出来的准确度还不如地心说,所以没有人相信

能够发现日心说是大量观测数据总结后得到的,因此数据的存储对于文明发展的重要性。

一个准确的模型应该是简单的,一个正确模型一开始可能还不如一个精雕细琢的错误模型,但如果方向是对的,应该坚持下去。

最大熵模型

最大熵模型就是要保留全部不确定性,将风险降低到最小。

期望最大算法EM

EM算法分为两个步骤

E:计算期望,在当前参数下,计算数据在各个模型下的最大期望,从而找到属于的模型

M:在当前模型下,计算参数,以最大化期望,更新参数

拼音输入法及自然语言处理

马尔科夫链及维特比算法

逻辑回归及搜索广告

CTR

每次广告点击成本1000元

分治思路

对于大数据,分治是根本思想,mapreduce,将数据分散到各个机器上,为map过程,各个机器计算出结果后,再统一计算出最终结果,reduce过程。

大数据的重要性

搜索引擎点击日志的重要性,每次点击形成的数据可以为后续优化做数据基础,通过统计可以得到各搜索下点击数量,那么点击数量可以作为一个参考参数,来进行网页的排序。

先帮助用户解决80%的问题,再慢慢解决剩下的20%的问题,是在工业界成功的秘诀

每天坚持分析一些搜索结果不好的例子,以掌握第一手资料

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,402评论 6 499
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,377评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,483评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,165评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,176评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,146评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,032评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,896评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,311评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,536评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,696评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,413评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,008评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,815评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,698评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,592评论 2 353

推荐阅读更多精彩内容

  • 很早之前看了几篇博文,只留下模糊印象 。这次是在学习人工智能的基础知识后再看,其中研究自然语言的方法从基于规则转变...
    轻舟阅读 5,889评论 0 9
  • 1.1 统计语言模型 香农(Claude Shannon)就提出了用数学的办法处理自然语言。首先成功利用数学方法解...
    wzz阅读 1,944评论 0 10
  • 写在之前 如需转载,请注明出处。如有侵权或者其他问题,烦请告知。 第1章文字和语言 vs 数字和信息 文字和语言与...
    hainingwyx阅读 1,153评论 0 2
  • 1.整体来说,这本书到底在谈些什么? 谈数学知识在计算机中的实际应用,还有精妙的数学方法。 2.作者细部说了什么,...
    游冶星河阅读 3,940评论 3 12
  • 在罗马体系的文字中,总体来讲,常用字短,生僻字长。而在意形文字中,也是类似。这完全符合信息论中的最短编码原理。 在...
    李渡阅读 631评论 0 1