作者:吴军
第1 章 文字和语言 vs 数字和信息
第2 章 自然语言处理 — 从规则到统计
第3 章 统计语言模型
概率最大,平滑方法
第4 章 谈谈分词
概率最大,颗粒度
第5 章 隐含马尔可夫模型
转移概率
第6 章 信息的度量和作用
信息越多,不确定性越少
互信息,相对熵,用来纠错
第7 章 贾里尼克和现代语言处理
第8 章 简单之美 — 布尔代数和搜索引擎
0,1构成布尔代数,这个字是否出现通过布尔代数去搜索,次要网站搜索索引
第9 章 图论和网络爬虫
抓取网站链接,url表记载已下载页面
第10章 PageRank — Google的民主表决式网页排名技术
链接数量及权重出排名,不用用处资源库不一样
第11章 如何确定网页和查询的相关性
tf-idf:预测主题能力越强,权重越大,停止词权重为0
第12章 有限状态机和动态规划 — 地图与本地
动态规划,逐步砍半取最短路径
第13章 Google AK-47 的设计者 — 阿米特· 辛格博士
第14章 余弦定理和新闻的分类
第15章 矩阵运算和文本处理中的两个分类问题
第16章 信息指纹及其应用
随机匹配一个低位的指纹代码,音乐视频的反盗链
第17章 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理
第18章 闪光的不一定是金子 — 谈谈搜索引擎反作弊问题和搜索结果的权威性问题
反作弊问题=降噪问题
权威性,“提及”的重要性
第19章 谈谈数学模型的重要性
第20章 不要把鸡蛋放到一个篮子里 — 谈谈最大熵模型
保留全面的不确定性,将风险降到最小
第21章 拼音输入法的数学原理
第22章 自然语言处理的教父马库斯和他的优秀弟子们
第23章 布隆过滤器
垃圾邮件过滤,有可能误判
第24章 马尔可夫链的扩展 — 贝叶斯网络
同义词,重要应用谷歌广告投放rephil
第25章 条件随机场、文法分析及其他
第26章 维特比和他的维特比算法
第27章 上帝的算法 — 期望最大化算法
也是用于分类的
第28章 逻辑回归和搜索广告
预估点击率
第29章 各个击破算法和Google 云计算的基础
第30章 Google 大脑和人工神经网络
就是个分层
第31章 大数据的威力——谈谈数据的重要性