算法视角下的机器学习 1

Algorithmic Aspects of Machine Learning

        本书通过探索理论计算机科学与机器学习之间可以互相借鉴的内容,将两者联系起来。着重于对那些灵活、易处理的模型的需求,这些模型更好地捕捉到了那些使机器学习变得容易而不是困难的因素。理论计算机科学家会见识到机器学习中的各种重要模型以及这个领域中的主要问题。而机器学习研究者会无障碍地见识到到前沿研究,并熟悉一种现代的算法工具包,其中包括矩量法(method of moments)、张量分解(tensor decompositions)以及凸规划的松弛(convex programming relaxations)。

        书中的处理超越了最糟糕情况分析(worst-case analysis),构建了对实际在用方法的一种严谨的理解,有助于发现解决那些长期存在问题的激动人心的新方法。

引言

        机器学习开始在我们生活的许多方面接管了决策,包括:

(a)在我们日常通勤乘坐自动驾驶汽车途中确保我们的安全;

(b)基于我们的症状及病史做出准确的诊断;

(c)定价、交易复杂证券;

(d)发现新的科学,例如各种疾病的基因基础。

        但一个令人吃惊的事实是,这些算法在运行时对其表现会如何没有任何可证明的保证。当面对一个优化问题时,它们真的能够找到最优解吗?或者即使是一个相当好的解也可以。当它们假设一个概率模型时,能够从真实的后验分布中纳入新的证据和样本吗?机器学习在实践中效果非常好,但这并不意味着我们理解了为什么它效果这么好。

        如果你上过传统的算法课程,你接触到的考虑算法的通用方法是最糟糕情况分析。比如一个排序算法,你会在最糟糕的可能输入下,基于它所需要的操作(operations)次数来度量它的执行时间。这是一种方便的界定形式,因为这意味着你能说出关于你的算法耗时的有意义的东西,而不需要担心你通常给它的输入类型。

        但使得机器学习算法,尤其是最新的那些算法的分析变得如此具有挑战性的原因在于,在最糟糕情况的输入下,它们试图解决的问题的类型真的是 NP 难的。当你将寻找在数据上拟合得最好的参数的问题视为一个优化问题时,会有一些实例在寻找好的拟合时是 NP 难的。当你假设一个概率模型并想用其执行推断时,在一些实例上也是 NP 难的。

        在本书中,我们会通过试图为我们的数据找到更真实的模型,来解决为机器学习提供可证明保证的问题。在很多应用中,我们会根据问题出现的背景做一些合理的假设。这些假设可以让我们避开那些最糟糕情况的阻碍,允许我们严谨地分析实践中使用的启发式方法 heuristic,同时设计从根​​本上解决机器学习中一些核心的反复出现的问题的新方法。

        退一步说,就如理论计算机科学本身一样,超越最糟糕情况分析的想法是陈旧的。实际上,理解在“典型”实例上算法的表现如何有很多不同的意味:

(a)你的输入的概率模型,甚至是混合模型(其中组合了最糟糕情况的部分以及平均情况的分析,比如半随机模型 semi-random model,抑或平滑分析 smoothed analysis);

(b)度量你的问题复杂度,以及寻求在简单输入上的快速算法的方法,如参数化的复杂度一样;

(c)稳定性的概念,即试图阐明你的问题中的哪些实例具有有意义的答案,并且是你真正想要解决的

        这绝不是主题或参考文献的详尽列表。不管怎样,在本书中,我们将通过这些关于应付棘手问题的见解,来解决机器学习问题。

        最后,我们希望理论计算机科学和机器学习之间还能有很多可以互相借鉴的东西。对理论计算机科学来说,理解在实践中启发式方法(如期望最大化 expectation- maximization,非凸函数上的梯度下降 gradient descent)效果为何如此好是一个巨大的挑战。但要在这些问题上取得进展,我们需要理解哪些类型的模型和假设在机器学习的背景下是有意义的。另一方面,如果我们在这些难题上有了进展,或是对启发式方法为何效果如此好有了新的见解,我们就有望把它们改造得更好。甚至有望发现解决一些机器学习重大问题的新方法,尤其是通过在我们的算法工具包中利用现代工具后。

        本书覆盖以下主题:

(a)非负矩阵分解 Nonnegative matrix factorization

(b)主题模型 Topic modeling

(c)张量分解 Tensor decompositions

(d)稀疏复原 Sparse recovery

(e)稀疏编码 Sparse coding

(f)混合学习模型 Learning mixtures models

(g)矩阵补全 Matrix completion

随着领域的发展以及新的发现,我希望在之后的版本中能够添加更多章节。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,928评论 6 509
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,748评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,282评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,065评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,101评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,855评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,521评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,414评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,931评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,053评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,191评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,873评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,529评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,074评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,188评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,491评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,173评论 2 357

推荐阅读更多精彩内容

  • 根据小宝成长阶段的不同,及时调整餐椅的高度,让孩子更有兴趣和大人一起就餐。 近段时间,小宝自主进食的能力和欲望进一...
    方圆之旅阅读 255评论 0 0
  • 已经没有钱生活了玉米面里的糟糠比刀子还犀利四张稚嫩的脸看不见一点生气 他们本应该在明亮的教室里或者在父母的身边戏耍...
    刘汉皇阅读 372评论 0 2