白话机器学习

从去年开始，陆陆续续学习了大半年的机器学习，现在是时候做个总结了。

在以往的编程经验里面，我们需要对于输入有一个精确的，可控制的，可以说明的输出。例如，将1 + 1作为输入，其结果就是一个精确的输出 2 。并且不论怎么调整参数，都希望结果是2，并且能够很清楚的说明，为什么结果是2，不是3。这样的理念在传统的IT界，非常重要，所有的东西就像时钟一般精确，一切都是黑白分明的。由于这种严格的输入输出，衍生出很多对于程序的自动测试工具，你的程序无论怎么运行，都应该在相同输入情况下，得到相同的，准确的，精确的输出。

但是，如果你进入机器学习的世界，则一切都是基于一个准确率。换句话说，你的模型，允许是不完美的，1 + 1，结果可以是 2.01，也可以是1.98。有时候，如果你的模型要追求完美，则可能出现过拟合的可能性。也就是说，由于你的模型太过于完美，使得模型可以很好的匹配训练用数据，反而失去了通用性，在数据发生变化的时候，发生错误。

过拟合

举个例子来说吧，如果一个男孩子说喜欢某个女孩子，这个女孩子身高178，籍贯是辽宁抚顺，专业是计算机。如果机器学习发生过拟合的时候，它就会输出这样一个模型

如果身高 = 178 ，籍贯 = 抚顺，专业 = 计算机则喜欢。

这个模型如果用来匹配一个个例，则这个模型是完美的！
但是，如果这个女孩子身高是179呢，这个模型会告诉你，这个男孩子不喜欢她。其实，对于男孩子来说，178和179其实没有什么很大的区别。但是由于计算机想精确给出男孩子喜欢女孩子的模型，所以，计算机做出了过拟合的模型。
当然，一般来说，计算机的模型应该是有弹性的。

身高在【175，185】之间
籍贯是东北
专业是 IT相关的

这样的话，模型虽然会把一些男孩子不喜欢的女孩子也错误的标识出来，但是大部分的样本还是可以比较好的预测出来的。
机器学习追求的不是100%的正确，而是一个可以容忍的正确率。
当然，在某些时候，还需要一些风险策略的，例如，在人工智能判断一个用户是否能够发给信用卡的时候，并不是说，这个人51%的可能性是一个讲信用的人，就发卡，而是这个人95%是讲信用的人的时候，才发卡的。机器给出的只是一个估计值，最后还是要人工控制风险的。

机器学习，很多人认为是一个高科技的IT技能，其实，一个好的机器学习模型，领域里的业务知识还是很需要的。而且现在很多工具可以帮助大家建立程序，完全不需要什么编程的技能，只需要给机器“喂”数据，调节参数，就可以获得结果了。
给机器“喂”什么数据，那些数据的特征值是有用的，那些特征值没有价值，这个就是领域专家思考的问题了。
男孩子喜欢女孩子，这时候颜值，身材，脾气可能是比较关键的特征值，喜欢可口可乐还是百事可乐则变得基本没有什么价值。如果你的数据里面，都是女孩子喜欢那个牌子的可乐，这样的数据训练出来的模型没有任何意义。当然，如果你有很多特征值，还是有一些自动化的计算帮你挑选用那些特征值的（主成因分析）。

感知机

在机器学习中，有一些复杂的概念，往往都是由一个简单的概念扩展开来的。
卷积神经网络为首的一些神经网络的概念，都是从感知机这个小家伙来的。
感知机的输出，是由输入和权重决定的，在监督学习中，输入和输出是已知的，然后机器学习通过不停的调整权重，使得感知机的输出（模型）和实际的输出（样本）尽量一致。这个过程中，学习结果就是这些权重，权重知道了，模型就定下来了。一个最简单的感知机的应用就是线性单元。
零基础入门深度学习(1) - 感知器
 零基础入门深度学习(2) - 线性单元和梯度下降

神经网络

单个感知机是弱小的，但是，如果感知机有成千上万个，然后一层一层一层叠加起来呢。。这些小家伙就变成强大的神经网络了

贝叶斯

贝叶斯，马尔科夫同志则共享了很多关于概率的机器学习。

贝叶斯最大贡献如下。

在“你家隔壁住着老王（B）”的前提下，“你的孩子长得像隔壁老王（A）”的概率

等于“你的孩子长得像隔壁老王（A）”的前提下，“你家隔壁住着老王（B）”
乘以：“你的孩子长得像隔壁老王（A）”的概率（和隔壁是否住着老王无关）
除以：“你家隔壁住着老王（B）”的概率

狄利克雷分布

当然这个正统说法要牵涉到先验概率，后验概率。
从最简单的伯努利分布，到关于分布的分布的变态级别的狄利克雷分布，很多机器学习都在追求模型最符合抽样的分布概率。换句话说，就是希望从概率学上看，我们做出来的模型，和我们看到的样本之间，看上去是最相似。（最大似然）
例如，我们要做一个模型，表示抛一枚硬币有多大概率正面向上。如果我们的样本告诉我们，10次里面，有7次正面向上，则我们说这枚硬币70%会出现正面向上。这个模型的结论和样本之间，从概率学上看是最有可能的。
我们做的模型，就是追求和实际样本的结果，在概率学上看，是最有可能发生的情况。

最快梯度下降

最快梯度下降则几乎出现在所有的迭代算法中。
为什么梯度下降特别重要，因为大部分的算法都是尽可能将损失函数降低，怎么才能将损失函数降低，就是不停调整参数（权重），权重调整的方向，和梯度下降的方向是一致的。当然，最快梯度下降有可能不会收敛到全局最低点。（能否收敛到全局最低点，和初始位置有关）

机器学习和自然语言处理也是密不可分的。在很多自然语言处理中，将大量使用机器学习的概念。马尔可夫链和条件随机场，狄利克雷分布这些都是自然语言处理的基础理论。

最后编辑于：2017.12.06 03:02:00

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,590评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,808评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,151评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,779评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,773评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,656评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,022评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,678评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,038评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,756评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,411评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,005评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,973评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,053评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,495评论 2赞 343

白话机器学习

推荐阅读更多精彩内容