机器学习实战

今天打开多看看到这本书免费阅读一天,遂记之!

关于本书

  • 数据挖掘十大算法

    • C4.5决策树、K-均值(K-mean)、支持向量机(SVM)、Apriori、最大期望算法(EM)、PageRank算法、AdaBoost算法、k-近邻算法(kNN)、朴素贝叶斯算法(NB)和分类回归树(CART)算法
  • 本书结构

    • 分类
    • 利用回归预测数值型数据
    • 无监督学习
    • 其他工具
  • 本书所有源代码均可在英文版出版商的网站上下载

第一部分:分类

第一章:机器学习基础

1.1 何谓机器学习

扯了半天,没像中文教材直接给结论!无非是讲了机器学习需要统计学来建立预测,在海量的信息中抽取有价值的信息,以及她很重要!

1.2 关键术语

  • 特征
    亦称属性
  • 分类
    机器学习的主要任务
  • 算法训练
    学习如何分类
  • 训练集
    为算法输入大量已分类数据,用于训练机器学习算法的数据样本集合
  • 目标变量
    机器学习算法的预测结果,在分类中是标称型,回归中是连续性
  • 类别
    分类中的目标变量,个数有限
  • 测试数据
    独立于训练数据的样本集

1.3 机器学习的主要任务

  • 监督学习
    分类和回归属于监督学习,因为他们需要知道目标变量的信息,即预测什么。
    • 分类
    • 回归
      预测数值型数据
  • 无监督学习
    数据没有类别信息,也不会给定目标值。可以减少数据特征的维度,以便我们可以使用二维或三维图形更加直观地展示数据信息
    • 聚类
      数据集合分成由类似的对象组成的多个类的过程
    • 密度估计
      寻找描述数据统计值的过程

监督学习的用途

  • k-近邻算法:线性回归
  • 朴素贝叶斯算法:局部加权线性回归、
  • 支持向量机:Ridge回归
  • 决策树:Lasso最小回归系数估计

无监督学习的用途

  • K-均值:最大期望算法
  • DBSCAN:Parzen窗设计

1.4 如何选择合适的算法

  1. 使用机器学习的目的
  • 监督学习
    预测目标变量的值

    • 分类算法
      目标变量是离散型
    • 回归算法
      连续数值
  • 无监督学习
    不需要预测值

    • 聚类算法
      仅需要将数据划为离散的组
    • 密度估计算法
      同时要需要估计数据与组的相似度
  • 需要分析或者收集的数据

    • 特征值离散还是连续
    • 特征值是否存在数据缺失,及其缘由
    • 是否存在异常值
    • 某个特征的频率

一般并不存在最好的算法或者可以给出最好结果的算法,同时还要尝试不同算法的执行效果。对于所选的每种算法,都可以使用其他的机器学习技术来改进其性能。

1.5 开发机器学习应用程序的步骤

  1. 收集数据
  • 爬虫
  • API
  • 实测,等
  • 准备输入数据
    统一数据格式,特定算法需要特定的数据格式
  • 分析输入数据
    确保没有垃圾数据,数据足够可信可跳过
    • 是否空值
    • 是否数据异常
    • 是否能识别出模式
    • 图形化展示
  • 训练算法
    抽取知识或信息,无监督学习不需要目标值,不存在此步骤
  • 测试算法
    对于监督学习必须用已知目标变量值,对于无监督学习采用其他手段来检验算法的成功率
  • 使用算法

第二章 K-近邻算法

2.1 k-近邻算法概述

kNN,测量不同特征值之间的距离来进行分类。

优点:精度高,对异常值不敏感,无数据输入假定
缺点:计算复杂度,空间复杂度高;无法给出数据的内在含义
适用:数值型,标称型

工作原理:
存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

第三章 决策树

3.1 决策树概述

决策树的一个重要任务是为了数据中所蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,这个过程就是机器学习过程。

流程图形式的决策树

优点:计算不复杂,结果易于理解,对中间值缺失不敏感,可以处理不相关的特征数据
缺点:可能会产生过度匹配
适用:数值型,标称型

3.1 决策树的构造

评估特征,找出处于最顶层的根特征,即在分类过程中处决定性分类。决策树的节点就是分类特征,由顶至下进行分类分类判断,知道所有的数据都到对应的分类中。数据结构中的各种树就是分类。

划分数据集的原则:将无序数据变得有序

信息增益(Information Gain):划分数据前后信息的变化

熵(Entropy):信息的期望值,集合信息的量度,值越高混合的数据越多

基尼不纯度(Gini Impurity):集合无序的度量

第四章 基于概论论的分类方法:朴素贝叶斯

4.1 基于贝叶斯决策理论的分类方法

优点:在数据较少的情况下仍然有效,可以处理多类别问题。
缺点:对于输入数据的准备方式较为敏感。
适用:标称型数据。

核心:选择具有最高概率的决策

贝叶斯定理

Logistic 回归

优点:计算代价不高,易于理解和实现。
缺点:容易欠拟合,分类精度可能不高。
适用:数值型和标称型数据。

能接受所有的输入然后预测出类别,需要无突变的单位阶跃函数,Sigmoid函数

Sigmoid函数

为了实现Logistic回归分类器,我们可以在每个特征上都乘以一个回归系数,然后把所有的结果值相加,将这个总和代入Sigmoid函数中,进而得到一个范围在0~1之间的数值。任何大于0.5的数据被分入1类,小于0.5即被归入0类。所以,Logistic回归也可以被看成是一种概率估计。

Sigmoid函数的输入记为z,由下面公式得出:

Paste_Image.png

如果采用向量的写法,上述公式可以写成z=wx,它表示将这两个数值向量对应元素相乘然后全部加起来即得到z值。其中的向量x是分类器的输入数据,向量w也就是我们要找到的最佳参数(系数),从而使得分类器尽可能地精确。为了寻找该最佳参数,需要用到最优化理论的一些知识。

梯度上升法

要找到某函数的最大值,最好的方法是沿着该函数的梯度方向探寻。如果梯度记为∇,则函数f(x,y)的梯度由下式表示:

函数f(x,y)的梯度

Logistic回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数,求解过程可以由最优化算法来完成。在最优化算法中,最常用的就是梯度上升算法,而梯度上升算法又可以简化为随机梯度上升算法。随机梯度上升算法与梯度上升算法的效果相当,但占用更少的计算资源。此外,随机梯度上升是一个在线算法,它可以在新数据到来时就完成参数更新,而不需要重新读取整个数据集来进行批处理运算。

支持向量机

支持向量机(Support Vector Machines,SVM)

最流行的一种实现,即序列最小优化(Sequential Minimal Optimization,SMO)算法。

优点:泛化错误率低,计算开销不大,结果易解释。
缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。
适用:数值型和标称型数据。

很容易就可以将两组数据点分开,称为线性可分(linearly separable)数据

将数据集分隔开来的,分隔超平面(separatinghyperplane)

找到离分隔超平面最近的点,确保它们离分隔面的距离尽可能远。这里点到分隔面的距离被称为间隔(margin)。

点A到分隔平面的距离就是该点到分隔面的法线长度
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342

推荐阅读更多精彩内容