机器学习和书籍入门

转载于：KDnuggets

目的：初学者，共同学习

具体网址为：https://www.kdnuggets.com/2017/10/top-10-machine-learning-algorithms-beginners.html/2

一，导言

“

哈佛商业评论”这篇文章称“数据科学家”是“21世纪最性感的工作”，对ML算法的研究已经获得了巨大的推动。所以，对于那些ML开始的人来说，我们决定重启一下我们非常流行的Gold博客10算法机器学习工程师需要知道- 尽管这篇文章是针对初学者。

ML算法是那些可以从数据中学习并从经验中改进的算法，无需人工干预。学习任务可能包括学习将输入映射到输出的函数，在未标记的数据中学习隐藏的结构; 或者“基于实例的学习”，其中通过将新实例（行）与来自存储在存储器中的训练数据的实例进行比较来为新实例生成类标签。“基于实例的学习”不会创建具体实例的抽象。

II。ML算法的类型

有三种ML算法：

1.监督学习：

监督学习可以解释如下：使用标记的训练数据来学习从输入变量（X）到输出变量（Y）的映射函数。

Y = f（X）

监督学习问题可以有两种类型：

一个。分类：预测输出变量处于类别形式的给定样本的结果。例子包括男性和女性，病态和健康等标签。

湾回归：预测输出变量为实值形式的给定样本的结果。例子包括表示降雨量和人的身高的实值标签。

我们在这篇博客中介绍的前5个算法 - 线性回归，Logistic回归，CART，朴素贝叶斯，KNN是监督学习的例子。

合奏是一种监督学习。这意味着结合多个不同弱ML模型的预测来预测新的样本。我们覆盖的算法9-10 - 随机森林套袋，XGBoost增强是集合技术的例子。

2.无监督学习：

无监督学习问题只有输入变量（X），但没有相应的输出变量。它使用无标签的训练数据来模拟数据的基本结构。

无监督学习问题可以有两种类型：

一个。关联：发现集合中项目共现的概率。它广泛用于市场篮子分析。例如：如果顾客购买面包，他有80％的可能购买鸡蛋。

湾群集：对样本进行分组，使得同一个群集内的对象彼此之间的关系比来自另一个群集中的对象更为相似。

C。维度降低：正如其名称，维度降低意味着减少数据集的变量数量，同时确保重要的信息仍然传达。可以使用特征提取方法和特征选择方法来完成维度降低。特征选择选择原始变量的一个子集。特征提取执行从高维空间到低维空间的数据转换。例如：PCA算法是一种特征提取方法。

我们在这里介绍的算法6-8是Apriori，K-means，PCA是无监督学习的例子。

3.强化学习：

强化学习是一种机器学习算法，它允许代理根据其当前状态决定最佳的下一个动作，通过学习将最大化奖励的行为。

强化算法通常通过反复试验来学习最佳行为。它们通常用于机器人 - 机器人可以通过在碰到障碍物后接收负面反馈来学习避免碰撞，以及在视频游戏中 - 反复试验显示特定动作可以激发玩家的奖励。代理人然后可以使用这些奖励来了解游戏的最佳状态并选择下一个动作。

III。量化ML算法的流行度

这些

调查报告对10种最流行的数据挖掘算法进行了量化。但是，这样的清单是主观的，就像在引用的文件中那样，被调查参与者的样本规模非常狭窄，由数据挖掘的高级从业人员组成。受访者是ACM KDD创新奖，IEEE ICDM研究贡献奖的获奖者; KDD-06，ICDM'06和SDM'06的计划委员会成员; 和ICDM'06的145名与会者。

本博客中排名前十的算法适用于初学者，主要是我在孟买大学计算机工程学士学位期间从“数据仓库与挖掘”（DWM）课程中学到的。DWM课程是对ML算法领域的一个很好的介绍。我特别把最后两个算法（集合方法）包括在他们的流行的基础上，以赢得Kaggle比赛。希望你喜欢这篇文章！

IV。监督学习算法

线性回归

在ML中，我们有一组输入变量（x）用于确定输出变量（y）。输入变量和输出变量之间存在关系。ML的目标是量化这种关系。