机器学习算法

算法常见分类

有监督算法 KNN ID3

无监督算法 Apriori Kmens

其他算法

算法:计算机解决特定问题的步骤。
有监督学习: 利用一组已知类别的样本来训练模型。训练数据均有一个明确的标识。
无监督学习:从无标记的训练数据中推断结论。输入数据不存在明确胡标识或结果。常见无监督学习为聚类。

有监督学习

分类Classification:通过已有数据集的学习。得到一个目标函数,把每个属性集x映射到目标属性y,y是离散的。
回归Regression:y是连续的。

按照原理分类
基于统计:贝叶斯分类
基于规则:决策树算法
基于神经网络:神经网络算法
基于距离:KNN

常用评估指标:
精确率:预测结果与实际结果的比例。
召回率:预测结果中某类结果的正确覆盖率。
F1-Score:统计量,综合评估分类模型,0-1之间。越大越好

KNN

K Nearest Neighbour
步骤:
1.确定K值,确定距离公式
欧式距离,曼哈顿距离,余弦相似度
2.计算距离
3.圈定符合条件的k值记录
训练简单
缺点:
及时性差
K值影响大
容易误判

决策树(ID3,Iterative Dichotomiser 3,迭代树三代)

J Ross Quinlan
1.准备工作
熟悉数据,明确目标
明确自变量和因变量
明确信息度量方式(熵、基尼系数)
明确分支终止条件
2.选择特征
第一级特征选择
计算整体的熵
计算基于特征1的熵
计算基于特征2的熵
……
计算特征1的信息增益
计算特征2的信息增益
……
3.创建分支
第一层分支
第二层分支
……
4.是否终止
纯度为零就可以终止
5.结果生成

缺点:
信息度量不合理
输入类型单一
不做剪枝,容易过拟合

改进算法:
C4.5
信息增益率替代信息增益
对连续属性离散化
进行剪枝
C50
使用boosting
前修剪,后修剪

CART Classification and Regression Tree

Jerome Friedman, Leo Breiman,Charles Stone
核心是基尼系数
分类是二叉树
支持连续值和离散值
后剪枝进行修剪
支持回归,可以预测连续值

其他有监督学习算法

分类算法
KNN(K最近邻,K Nearest Neighbour)
NB (朴素贝叶斯,Naive Bayes)
DT (决策树,Decision Tree)
SVM (支持向量机,Support Vector Machine)
回归预测
线性回归 (Linear Regression)
逻辑回归 (Logistic Regression)
岭回归 (Ridge Regression)
拉索回归 (Lasso Regression)

无监督学习算法

聚类算法 Clustering

将相似的事物聚集在一起,将不相似的事物划分到不同的类别。
层次聚类
划分聚类
密度聚类

K-Means,K均值聚类

属于划分聚类
1.确定聚类个数
观察法、枚举法、交叉验证
2.计算每个点和聚类中心的距离
3.根据距离更新中心点位置
4.直到中心点不再变化
优点:
原理简单
结果容易解释
聚类结果好
缺点:
K值需要先指定
初始K值影响结果
只能识别球状类
计算量大
对异常值敏感,对离散值需要特殊处理

关联规则 Association Rule

反映事物与事物相互的依存和关联性
1.确定最小支持度,最小置信度
确定1项频繁项集
确定2项频繁项集
确定3项频繁项集

常见无监督学习算法

  • 聚类算法
    K均值(K-Means)
    DBScan
    最大期望(EM, Expectation Maximization)
    降维:PCA(主成分分析), PLS(偏最小二乘回归), MDS(多维尺度分析)
    ……
  • 关联规则
    Apriori
    Eclat
    ……

其他学习算法

  • 半监督学习
    训练数据有部分被标识,部分没有被标识。先学习数据的内在结构,再组织数据预测。
  • 集成学习
    针对同一数据集,训练多种学习器。
    Bagging
    有放回抽样构建多个数据集
    训练多个分类器
    最终结果各分类器结果投票得出
    实现简单
    Boosting
    重复使用一类学习器来修改训练集
    每次训练后根据结果调整样本权重
    每个学习器加权后的线性组合即为最终结果
    Stacking
    由初级学习器和高级学习器组成
    第一级学习器的输出为第二级学习器的输入
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350

推荐阅读更多精彩内容