快速入门了解机器学习

以下是最近机器学习笔记,有空再整理

1.机器学习定义

机器学习是一门从数据中研究算法的科学学科,坦白来讲,是根据已有的数据,进行算法选择,并基于算法和数据构建模型,最终对未来进行预测

  • 数学过程
    • 输入
    • 输出
    • 获得一个目标函数
    • 输入数据
    • 最终选择最优性能的假设公式:目标函数f未知,从数据中得到一个假设的函数g,使其获得接近目标函数f的效果
  • 任务定义
    • 给定任务T
    • 给定性能度量方案P的前提下
    • 计算机程序自主学习任务T的经验E,随着提供大量,优质,合适的经验E,该程序对于任务T的性能逐步提高
  • 过程
    • 算法:根据业务需要和数据特征选择相关算法,也就是一个数学公式
    • 模型: 基于数据和算法构建出来的模型
    • 评估/测试:对模型进行评估的策略
  • 机器学习是人工智能的一个分支,我们使用计算机设计一个系统,使他能够根据提供的训练数据按照一定的方式来学习,随着训练次数的增加,该系统可以在性能上不断学习和改进,通过参数优化的学习模型,能够用于预测相关问题的输出
  • 数学概念
    • 向量 (可以看成一维矩阵)
    • 矩阵
    • 标量 只是值,没有方向
    • 拟合: 构建的算法符合给定数据的特征
    • $x^i$ 表示第i个样本的x向量
    • $x_n$ x向量的第i维度的值
    • 鲁棒性 也就是健壮性,当存在异常数据时,算法也会拟合数据
    • 过拟合 算法太符合样本数据的特征,对于实际生产中的数据无法拟合
    • 欠拟合 算法不太符合样本的数据特征
  • 机器学习常用框架
    • sciket-learn(python)
      • 分类,回归,聚合,降维,模型选择,数据处理
      • sciket-learn官网提供,模型选择图
    • mahout(Hadoop生态圈基于MapReduce)
    • Spark MLlib

2.机器学习,人工智能,深度学习联系

  • 深度学习是机器学习的子类,深度学习是基于传统的神经网络算法发展到多隐层的一直算法提现
  • 机器学习是人工智能的一个子类

3.机器学习常用概念和工作场景

  • 应用场景:
    • 个性化推荐:个性化推荐是根据各种因素来改变用户体验和呈献给用户内容,这些因素可能包含用户的行为数据和外部因素,推荐常指系统向用户呈现一个用户可能感兴趣的物品列表
    • 精准营销:从用户群众中找出特定要求的营销对象
    • 客户细分:试图将用户群体分为不同的组,根据给定的用户特征进行客户分组
    • 预测建模及分析:根据已有的数据进行建模,并使用得到的模型预测未来
  • 商业场景
    • 模式识别
    • 计算机视觉
    • 数据挖掘
    • 统计学习
    • 语音识别
    • 自然语言处理

4.机器学习,数据分析,数据挖掘区别和联系

  • 数据分析:数据分析是指用适当的统计分析方法对收集大量数据进行分析,并提取有用的信息,以及形成结论,从而对数据进行详细的研究和概括过程,在实际工作中数据分析可以帮助人们做出判断,数据分析一般而言可以分为统计分析,探索性数据分析和验证性数据分析三大类
  • 数据挖掘:一般指从大量的数据中通过算法搜索隐藏于其中的信息的过程,通常通过统计,检索,机器学习,模式匹配等诸多方法来实现这个过程
  • 机器学习:是数据分析和数据挖掘的一种比较常用,比较好的手段

5.机器学习分类

  • 按照学习方式分
    • 有监督学习
      • 判别式模型:直接对条件概率建模,常见的判别模型有:线性回归,决策树,支持向量机SVM,k近邻,神经网络
      • 生成式模型:对联合分布概率进行建模,常见生成式模型有:隐马尔可夫HMM,朴素贝叶斯,高斯混合模型GMM,LDA等
      • 生成式模型更普适;判别式模型更直接,目标性更强
      • 生成式模型关注数据是如何产生的,寻找的是数据的分布模型,判别式模型关注的数据的差异性,寻找的分类面
      • 有生成式模型可以产生判别式模型,但是由判别式模型没法形成生成式模型
    • 无监督学习(主要前期处理多一点,一般服务于有监督学习)
      • 无监督学习试图学习或者提取数据背后数据特征,或者从数据中抽取出重要的特征信息,常见的算法有聚类,降维,文本处理(特征抽取)等
      • 无监督学习一般是作为有监督学习的前期数据处理,功能是从原始数据中抽取出必要的标签信息
    • 半监督学习
      • 主要考虑如何利用少量标注样本和大量为标注样本
  • 按照功能分
    • 分类:通过分类模型,将样本数据集中
    • 聚类:
    • 回归:
    • 关联规则:
  • 机器学习算法Top10
  • 算法名称 算法描述
    C4.5 分类决策树算法,决策树的核心算法,ID3算法的改进算法
    CART 分类与回归树
    KNN k近邻分类算法
    NaiveBayes 贝叶斯分类模型,该模型比较适合属性关联比较小的时候,如果属性关联比较大的时候,决策树模型比贝叶斯分类模型分类效果要好(原因:贝叶斯模型假设属性之间是互不影响的)
    SVM 支持向量机,一种有监督学习的统计学习方法,广泛应用于统计分类和回归分析中
    EM 最大期望算法,常用于机器学习和计算机视觉总的数据聚集领域
    Apriori 关联规则挖掘算法
    K-Means 聚类算法
    PageRank Google搜索重要算法之一
    AdaBoost 迭代算法;利用多个分类器进行数据分类

7.机器学习开发流程

  • 基础
    • 高数
    • sql
    • python数据分析基础:pandas,numpy,matplot,sklearn
  • 1.数据收集--业务数据-sql,爬虫数据
    • 案例:贷款审批额度:简历数据(学历,性别,工作经验,从事行业,专业,城市,薪资,学校--预测薪资--计算额度)
    • 传统方法,根据规则人工计算
  • 2.数据预处理
    • 数据库,hive,python中处理
  • 3.特征提取
    • 属性特征
    • 模型选择
  • 4.构建模型
    • 分类(常用)
    • 回归
    • 聚类
  • 5.模型评估
    • 新数据来测试做的模型,生产数据分2份,一部分测试,一部分训练
    • ROC
    • AUC
    • 准确率,召回率
  • 6.部署上线
    • 得到的模型部署
  • 7.迭代

8.数据收集与存储

  • 8.1数据来源
    • 用户访问行为数据
    • 业务数据
    • 外部第三方数据,爬虫数据
  • 数据存储
    • 需要存储的数据:原始数据,预处理后数据,模型结果
    • 存储设施:mysql,HDFS,HBase,solr,Elasticsearch,kafka,Redis等
  • 数据收集方式:
    • fluma,kafka

9.机器学习常用数据集

  • 各种比赛的公开数据集,kaggle,天池,搜狗,pkbigdata

10.数据清洗和转换

  • 处理数据缺失
  • 处理异常,错误的数据
  • 合并多个数据源数据
  • 数据汇总
  • 前期数据分析
  • 文本数据抽取
    • 词袋法:将文本当成一个无序数据集合
    • TF-IDF:词频,逆文档词频

11.模型训练和验证


  • 模型选择:对特定任务场景选择最优模型
  • 在训练数据集上运行模型并在测试数据集中测试效果,迭代进行数据模型的修改,这种方式称为交叉验证(将数据分为训练集和测试集,使用训练集构建模型,并使用测试集评估模型提供修改建议)
  • 模型的选择会尽可能多的选择算法进行执行,并比较执行效果
  • 模型测试一般一下几个方面来进行比较,分别是准确率,召回率,精确率,F值
    • 准确率(Accuracy)=提取出的正确样本数/总样本数
    • 召回率(正确的正例样本数/样本中的正例样本数)
    • 精确率(Precision)=正确的正例样本数/预测为正例样本数
    • F值 = Precision * Recall * 2/(Precison+Recall)(F值为正确率和召回率的调和平均值)
    • 混淆矩阵
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352