机器学习:数据处理、算法选择、算法验证

1. 数据处理
  • 转换数据格式
     比如将名称用数字表示、浮点数转为整数
  • 特征值的类型
     离散型还是连续型,这会影响算法的选择
  • 特征值的提取
     去掉没用的数据比如 ID 值
     去掉发生频率太低的特征
     直接提取有用的特征
     需要的话整合特征,比如
       取一段时间内的均值做特征值
       取两列数据的和做特征值
       取两列数据的皮尔逊相关系数 (Pearson Correlation Coefficient) 做特征值
  • 特征值编码
     比如一个特征有5个值,自然顺序编码可以用 1~5 代替,独热编码用 00001、00010 表示
  • 特征值缺失
     照样使用、扔掉、还是填补
     填补方式
       取特殊值如 -1、0、Null 填补
       取均值填补
       极大似然估计、建模预测、高维映射、多重插补等
  • 标签值缺失
     扔掉
  • 重复数据
     扔掉还是照样使用
  • 异常值 (outlier) 处理
     扔掉、鲁棒回归、或者使用对数或者高斯核对其转换
  • 归一化
     为防有些特征值权重太大,进行归一比如通过
       \small newValue = (oldValue - min)/(max - min)
     可以转化为 0 到 1 的值
  • 标准化
    \small newValue = (oldValue - mean)/std    ## 减去平均值,再除以方差
  • 正则化
     作用是降维?减少特征?
  • 降维
     用于减少特征数量或是样本数量,只保留重要的数据,比如算法 PCA 和 SVD
      PCA(主成分分析)
       取 N 个方差最大且相互正交的方向,进行矩阵转换,步骤如下
       1. 先计算数据集的协方差矩阵 covMat
       2. 再通过下面的代码求 covMat 的特征值向量和特征向量矩阵
          \small np.linalg.eig(np.mat(covMat))
       3. 取最大的 N 个特征值
       4. 使用新的特征向量矩阵将原始数据集矩阵转换到只有 N 个特征值的新的数据集
      SVD (奇异值分解)
       取 N 个最大的奇异值,进行矩阵转换,步骤如下
       1. 分解原数据矩阵 \small Data(m,n) = U(m,m) * Σ(m,n) * VT(n,n),代码如下
          \small U,Sigma,VT = np.linalg.svd(data)
       2. 其中 \small Σ(m,n) 只有对角线有值,取最大的 r 个值为新矩阵 SigmaR,则
          \small Data(m,n) ≈ U(m,r) * Σ(r,r) * V.T(r,n)
       3. 然后通过下面代码对原数据进行压缩
          \small dataNew = U[:,:r]*SigmaR*VT[:r,:]
  • 存储空间
     可否使用稀疏矩阵减少空间
  • 非均衡分类
     主要以下两种
      1. 正反例数目相差大,可以用过抽样和欠抽样方法来调节正反例数目
      2. 算法要考虑分类错的代价,如垃圾邮件分到收件箱和正常邮件分到垃圾箱后果不同
     混淆矩阵
      \small a[i][j]:  预测 i 类型结果出现的是 j 类型的次数,完美的分类器非对角元素均为 0
      \small TP:   预测 +1 结果是 +1
      \small TN:   预测 -1 结果是 -1
      \small FP:   预测 +1 结果是 -1
      \small FN:   预测 -1 结果是 +1
     正确率:
      \small TP/(TP+FP)    ## FN 代价比较小则更关注正确率
     召回率
      \small TP/(TP+FN)    ## FN 代价比较大则更关注召回率
     ROC 曲线
      横轴是 \small FP/(FP+TN)、纵轴是 \small TP/(TP+FN)
      曲线下的面积给出的是分类器的平均性能值
  • 数据可视化
     选择哪些特征,用什么图形显示,当特征太多时很难在一个图中显示出来


2. 算法选择
  • 想要预测目标变量的值,可以选择监督学习算法,进一步确定目标变量类型,如果目标变量是离散型可以选择分类器算法,如果目标变量是连续型的数值则需要选择回归算法
  • 不用预测目标变量的值,可以选择无监督学习算法,进一步分析是否需要将数据划分为离散的组,如果这是唯一需求,则使用聚类算法,如果还要估计数据与每个分组的相似程度,则需要使用密度估计算法
  • 多数情况下,上面的方法都能帮助选择恰当的机器学习算法,但这也并非一成不变
  • 我们只能在一定程度上缩小算法的选择范围,一般并不存在最好的算法或者可以给出最好结果的算法,一般说来发现最好算法的关键环节是反复试错的迭代过程


3. 算法验证
  • 划分数据集
     训练集和测试集:一个用于训练,一个用于测试,训练集要更大,两个数据集要有随机性
     做交叉验证,比如:
      1. 数据分为 K 个子集,一个作测试集,其余作训练集,重复 K 次做交叉验证
      2. 数据分为 K 个子集,每个又分 S0,S1 子集,用 S0 训练,用 S1 测试,再反过来用
      3. 每个样本单独做测试集,其余 n-1 个样本作训练集,重复 n 次

  • SRM 和 ERM
     泛化能力用于衡量算法在样本空间上的表现
     如果过于专注于样本,会出现过拟合的现象
     如果过于罔顾样本,又会出现欠拟合的现象
     所以需要张弛有度,SRM 和 ERM 就是研究这个的
     损失函数
      记为 \small L(Y, F(X)) 针对单个具体的样本,表示预测值与真实值之间的差距
       0-1 损失函数
         \small L(Y, F(X)) = 1 \quad if \quad Y != F(X) \quad else \quad 0
       平方损失函数
         \small L(Y, F(X)) = (Y - F(X))^{2}
       绝对损失函数
         \small L(Y, F(X)) = |Y - F(X)|
       逻辑损失函数
         \small L(Y, F(X)) = Ylog(1+e^{-F(X)}) + (1-Y)log(1+e^{F(X)})
       对数损失函数
         \small L(Y, P(Y|X)) = - logP(Y|X) = - \frac{1}{N}\sum_{i=1}^{M}\sum_{j=1}^{N}y_{ij}log(p_{ij})
           \small N 为样本数,\small M 为类别数
           \small y_{ij} 表示类别 j 是否是输入实例 \small x_{i} 的真实类别
           \small p_{ij} 为预测输入实例 \small x_{i} 属于类别 j 的概率
       
       不同的损失函数用于不同的算法
       比如平方损失函数和绝对损失函数通常用于回归,其他几种用于分类
    ERM
      Empirical Risk Minmization,经验风险最小化
        \small R = \frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i})))
      ERM 就是最小化 R,但 R 太小容易出现过拟合的情况
    SRM
      Structural Risk Minmization,结构风险最小化
        \small R =\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))) + \lambda J(f)
           \small \lambda 是一个系数,\small J(f) 表示模型 \small f 的复杂度
      相当于
        \small SRM = ERM + λJ(f)
      如果 ERM 越小就意味着函数复杂度也就是 \small λJ(f) 越大
      这样求出来的使得 R 最小的模型就是一个比较平衡的模型

  • 最小化目标函数
    ERM 公式和 SRM 公式也可以被称为目标函数,可改写为
      \small Obj = L + O
      其中
       L 代表损失函数用于衡量模型对数据的拟合程度
       O 可称为正则化项,用于惩罚复杂的模型,防止过拟合,常用 L2 正则和 L1 正则

        L1-NormL2-Norm,中文称 L1 正则化和 L2 正则化,或 L1 范数和 L2 范数

        L1 正则化是指向量中各个元素的绝对值之和,通常表示为
          \small \left \| W \right \|_{1}=\sum_{i=1}^{N}|w_{i}|
        L2 正则化是指向量中各个元素的平方和然后再求平方根,通常表示为
          \small \left \| W \right \|_{2}=\sqrt{\sum_{i=1}^{N}w_{i}^{2}}

        L1 正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择
        L2 正则化可以防止模型过拟合 (一定程度上,L1 也可以防止过拟合)

        比如 Lasso 回归就使用的 L1,而 Ridge 回归(岭回归)就使用的 L2

     训练数据就是最小化目标函数 Obj
      多数时候是求梯度,通过一定步长沿着梯度前进,最终实现最小化 Obj

  • 偏差
     预测值和实际值的差距

  • 方差
     预测值的变化范围

  • 皮尔逊相关系数
     可用于计算预测结果和真实结果之间的相关性




最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容