240 发简信
IP属地:北京
  • 120
    六、Azkaban DE版改造功能介绍

    原生的 Azkaban 提供了强大的任务调度功能,但是面对复杂的业务要求,原生的Azkaban还是不能完全满足我们的需求。在对比Oozie、Airflow等流行的任务调度框架...

  • 0x10_为什么系列

    1、为什么要有监督类算法? A:在提炼算法的过程中,需要从中发现“规律”,那就是通过数据本身的属性去进行总结和归纳,本着有因有果的表象,需要对问题进行划分,如果属于 因果类的...

  • 120
    0x09_SVM

    支持向量机,解决的是分类问题,非监督分类。相比逻辑回归中根据sigmoid函数将“结果”压缩到0-1区间,根据概率函数进行建模,而SVM则是将数据进行“距离”建模,在处理上利...

  • 0x08_主成分分析法

    PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法(非监督的机器学习方法)。 其最主要的用途在于“降维”,通...

  • 120
    0x07_决策树

    决策树学习本质上是从训练数据集中归纳出一组分类规则。 决策树学习算法有三个步骤: 1、特征选择(选择最优划分属性) 2、决策树生成 3、决策树剪枝 相关对比说明:

  • 120
    0x06_逻辑回归

    在之前学习线性回归算法时,是做预测,相比逻辑回归本身是做分类。逻辑回归是通过sigmoid函数整合将预测值进行相应转换: 逻辑回归本质是求概率再分类。 #逻辑回归算法的损失...

  • 120
    0x05_多元线性回归+偏差与方差+L12正则

    #多元线性回归 通俗理解为 多元N次方程组,数据多了,靠拼凑。升维以解决高拟合。 #偏差与方差 偏差:模型的预测值与实际值的差距; 方差:模型在训练过程中预测值的波动情况。 ...

  • 机器学习_语义处理

    在看到语义处理——降维处理环节时,有用到LSA(潜语义分析)通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。 LSA和传统向量空间模型(vector spac...