240 发简信
IP属地:上海
  • Collect_list/Collect_set

    Hive中collect相关的函数有collect_list和collect_set。 它们都是将分组中的某列转为一个数组返回,不同的是collect_list不去重而col...

  • 干货 | BERT fine-tune 终极实践教程

    从11月初开始,google-research就陆续开源了BERT的各个版本。google此次开源的BERT是通过tensorflow高级API—— tf.estimator...

  • 120
    决策树(一):信息熵

    信息是我们一直在谈论的东西,但信息这个概念本身依然比较抽象。但信息可不可以被量化,怎样量化?答案当然是有的,那就是“信息熵”。早在1948年,香农(Shannon)在他著名的...

  • 120
    集成学习系列(四)-AdaBoost与前向分步算法

    AdaBoost算法还有一个解释,即可以认为AdaBoost模型为加法模型,损失函数为指数函数,学习算法为前向分步算法时的二类分类学习方法。 首先,我们来看一下什么是前向分步...

  • 120
    集成学习系列(五)-GBDT(梯度提升决策树)

    以前一直以为GBDT算法十分的什么,而且十分难懂,但是最近看了李航老师的《统计学习方法》一书的第八章,从AdaBoost算法,到通过前向分步算法来解释AdaBoost算法,再...

  • 120
    Boosting 和 GBDT简介

    GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的...

  • 120
    GBDT入门教程之原理、所解决的问题、应用场景讲解

    来源:GBDT入门教程之原理、所解决的问题、应用场景讲解2017-04-23 机器学习算法与Python学习GBDT (Gradient Boosting Decision ...

  • 120
    CART 分类与回归树

    本文结构: CART算法有两步 回归树的生成 分类树的生成 剪枝 CART - Classification and Regression Trees 分类与回归树,是二叉树...

  • 120
    一篇文章,教你学会Git

    在日常工作中,经常会用到Git操作。但是对于新人来讲,刚上来对Git很陌生,操作起来也很懵逼。本篇文章主要针对刚开始接触Git的新人,理解Git的基本原理,掌握常用的一些命令...

  • 特征选择之Chi卡方检验

    卡方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(行话就叫做“原假设”),然后观察实际值(也可以叫做观察值...