240 发简信
IP属地:广东
  • 《深度工作》

    所谓深度工作(Deep Work),就是在无干扰的状态下专注进行职业活动,使个人的认知能力达到极限。这种努力能够创造新价值,提升技能,而且难以复制。 深度工作可以帮助我们: ...

  • 120
    集成学习(面试准备)

    1、什么是集成学习 根据维基百科的说法:在统计学和机器学习中,集成学习方法使用多种学习算法来获得比单独使用任何单独的学习算法更好的预测性能。 具体说来,就是对于训练集数据,我...

  • Perceptron & KNN(面试准备)

    1、简述感知机模型并证明其收敛性 感知机是二分类的线性分类模型,感知机对应于特征空间中将实例划分为正负两类的分离超平面,属于判别模型。 感知机模型如下: 其损失函数为误分类的...

  • Decision Tree(面试准备)

    1、谈谈对决策树的理解(定义&原理) 定义 决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程: 决策树可以被视为一组完备且互斥的 if-then 规则的集...

  • LogisticRegression & Maxent(面试准备)

    1、手推LogisticRegression(损失函数) 二项逻辑斯蒂回归模型是如下条件概率分布: 这里的包含偏置项,即为,其对应的。 由此可得: 即: 也就是说,的对数几率...

  • SVM(面试准备)

    1、手推SVM 整体思路: 定义样本点到目标超平面的几何距离: 定义间隔(margin)为各样本点到超平面的最小距离: 根据间隔最大化的目标写出规划: 由于和对应超平面相同,...

  • 增量式开发

    以下摘录自《Think Python》。 随着你写的函数越来越大,你在调试上花的时候可能会越来越多。为了应对越来越复杂的程序,你可能会想尝试一种叫作增量式开发(increme...

  • 120
    Indicator of Generalization

    机器学习中至关重要的问题就是如何衡量模型的泛化能力,泛化能力的强弱直接度量了算法是否学习到了对任务真正重要的特征。 在深度学习中,防止过拟合更是重中之重,因为神经网络的学习能...

  • 120
    LightGBM原理理解

    1、概述 LightGBM是微软于2017年提出的boosting框架,其基本原理与XGBoost一样,使用基于学习算法的决策树,只是在框架上做了一优化(重点在模型的训练速度...

  • 笔误,已修改。多谢提醒。

    kaggle入门之战——Titanic

    机器学习的理论部分大致过了一遍了,下一步要理论联系实践了。Kaggle是一个很好的练手场,这个数据挖掘比赛平台最宝贵的资源有两个: 各种真实场景产生的数据集。这些数据集并不像...

  • 120
    Hessian Matrix: When Gradient is Zero

    在 Why Deep Structure 一文中我已经说明了 Deep Structure 的表示能力很强,以及相比 Shallow Structure 的优势所在。但“能力...

  • 120
    Why Deep Structure?

    1、Can shallow network fit any function? 为什么我们需要深度学习呢? 所谓深度学习,就是用层数较多的神经网络进行学习,那么浅的神经网络有...

  • 120
    XGBoost原理理解

    XGBoost = Extreme Gradient Boosting,也就是说,XGBoost 把 Gradient Boosting 做到了极致,具体来说,这种极致体现在...

  • 120
    Regression Tree (VS Linear Regression)

    Regression Tree 模型相比 Linear Regression 模型有何优势呢? Linear Regression 是最经典的回归模型,可用下式表示: 然而 ...

  • 120
    Gradient Boosting简介

    顾名思义,Gradient Boosting = Gradient Descent + Boosting。 既然是Boosting,就是在现有模型基础上进行提升,提升的方法就...

  • 爱情

    透过眼镜上的雨滴瞄准 她的口唇轻启 从未猜到只言片语幸福的时刻 只有屏息的一瞬当裙摆从身旁抚过 芳香的风 静止不必回头 她将走进便利店两块巧克力 一盒牛奶十五分...

  • House Prices: Advanced Regression Techniques

    kaggle入门三部曲的尾声,终于迎来了一个难搞的数据集。之前的Titanic用到的特征工程和数据清洗技巧放在这里已经完全不够用了,于是这个比赛的主要目的在于学习对数据的处理...

  • 120
    Digit Recognizer

    手写数字识别是非常经典的入门级实践项目了,MNIST则是用来初步检验一个图像分类方法好坏的不二之选数据集。之前练习keras的时候也用CNN跑过正确率90%以上的模型,但在k...

  • 120
    Wide & Deep Learning for Recommender Systems

    《Wide & Deep Learning for Recommender System》是Google发表在 DLRS 2016 上的文章。Wide&Deep模型的核心思想...