特征工程(feature engineering):利用领域知识和现有数据,创造出新的特征,用于机器学习算法;可以手动(manual)或自动(automated)。神经网络的...
特征工程(feature engineering):利用领域知识和现有数据,创造出新的特征,用于机器学习算法;可以手动(manual)或自动(automated)。神经网络的...
写作计划: 线性模型LR(没有考虑特征间的关联)——>LR +多项式模型(特征组合,不适用于特征稀疏场景,泛化能力弱)——>FM(适用于稀疏特征场景*,泛化能力强)——>FF...
通常说“数据决定了机器学习的上限,而算法只是逼近这个上限。”这里所说的数据指的就是特征工程得到的数据。Andrew Ng说过:“创造新的特征是一件十分困难的事情,需要丰富的专...
疑问:#use make_scorer to convert a metric to a scorer. 连续:'kilometer', 'power', 'brand_am...
最大熵模型属于运用最大熵原理的多分类模型,这个模型在面试中经常会与逻辑回归一起问,比如,为什么说二者是类似的?要解答这个问题,需要对两个模型的原理都有清晰的理解,很多面试者虽...
问题 传统线性模型问题:1 稀疏性:onehot带来数据稀疏性(尤其是id特征),使得特征空间变大;2 线性组合的权重,训练不充分,也会带来稀疏性;观察样本中未出现交互的特征...
白话“卡方检验” 什么是“卡方检验”? 卡方检验是假设检验的一种,用于分析两个类别变量的相关关系,是一种非参数假设检验,得出的结论无非就是“两个变量相关”或者“两个变量”不相...
有很多的生信软件都可以通过conda安装,省去了很多的安装、修bug的烦恼。经常是安装到崩溃的软件,conda一行命令就搞定了。前两天有个胖友问我gatk 3.8的版本在哪里...
不够通俗易懂,过渡讲解公式本身
机器学习面试之LSTM在深度学习中,RNN已经成为标准组件,很多领域都要用到,LSTM则是最经典的RNN结构。所以面试时是必问的,最基本的面试题就是要说清楚LSTM的结构。本文试图对其结构进行浅显...
xgboost 已然火爆机器学习圈,相信不少朋友都使用过。要想彻底掌握xgboost,就必须搞懂其内部的模型原理。这样才能将各个参数对应到模型内部,进而理解参数的含义,根据需...
如果使用基于最大似然估计的模型,模型中存在隐变量,就要用EM算法做参数估计。个人认为,理解EM算法背后的idea,远比看懂它的数学推导重要。idea会让你有一个直观的感受,从...
知乎上有个讨论,说学数学的看不起搞深度学习的。曲直对错不论,他们看不起搞深度学习的原因很简单,因为从数学的角度看,深度学习仅仅是一个最优化问题而已。比如,被炒的很热的对抗式生...
推荐系统遇上深度学习系列:推荐系统遇上深度学习(一)--FM模型理论和实践:https://www.jianshu.com/p/152ae633fb00 1、FFM理论 在C...
1、FM背景 在计算广告和推荐系统中,CTR预估(click-through rate)是非常重要的一个环节,判断一个商品的是否进行推荐需要根据CTR预估的点击率来进行。在进...