
gbdt和xgboost是非常非常常用的数据挖掘算法,常用到什么程度呢,你要是去参加面试,肯定有人会问你用过xgboost吗?能说出来gbdt、xgboost、lightgb...
安装faiss 必须指定faiss-cpu或faiss-gpu 天池平台免费机器内存不足,执行一半会崩,坑 重新下载数据集到本地跑,usercf太耗内存,放弃该项召回。 特征...
task_02的任务是EDA,EDA是数据分析很关键的一环,可以让我们通过图形的方式更好地洞察数据的秘密。 通过这个任务学到了怎样画MxN图, seaborn作图确实好看
天池实验室试用 1.新建Notebook 2.挂数据集: 发现无法挂上,最后只能用wget的方式下载。 3.跑baseline baseline居于item cf,同时加上了...
二维互相关运算 二维互相关(cross-correlation)运算的输入是一个二维输入数组和一个二维核(kernel)数组,输出也是一个二维数组,其中核数组通常称为卷积核或...
数据预处理 将数据集清洗、转化为神经网络的输入minbatch 分词 将句子转为单词组成的列表 建立词典 PAD、BOS、EOS、UNK Encoder-Decoder en...
过拟合和欠拟合 模型越复杂,越容易过拟合 如果训练数据集中样本数过少,特别是比模型参数数量(按元素计)更少时,过拟合更容易发生。 权重衰减 权重衰减等价于L2范数正则化(re...
预处理通常包括四个步骤: 读入文本 分词 建立字典,将每个词映射到一个唯一的索引(index) 将文本从词的序列转换为索引的序列,方便输入模型 语言模型 假设序列w1,w2,...
线性回归 损失函数 平方误差 优化函数 - 随机梯度下降 小批量随机梯度下降 其中:学习率:η代表在每次优化中,能够学习的步长的大小 批量大小:B是小批量计算中的批量大小 ...
多重共线性是使用线性回归算法时经常要面对的一个问题。在其他算法中,例如决策树和贝叶斯,前者的建模过程是逐步递进,每次拆分只有一个变量参与,这种建模机制含有抗多重共线性干扰的功...