机器学习
ROC曲线、AUC、PR曲线等
决策树,ID3、C4.5、CART
决策树,随机森林、Adaboost、GBDT
决策树,XGBoost、LightGBM
逻辑回归,L1L2正则化
熵,KL散度,交叉熵
micro-f1, macro-f1
神经网络
BP算法
优化器
注意力和Softmax的两点有趣发现:鲁棒性和信息量
softmax反向传播推导
交叉熵函数优于均方差函数的推导和tf/keras实现
为什么分类问题用交叉熵损失而不用均方误差损失?
autoDim
deep hash embedding
embedding维度选择
梯度消失、梯度爆炸与不良的初始化
权重初始化方法Lecun、Xavier与He Kaiming
batch norm
bn与layer norm
l1l2正则,dropout
Transformer/attention is all you need
transformer解析
transformer中的attention为什么scaled
attention/transformer
nlp中的gelu
Transformer位置编码
bert
Bert/Transformer几个细节
attention与推荐
使用Keras实现attention/transformer
推荐模型中的attention
多目标排序在爱奇艺短视频推荐中的应用
youtube预期播放时长建模
快手播放时长建模
推荐模型在线学习
LHUC动态权重
推荐算法位置纠偏
阿里妈妈模型演化
TDM树形召回
ETA: 用户长序列处理
阿里SDM召回
阿里DSIN排序
tf1.x教程
tfDataset
tfRecord
TensorFlow中层API:Datasets+TFRecord
美团点评搜索相关性模型演进
微博推荐实时大模型的技术演进
对比学习
谷歌双塔研究:顶层参数共享使双塔在同一个向量空间
训练深度学习网络时候,出现NaN是什么原因,怎么避免
多目标
多目标
GCN
GCN
阿里EGES召回
hash embedding
hash embedding
deep hash embedding
senet
Fibinet
esmm
mmoe
mmoe
视频播放建模
连续变量离散化的原因
embedding维数选择
Group Norm
多任务学习GradNorm
分类问题AUC为0.5的原因及解决方案
验证集的loss小于训练集的loss的原因分析
难样本挖掘
gpu利用率低原因
如何选择学习率和batch_size
Huggingface用例简介
prompt-tuning
p-tuning v2
激活函数
常用激活函数
激活函数非0中心导致的问题
Dead ReLU Problem相关
softmax以及与ce的求导
Softmax函数和Sigmoid函数的区别与联系
测试集auc高于训练集
模型中的特征重要性
样本数量和模型参数量
使用 tf.data API 提升性能
分析 tf.data 性能
tensorboard使用
使用 Profiler 优化 TensorFlow 性能
TFRecord
其他
hive中join下on和where
Java程序占用 CPU 过高排查方法