1.机器学习算法
- 西瓜书
-
神经网络: neural-networks-and-deep-learning-zh
- 优点:准确率高,可并行计算,逼近复杂的非线性关系,做特征提取
- 缺点:需要大量参数,解释性差,训练时间长
- 种类:CNN(卷积),RNN(循环),DNN(全连接神经元)
- 防止过拟合:1.正则,2.早停(当验证集误差升高时停止)
- 跳出局部极小值:1. 多组不同参数初始化,2.每一步以一定概率接受比现在更差的结果,3.随机梯度下降
- GBDT, GBDT和随机森林比较
- xgboost
- 神经网络算法:owlqn, SGD
- 激活函数
- logistic regression,logistic和朴素贝叶斯的区别
- 多分类auc计算
- GeoHash核心原理解析
-
决策树缺失值处理
13.dbscan聚类算法
2.概率和线性代数
- 期望、方差、协方差及相关系数的基本运算
- 最大似然估计
- 梯度下降法好文章
- 特征值分解,奇异值分解,主成分分析,有用文章,原理讲解,好文章
- EM算法
- 社区发现Louvain算法 , 算法讲解
- 概率面试题
- 常用概率分布
- 蒙特卡洛抽样
3.自然语言处理
- 统计语言模型
- N元文法模型:《数学之美》page54
- 工程技巧,平滑方法:page60
- 分词
- 基于字符匹配:最长词匹配,歧义词和未登录词处理不好
- 基于统计:相邻的字同时出现的次数越多,就越可能构成一个词。 隐马尔科夫模型 + N-gram
- 文本相似度计算
- word2vec