python+框架+模型学习
python学习
numpy
NumPy是Python语言的一个扩充程序库。支持高级大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。Numpy内部解除了Python的PIL(全局解释器锁),运算效率极好,是大量机器学习框架的基础库!
基础功能演示 -- 简书
argmax
argmax返回的是最大数的索引.argmax有一个参数axis,默认是0,表示第几维的最大值.二维axis = 0,逐列找出最大的索引,axis = 1,逐行找
argmax介绍 -- CSDN
reset_index
重置DataFrame的索引,并使用默认值。如果DataFrame具有MultiIndex,则此方法可以删除一个或多个级别。
reset_index 介绍 -- pandas文档
ranknet
RankNet是2005年微软提出的一种pairwise的Learning to Rank算法,它从概率的角度来解决排序问题。RankNet的核心是提出了一种概率损失函数来学习Ranking Function,并应用Ranking Function对文档进行排序。这里的Ranking Function可以是任意对参数可微的模型,也就是说,该概率损失函数并不依赖于特定的机器学习模型,在论文中,RankNet是基于神经网络实现的。除此之外,GDBT等模型也可以应用于该框架。
Learning to Rank算法介绍:RankNet,LambdaRank,LambdaMart -- cnblogs
GBDT(MART) 迭代决策树
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。
GBDT -- CSND
LightGBM(lgb)
LightGBM是个快速的,分布式的,高性能的基于决策树算法的梯度提升框架。可用于排序,分类,回归以及很多其他的机器学习任务中。
lgb算法介绍 -- CSDN
LightGBM 中文文档
lgb 参数解析
lgb 参数调整 -- 简书
lgb 参数介绍 -- CSDN
bagging 和 boosting
Baggging和Boosting都是模型融合的方法,可以将弱分类器融合之后形成一个强分类器,而且融合之后的效果会比最好的弱分类器更好。
区别简单介绍 -- cnblogs
transform AND fit_transform
tranform()的作用是通过找中心和缩放等实现标准化
fit_transform()的作用就是先拟合数据,然后转化它将其转化为标准形式
区别 -- CSDN
TF-IDF
由于数据挖掘所有数据都要以数字形式存在,而文本是以字符串形式存在。所以进行文本挖掘时需要先对字符串进行数字化,从而能够进行计算。TF-IDF就是这样一种技术,能够将字符串转换为数字,从而能够进行数据计算。TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一份文件对于所在的一个语料库中的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF意思是词频(Term Frequency),IDF意思是逆向文件频率(Inverse Document Frequency)。
所谓Tfidf,可以分为TF(词频, Term Frequency)和IDF(反文档频率, Inverse Document Frequency)
TD-IDF和TruncatedSVD -- CSDN
TruncatedSVD -- scikit-learn.org
TF-IDF模型 -- cnblogs
f1_score与StratifiedKFold
f1_score
越接近1越好
StratifiedKFold
将测试集分为测试集与验证集,用于交叉验证。