Search Results Relevance@Kaggle

最近改论文业余玩的一个比赛。我是在最后10几天开始玩的，虽然最后名次不高，但是还是挺有意义的一次比赛。

题目：预测在线评论网站的搜索结果评分。
数据：查询（query）、产品title、产品描述

我加入的时候已经有1000+只队伍/个人参与了。这是一个文本相关的预测任务，我们需要通过给出的查询、产品文本信息，预测用户（多个）对查询结果的评分的中位数，即查询与结果的相关系数。

评估标准是quadratic weighted kappa[1]

Benchmark&其他选手提供的Script的一个简单思路就是将文本连接在一起，用tfidf刻画每个Doc，再通过svd分解成低维的矩阵，以相关系数作为label，作为多分类问题放入分类算法。

这里怎么处理文本是一个很有门道的活，关于文本的预处理的工作主要以及主要工具：

去除HTML标签，使用的BeautifulSoup
去除停用词
词干提取，nltk.PorterStemmer

这里介绍两个script作为benchmark：

记为modelA，无预处理，查询+产品title->tfidf->SVD(400)->标准化->SVM
这个方法，没有对文本预处理，直接将查询和产品title连接在一起。LB0.579+
记为modelB，完整的文本预处理->tfidf->SVD(400)->标准化->SVM
这个方法使用了产品描述，并进行了预处理工作。LB0.600+

有一个人对上述两个方法使用了简单的线性stacking learning[2]，在LB上得到了0.626的成绩。

以上使用的是CV来搜索参数和防止过拟。

我使用的是8:2的线下训练集/验证集划分，这样做的原因是结果比较稳定。

我的思路是寻求其它一套具有物理意义的特征体系。

我发现训练集和测试集的查询（query）是一样的，一共260个。因此可以利用label给每个查询做一套特征，主要是每个查询label的统计（均值、max、min和标准差）、每个label值（1,2,3,4）占比、以及占比的威尔逊区间[3]下限以及下限乘以占比、还有label标准差的统计（均值、max、min和标准差）。
单词粒度的统计信息：查询、产品title、产品描述的单词计数，查询中的单词出现在title中的数量以及占比等等。
这套特征体系LB0.57左右，记为modelX

接下来一段时间就是做modelA+modelB+modelX的stacking learning，结果一直在0.62~0.64左右徘徊。期间尝试过

对relevance variance（一条记录label的标准差）零和非零做分层学习，即产生两个model再做ensemble，线下确实提升了，但是线上却下降，原因不明。
将modelA和modelB的输出概率作为特征加入modelX，结果不好。

最后的几天，改变ensemble的方法，改用modelA svd分解的后的特征+modelX特征作为modelA+，同理得到modelB+，这两个模型再做stack learning，调参后LB0.669.

最后一天，尝试了Word2vec[4]，使用gensim训练了（query+product title+product description）组成的语料，输出了300维的word2vec，再通过average的方法得到了每个doc的300维特征以此作为modelC的特征。与modelX结合，线下取得了比modelA+好的成绩。

最后一次提交使用的是modelA+ + modelB+ + modelC+，LB是0.669（但比之前那个略差），我想应该是欠拟合的缘故，应该会比之前有提高的。

最后成绩并不理想，public LB rank 105， private LB rank 85.

体会：

最后有点遗憾，应该早点使用word2vec，google提前训练好的vector没有下载下来= =。
可以看出来我并没有做很细致的工作，几乎都是benchmark上做ensemble。
stacking learning很简单，却很实用。

Reference

Search Results Relevance@Kaggle

推荐阅读更多精彩内容