简介
机器学习排序是推荐、搜索、广告的核心方法。排序结果的好坏很大程度影响用户体验、广告收入等。机器学习排序是一个有监督的机器学习过程,对每一个给定的查询-文档对,抽取特征,通过日志挖掘或者人工标注的方法获得真实数据标注。然后通过排序模型,使得输出的排序结果尽可能接近实际想要的结果。
数据介绍
查询文档对的特征一般可以分为3大类:
- Doc本身的特征:Pagerank、内容丰富度、是否是垃圾文档、质量值、CTR等
- Query-Doc的特征:Query-Doc的相关性、Query在文档中出现的次数,査询词的Proximity值(即在文档中多大的窗口内可以出现所有査询词)等
- Query的特征:Query 在所有Query 中的出现次数、比率等