搜索的本质:信息获取 (从门户——目录——搜索——推荐)
(ndir)
搜索的应用场景:
1、文档/内容/资源搜索(入口,辅助)
2、个人文档搜索
3、分类/混合搜索
4、搜索提示(关键词,直接结果)
5、标签搜索、主题搜索
6、用户搜索、社交搜索
7、相似内容推荐
8、内部数据检索(反垃圾、运营审核)
9、日志多维分析
10、高维特征匹配
搜索的更多功能
1、匹配摘要/高亮
2、热门搜索提取
3、搜索结果分类
4、拼写纠错
5、相关搜索
搜索结果评估
评估标准:
click(convert),Precision/Recall,MAP(?),NDCG
用户体验:输入成本,合理排序,重复结果,badcase
评估方式:
人工评估(人工比较、主观定性判断)、离线数据评估(基于历史数据)、在线数据评估(纵向对比,a/btest)
搜索影响因素
内容:数量、覆盖、质量
匹配/检索:分词策略,检索策略
排序:特征,规则/模型
产品形态:入口形态,展示形态,辅助方式
搜索改进策略:检索与排序
匹配/检索策略:
基本分词;模糊分词;检索方式(前缀、匹配度、相似词);检索模型(布尔模型?,向量空间)
排序策略:
排序特征----文本相似度,文档热度,点击数据, 查询属性等
排序策略----规则排序,学习排序(线性/非线性)
搜索改进策略:数据与产品
内容:
- 内容数量、类目覆盖、人们覆盖
- 高质量内容建设
产品形态:
- 入口:通用 分类
- 展示:内容摘要,匹配理由,内容质量,图片,直接效果
- 辅助功能:提示 ; 纠错 ; 相关搜索 ; 结果分类
搜索改进过程
建立评估标准:在线点击率,离线评估指标
发现问题:产品反馈,用户反馈,数据分析
分析问题:内容,匹配/检索,排序
改进方案:完善内容,改进分词,优化排序
验证效果:人工判定,离线评估,线上验证
用户搜索分布
查询分布:2 8原则
产品搜索数据:
- Top1% keywords——50% searches
- Top10% keywords——80% searches
优化方向:
热门词优化——指标
全局词优化——用户体验