内容算法 | 搜索系统的框架是什么

通常将搜索系统分为离线和在线两部分。

其中离线部分专注于内容的搜集和处理。搜索引擎的爬虫系统会从海量网站上抓取原始内容,并针对搜索系统的不同要求建立不同的索引体系。假设新内容是有时效性消费价值的,那么,为了让新内容能被更好的检索,可以建立专门的时效性索引用于存储几小时之内发布的内容。

索引是一个基于关键词的序列,每一个关键词队应一长串提及该关键词的内容,比如,“教育”这命中了内容1,2,3,篮球命中了内容1,2,4.

在线部分负责响应用户的搜索请求,完成内容的筛选和排序。

当用户输入搜索词后,系统首先会对搜索词进行分词、变换、扩充、纠错等处理,以便更好地理解用户的搜索意图。

离线部分和在线部分都需要通过各种方式来获取待推荐的内容,对内容平台来说,内容的结构化要远胜于推荐引擎爬虫抓取的内容。

这之后,离线系统依据推荐引擎对信息的不同理解维度对这些内容进行索引化处理。在线部分同理——量化用户的请求,完成内容的筛选和排序。

推荐与搜索最大的差异在于用户表意是否明确,因此,推荐系统需要尽可能地完善用户画像和短期场景,比如用户喜欢什么,在近段时间内可能在哪个热点下喜欢什么样的内容,这样才能够通过用户的每次请求更好地揣摩用户意图。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。