[1]杨晓江,李丽娟,田俊华,李艺.面向基础教育的Web资源垂直服务体系研究[J].数字乡愿,2006,(7):53-57.
一、搜索引擎更加专业化
互联网的发展让资源得到更广泛的共享,与此同时资源不管在种类和数量上都呈爆炸式增长。人们迫切需要从众多资源中找到自己需要的资源,但目前搜索引擎的检索结果往往并不全部符合需求,这就需要用户依据自身经验进行二次检索。搜索引擎就是利用关键字将计算机中存储的数据与用户需求进行匹配,搜索结果覆盖范围大,这也有可能使得资源针对性变弱。
通过使搜索引擎只服务于特定领域用户,提高检索效果。杨晓江提出Web资源垂直服务体系[1]就是为用户提供特定领域的web资源服务。
基础教育搜索引擎的工作流程如下: 首先, 网络蜘蛛根据某种策略在互联网上自动寻找基础教育相关的资源, 下载并保存新发现的资源及其URL;然后, 经过资源预处理程序除去其中不相关的信息 ( 噪音) ,再交由文档自动分类器对文档进行过滤、 分类处理; 接着交由文档标引程序建立倒排索引, 形成基础教育搜索引擎索引数据库, 这样,当用户向基础教育搜索引擎提交查询请求时,用户检索子系统就可以从基础教育资源索引数据库中检索出相匹配的资源及其URL,用户根据此URL就能访问Web上的原始资源。 其中,,文档自动分类器需要事先对人工提供的已分类样本文档进行机器学习,从中提取出基础教育资源的各类别特征,形成基础教育资源特征库。 在此基础上, 文档自动分类器即可对网络蜘蛛下载下来的资源进行判断和自动分类。[1]
其中涉及到的关键技术有:
网络蜘蛛:不断从互联网上爬取新资源,同时定期更新资源。
文档预处理:从互联网上获取的资源格式各种各样,每一个格式的资源都要有一个解析器程序,这样才能忽略各种奇怪的符号,提取有用的信息。
中文分词:将句子分解成一个个词语,判断词性和命名实体(比如将“iphone 6”作为一个词,而不是 “iphone” 一个, “6” 一个)。
文档特征提取:目的是从文档中提取出最能够表达文档内容和特性的关键信息, 从而在准确描述文档的同时, 尽可能减少计算机的计算工作量。[1]
文档自动分类:根据文档特征,对数字化文档资源进行分类。
文档实时自动摘要:文档自动摘要能对一篇网络文档自动提取其内容摘要, 摘要文本的长度可以根据需要调节。 摘要结果可以用于在罗列检索结果时, 让用户迅速地浏览到该资源的内容提要。[1]
分布式信息检索:“ 分布式” 包括索引数据的多节点分布和查询任务执行的多节点分布两个方面。 分布式检索系统由一个中心服务器负责接受用户的检索请求、 分发检索请求到具体的查询任务执行子节点、 接收合并的查询结果并返回给用户。[1]